Stefano Ceri, Gianpaolo Cugola, Marco Masseroli, Matteo Matteucci
DEIB, Politecnico di Milano
Heiko Muller
IIT-SEMM, Milano
Questo documento descrive a grandi linee l’architettura di un possibile “sistema GENDATA 2020”. La principale idea è di descrivere anche le cosiddette “annotazioni biologiche” come i dati sperimentali, consentendo di scambiare il loro ruolo. In genere, ci si aspetta che le annotazioni forniscano “regioni di riferimento” (i geni) mentre i dati sperimentali individuano i “valori” regione per regione; però dato che le regioni sperimentali e le annotazioni sono descritte allo stesso modo possono scambiarsi fra loro, e questo consente di usare i dati sperimentali come regioni di riferimento, oppure di mescolare dati sperimentali e annotazioni. Altri aspetti del sistema sono definire “full gene index” – un array binario che, avendo suddiviso il genoma di riferimento in segmenti di ugual lunghezza, vale 1 quando c’è intersezione tra il segmento e la regione sperimentale; e i “telescopi”, una sorta di materializzazioni di specifiche query per velocizzare l’esecuzione.
Nessun commento:
Posta un commento