lunedì 29 aprile 2013

Aggiornamento GenData Model

GenData Model for Next Generation Sequencing

Ho pubblicato il primo draft di documento sul modello dei dati. Il documento è una
evoluzione di quanto vi ho presentato nella riunione di Marzo – tanto tempo fa, ma è stato un parto molto sofferto e che quindi non sono riuscito a rilasciare prima. Abbiamo rinunciato a descrivere le feature nel data model; sono troppo eterogenee. Invece, è emerso che dati sperimentali e ontological feature possono essere rappresentati come “regioni” del genoma, anche molto eterogenee, e che in questo modo è possibile costruire una rappresentazione delle regioni in un “Genome Space” bidimensionale (feature/esperimenti), che puo’ essere indicizzato. Ci siamo concentrati su esperimenti di DNASeq, RNASeq e ChipSeq. Lo schema ha i 4 sotto-schemi, di cui quello degli esperimenti e dei dati hanno subito poche modifiche; è rimasto il sotto-schema che descrive la “mappatura” dei dati sperimentali in regioni, ed è stato aggiunto uno schema per descrivere i meccanismi di supporto alle query (genome-wide indexing e telescopi).
Ci sono appendici che descrivono gli schemi dati DAS, IGB e MIAME, con i quali dobbiamo interagire (con mapping che sembrano alla portata ma andranno specificati con precisione). Lo schema è ridondante per quanto concerne i dati ragionevolmente associabili ad un esperimento (in pratica si prevede che ce ne siano molto meno) ed è “estendibile” prevedendo coppie <attribute-value> che si possono aggiungere alle varie entità.

Stefano Ceri




Nessun commento:

Posta un commento