mercoledì 3 luglio 2013

AGENDA DELLA RIUNIONE DEL 12/7/2013

La prossima riunione PRIN si svolgerà il 12 luglio a Roma, in Aula Magna di via Ariosto 25 – siamo tutti ospiti di Maurizio Lenzerini, che ringrazio. Abbiamo poco tempo, inizierei puntuale alle 10 del mattino per finire alle 5 del pomeriggio.

Ritengo utile una mia prima presentazione del lavoro fatto a Milano da Marzo ad oggi. A seguire, chiederei brevissime (10 minuti) relazioni di ciascuna sede, in cui ci dite cosa è stato fatto nel periodo; mi aspetto delle presentazioni abbastanza eterogenee, ma credo sia utile dare a ciascun team-leader l’opportunità di dire su cosa il team sta lavorando.

Dedicheremo il pomeriggio alla discussione.

Vi ricorderete che l’ultima volta era emerso un “legame forte” tra il data modeling, l’interpretazione ontologica e la data analysis; i nostri risultati preliminari confermano questa intuizione, e si potrebbe quindi ripartire da una discussione sul come sviluppare queste tre parti del progetto in modo sinergico. C’è anche un ovvio legame tra il data modeling e le tecniche di indicizzazione e di ottimizzazione del calcolo. Quindi, nella mia visione strategica, questi task costituiscono una sorta di “cluster” in cui è molto utile che ciascun task tenga conto degli altri.

Poi, mi sembra ci siano alcune parti di progetto che possono collegarsi “debolmente”, tipicamente la gestione della sicurezza/privatezza/integrità dei dati e la integrazione con i dati clinici. Magari sarebbe utile che i legami deboli tra legami deboli si rafforzassero, portando avanti un secondo “cluster” (penso a stefano/pierangela/alfredo/mimmo/sergio) che ragioni assieme, in cui ci sia ad esempio una scelta di casistiche correlate a magari con una componente di tipo genomico che consenta una asintotica convergenza dei due cluster su uno o più problemi.

Propongo che la discussione delle prime due ore sia sul primo cluster e nella successiva ora sul secondo cluster. Con questa premessa, la scaletta della riunione che vi propongo è:

10:00-11:00 Stefano, presentazione del lavoro Polimi-IEO-IIT
11:00-13:00 Presentazione di 10 min dei 9 gruppi (timed).
14:00-16:00 Discussione cluster 1

16:00-17:00 Discussione cluster 2

I commenti sono benvenuti!

Stefano

DNA 2020 - QUERY LANGUAGE (draft)


Stefano Ceri, Marco Masseroli, Matteo Matteucci, Fernando Palluzzi, Pietro Pinoli, Francesco Venco
DEIB, Politecnico di Milano


Il documento descrive un’algebra per interrogare i dati “genometrici”, ed è un super-draft del “query language di GENDATA 2020”. L’algebra ha operatori ortogonali (SELECT, PROJECT, GROUP, EXTRACT, MAP, JOIN) e anche operatori per spostarsi dallo spazio delle query allo spazio della data analysis. Immaginando alla fine un sistema di calcolo parallelo, l’algebra potrebbe essere vista come una sorta di PIG del GENOMIC COMPUTING. Il documento è super-draft ma ci sono studi di caso che ne mostrano l’applicabilità a casi generali, e con un po’ di polishing dovrebbe cogliere i nostri obiettivi.

AN OVERVIEW OF THE GDM SYSTEM AND PROCESSES

Stefano Ceri, Gianpaolo Cugola, Marco Masseroli, Matteo Matteucci
DEIB, Politecnico di Milano

Heiko Muller
IIT-SEMM, Milano


Questo documento descrive a grandi linee l’architettura di un possibile “sistema GENDATA 2020”. La principale idea è di descrivere anche le cosiddette “annotazioni biologiche” come i dati sperimentali, consentendo di scambiare il loro ruolo. In genere, ci si aspetta che le annotazioni forniscano “regioni di riferimento” (i geni) mentre i dati sperimentali individuano i “valori” regione per regione; però dato che le regioni sperimentali e le annotazioni sono descritte allo stesso modo possono scambiarsi fra loro, e questo consente di usare i dati sperimentali come regioni di riferimento, oppure di mescolare dati sperimentali e annotazioni. Altri aspetti del sistema sono definire “full gene index” – un array binario che, avendo suddiviso il genoma di riferimento in segmenti di ugual lunghezza, vale 1 quando c’è intersezione tra il segmento e la regione sperimentale; e i “telescopi”, una sorta di materializzazioni di specifiche query per velocizzare l’esecuzione.

lunedì 29 aprile 2013

Aggiornamento GenData Model

GenData Model for Next Generation Sequencing

Ho pubblicato il primo draft di documento sul modello dei dati. Il documento è una
evoluzione di quanto vi ho presentato nella riunione di Marzo – tanto tempo fa, ma è stato un parto molto sofferto e che quindi non sono riuscito a rilasciare prima. Abbiamo rinunciato a descrivere le feature nel data model; sono troppo eterogenee. Invece, è emerso che dati sperimentali e ontological feature possono essere rappresentati come “regioni” del genoma, anche molto eterogenee, e che in questo modo è possibile costruire una rappresentazione delle regioni in un “Genome Space” bidimensionale (feature/esperimenti), che puo’ essere indicizzato. Ci siamo concentrati su esperimenti di DNASeq, RNASeq e ChipSeq. Lo schema ha i 4 sotto-schemi, di cui quello degli esperimenti e dei dati hanno subito poche modifiche; è rimasto il sotto-schema che descrive la “mappatura” dei dati sperimentali in regioni, ed è stato aggiunto uno schema per descrivere i meccanismi di supporto alle query (genome-wide indexing e telescopi).
Ci sono appendici che descrivono gli schemi dati DAS, IGB e MIAME, con i quali dobbiamo interagire (con mapping che sembrano alla portata ma andranno specificati con precisione). Lo schema è ridondante per quanto concerne i dati ragionevolmente associabili ad un esperimento (in pratica si prevede che ce ne siano molto meno) ed è “estendibile” prevedendo coppie <attribute-value> che si possono aggiungere alle varie entità.

Stefano Ceri