Vai ai contenuti. | Spostati sulla navigazione | Spostati sulla ricerca | Vai al menu | Contatti | Accessibilità

logo del sistema bibliotecario dell'ateneo di padova

Apolloni, Andrea (2012) Confronto di metodi statistici per la misura dell'espressione differenziale in dati di RNA sequencing. [Magistrali biennali]

Full text disponibile come:

[img]
Anteprima
Documento PDF
25Mb

Abstract

L’RNA sequencing (RNA-­‐Seq) è una tecnica per l’analisi del trascrittoma e la sua quantificazione, basata sulle recenti tecnologie Next-­‐Generation Sequencing (NGS). Lo sviluppo tecnologico ha infatti permesso di ottenere piattaforme di sequenziamento che generano dati ad alto throughput e con costi molto inferiori rispetto ai sequenziatori tradizionali. La prima parte di questa tesi offre una panoramica sulle più diffuse piattaforme commerciali di sequenziamento NGS (454 Genome Sequencer di Roche, Genome Analyzer di Illumina, SOLiD di Applied Biosystems), valutandone le caratteristiche tecniche e le prestazioni. I dati grezzi che i sequenziatori permettono di ottenere sono le read, cioè sequenze che identificano l’ordine in cui si susseguono le basi azotate che compongono il gene. In un esperimento RNA-­‐Seq, l’espressione genica viene misurata in termini di count, cioè del numero di read mappate sui geni di un genoma o trascrittoma di riferimento. I count sono dunque somme di variabili aleatorie (l’assegnazione delle read a ciascun gene) e sono descrivibili tramite modelli statistici. I principali modelli utilizzati in letteratura sono il modello binomiale, il modello di Poisson e il modello Binomiale Negativo. La descrizione statistica dei dati di RNA-­‐Seq è oggetto di studio molto recente e non esiste ancora una descrizione comune. In questa tesi si è quindi cercato di organizzare le informazioni in un modello generale della distribuzione dei dati, stabilendo una notazione comune nella descrizione dei lavori dei diversi autori. Una delle più interessanti applicazioni di RNA-­‐Seq è l’analisi dell’espressione differenziale, cioè l’identificazione dei geni che presentano significative differenze del loro livello di espressione fra due o più condizioni sperimentali (interne o esterne alla cellula). In esperimenti RNA-­‐Seq, ciò significa valutare se le differenze osservate nei count delle diverse condizioni sperimentali siano o meno significative in senso statistico. Sono molti gli autori e i gruppi di ricerca che hanno sviluppato proposte di metodi di analisi differenziale, che implementano i modelli di distribuzione dei dati sopra citati. In questa tesi sono stati considerati i metodi DEGSeq, PoissonSeq (che implementano il modello di Poisson), edgeR e DESeq (che implementano il modello Binomiale Negativo). Ciascun metodo è stato testato su due data set pubblici valutandone le prestazioni in termini di precisione e sensitività. EdgeR è risultato il migliore, anche se tutti i diversi metodi hanno ottenuto risultati molto simili fra loro. Studi futuri con presenza di repliche biologiche potranno fornire indicazioni statisticamente più significative sulla bontà dei metodi

Tipologia del documento:Magistrali biennali
Parole chiave:RNA-Seq, RNA Sequencing, sequenziamento, genomica, trascrittoma, analisi differenziale
Settori scientifico-disciplinari del MIUR:Area 09 - Ingegneria industriale e dell'informazione > ING-INF/06 Bioingegneria elettronica e informatica
Codice ID:39543
Relatore:Di Camillo, Barbara
Data della tesi:13 Marzo 2012
Biblioteca:Polo di Ingegneria > Biblioteca Interdipartimentale di Ingegneria dell'Informazione e Ingegneria Elettrica
Tipo di fruizione per il documento:on-line per i full-text

Solo per lo Staff dell Archivio: Modifica questo record