Gene expression profiling

Nel campo della biologia molecolare, gene expression profiling (tradotto come analisi di espressione genica) è la misura dell'attività (l'espressione) di migliaia di geni alla volta, per creare un'immagine globale della funzione cellulare. Questi profili possono, per esempio, distinguere tra cellule che sono in proliferazione, o mostrare come le cellule reagiscono ad un particolare trattamento. Molti esperimenti di questo tipo misurano un intero genoma simultaneamente.

Le heat map di valori di espressione genica mostrano come le condizioni sperimentali influenzano la produzione (l'espressione) di mRNA per un insieme di geni. In verde viene indicata la ridotta espressione. Un'analisi ha evidenziato un gruppo di geni down regolati nell'angolo in alto a sinistra.

La tecnologia DNA Microarray[1] misura l'attività relativa dei geni target identificati precedentemente. Anche tecniche basate sulla sequenza, come la serial analysis of gene expression (tradotto come analisi seriale di espressione genica e abbreviata come SAGE oppure SuperSAGE) sono usate per la gene expression profiling. La SuperSAGE è molto accurata e può misurare ogni gene attivo, non solo un gruppo predefinito. L'avvento di sequenziatori di ultima generazione ha reso l'analisi di espressione fondata sulla sequenza, un'alternativa digitale ai microarray sempre più popolare. Ad ogni modo, i microarray sono molto più comuni, infatti sono citati in 17.000 articoli PubMed del 2006[2].

Premesse

modifica

L'analisi di espressione è un passo successivo al sequenziamento genomico: la sequenza ci dice ciò che la cellula potrebbe fare, mentre l'analisi di espressione ci dice cosa sta realmente facendo. I geni contengono le informazioni per produrre mRNA, ma in ogni momento ogni cellula produce mRNA solo da una frazione di geni. Se un gene viene usato per produrre mRNA, è considerato "on", altrimenti "off". Molti fattori determinano se un gene è "on" oppure "off", come l'ora del giorno, se la cellula è in proliferazione oppure no, l'ambiente in cui si trova, e segnali chimici da altre cellule. Le cellule della pelle, del fegato e quelle nervose accendono (esprimono) differenti geni e questo è in gran parte ciò che le rende diverse. Quindi, un'analisi di espressione permette di dedurre il tipo di cellula, il suo stato, il suo ambiente e così via.

Gli esperimenti di analisi di espressione spesso implicano la misura della quantità relativa del mRNA espresso in due o più condizioni sperimentali. Questo perché livelli alterati di una specifica sequenza di mRNA fanno pensare ad un cambiamento nel fabbisogno da parte della cellula della proteina codificata dal mRNA, il che probabilmente indica una risposta omeostatica o una condizione patologica. Per esempio, elevati livelli di mRNA codificante per l'alcol deidrogenasi suggeriscono che le cellule o i tessuti in esame stanno rispondendo ad aumentati livelli di etanolo. Similmente, se le cellule del cancro al seno esprimono livelli più elevati di mRNA associato con un particolare recettore transmembrana rispetto alle normali cellule, potrebbe essere che questo recettore giochi un ruolo nel cancro al seno. Un farmaco che interferisca con questo recettore potrebbe prevenire o curare il cancro al seno. Durante lo sviluppo di un farmaco, si potrebbe eseguire l'analisi di espressione genica per la valutazione dei livelli di tossicità, ad esempio cercando cambiamenti nei livelli dell'espressione dei geni del citocromo P450, il quale potrebbe essere un biomarker del metabolismo dei farmaci[3]. L'analisi di espressione genica potrebbe diventare un importante test diagnostico[4][5] .

Confronto con la proteomica

modifica

Il genoma umano contiene 25.000 geni, che lavorano assieme per produrre 1.000.000 di diverse proteine. Questo perché le cellule attuano importanti cambiamenti attraverso modifiche post-trascrizionali e post-traduzionali alle proteine dopo che sono state assemblate, così un dato gene serve come base per molte possibili versioni di una particolare proteina. Esperimenti di spettrometria di massa potrebbero identificare circa 2.000 proteine[6] o lo 0,2% del totale, mentre conoscere la proteina precisa di una cellula è molto importante, come la conoscenza di quanto mRNA è prodotto da ogni gene. La gene expression profiling produce l'immagine globale in un singolo esperimento.

Uso per generare ipotesi e validazione

modifica

A volte, un ricercatore ha già un'idea del risultato, un'ipotesi, ed esegue l'esperimento di analisi di espressione con l'idea di una potenziale smentita. In altre parole, il ricercatore sta facendo una specifica predizione sui livelli di espressione che potrebbe risultare falsa.

Molto comunemente, l'analisi del profilo di espressione ha luogo prima che si abbia una sufficiente conoscenza di come i geni interagiranno con le condizioni sperimentali per formulare un'ipotesi. Senza ipotesi, non c'è niente da smentire, ma l'analisi del profilo di espressione può aiutare ad identificare un'ipotesi per i futuri esperimenti. I primi esperimenti di analisi del profilo di espressione e molti degli attuali, sono strutturati in questo modo[7] conosciuto come "class discovery". Un approccio comune della "class discovery" consiste nel raggruppare di geni o campioni usando l'algoritmo k-means o raggruppamento gerarchico. La figura rappresenta il risultato di un raggruppamento bidimensionale, in cui campioni simili (righe) e sonde geniche simili (colonne) sono organizzati in modo da essere vicini. La forma più semplice di "class discovery" consiste nell'elencare tutti i geni che variano oltre una certa quantità tra due condizioni sperimentali.

La "class prediction" è più difficile della "class discovery", ma permette di rispondere a domande di diretto significato clinico ad esempio: "Dato un certo profilo, qual è la probabilità che questo paziente risponderà a questo farmaco?". Questo richiede molti esempi di profili che hanno risposto e che non hanno risposto, nonché tecniche di cross-validazione per discriminarli.

In generale, le analisi del profilo di espressione identificano quei geni che mostrano differenze statisticamente significative in condizioni sperimentali diverse. Questi geni rappresentano una piccola frazione del genoma per diverse ragioni. Primo, cellule e tessuti differenti esprimono un sottogruppo di geni come conseguenza del differenziamento cellulare, dunque molti geni sono spenti. Secondo, molti dei geni codificano per proteine che sono richieste per la sopravvivenza in specifiche quantità, dunque molti geni non cambiano. Terzo, le cellule usano altri meccanismi di regolazione proteica oltre alla regolazione della quantità di mRNA: questi geni potrebbero rimanere costantemente espressi anche quando la concentrazione delle proteine si alza o si abbassa. Quarto, costrizioni finanziarie limitano l'analisi del profilo di espressione ad un esiguo numero di osservazioni dello stesso gene in condizioni identiche, riducendo il potere statistico dell'esperimento, e rendendo impossibile l'identificazione di cambiamenti piccoli ma importanti. Infine, è necessario un grande sforzo per discutere il significato biologico di ogni gene regolato, così i ricercatori spesso limitano la discussione ad un sottogruppo di geni. Recenti tecniche basate sui microarray relazionano il significato biologico ai risultati dell'analisi del profilo d'espressione, ma questo rimane un problema difficile.

La limitatezza delle liste di geni pubblicate a seguito degli esperimenti di analisi di espressione genica, limita la possibilità che gli esperimenti condotti in diversi laboratori siano concordanti. Ponendo i risultati di analisi di espressione genica in un database di microarray pubblicamente accessibile si dà la possibilità ai ricercatori di stabilire profili di espressione dalle pubblicazioni, identificando similitudini con altri lavori.

Validazione dei risultati ottenuti

modifica

Sia la tecnica del DNA microarray che quella della QPCR sfruttano il legame preferenziale o "coppie di basi" di sequenze di acidi nucleici complementari, ed entrambi sono usati nell'analisi di espressione genica, spesso in modo seriale. Mentre i DNA microarray ad alte prestazioni mancano dell'accuratezza quantitativa delle QPCR, la quantificazione dell'espressione di una dozzina di geni via QPCR richiede all'incirca lo stesso tempo necessario per analizzare un intero genoma utilizzando la tecnica dei DNA miroarray. Quindi spesso ha senso eseguire esperimenti semi-quantitativi di DNA microarray per identificare geni candidati, poi eseguire la QPCR su alcuni dei più interessanti per validare i risultati dei microarray. Altri esperimenti, come il western blot di alcuni dei prodotti proteici di geni espressi in modo diverso, rendono più convincente le conclusioni basate sul profilo d'espressione, dato che i livelli di mRNA non correlano necessariamenti con la quantità di proteina espressa.

Analisi statistica

modifica

L'analisi dei dati dei microarray è diventata un'area di intensa ricerca[8]. Affermare che un gruppo di geni viene regolato almeno in doppio, una volta prassi comune, manca di una solida base statistica. Con cinque o meno esperimenti in ogni gruppo, tipico per i microarray, una singola osservazione outlier può creare una differenza apparente maggiore di due volte. Inoltre, configurare arbitrariamente la barra di errore al doppio non è biologicamente corretto, perché esclude molti geni con ovvio significato biologico.

Piuttosto che identificare geni espressi differentemente usando un valore di cutoff basato sul rapporto tra il valore ottenuto e valore di controllo, si potrebbe usare una varietà di test di verifica d'ipotesi oppure un test omnibus come ANOVA, i quali considerano sia il rapporto che la variabilità per creare un p-value, una stima di quanto spesso osserveremmo il dato casualmente. L'applicazione dei p-value al microarray è complicato dal notevole numero di comparazioni multiple (geni) coinvolte. Per esempio, un p-value di.05 è solitamente considerato indice di significatività, perché stima una probabilità del 5% di ottenere il dato casualmente. Ma con 10.000 geni su un microarray, 500 geni verrebbero identificati come significativi con p < .05 anche in assenza di differenze tra i gruppi sperimentali. Una soluzione ovvia è considerare significativi solo quei geni caratterizzati da un p-value più stringente, esempio, si potrebbe eseguire una correzione di Bonferroni sui p-value, o usare calcoli di false discovery rate per aggiustare il p-value in proporzione al numero di test paralleli coinvolti. Purtroppo, questi approcci possono ridurre a zero il numero dei geni significativi, anche quando i geni sono infatti differenzialmente espressi. Analisi statistiche recenti come i prodotti Rank mirano a trovare un equilibrio tra l'identificazione di geni falsi positivi dovuta al caso e la non identificazione di geni veri positivi. Metodi comunemente citati includono l'analisi delle significatività dei microarray (in inglese Significance Analysis of Microarray abbreviato come SAM)[9] e sono disponibili un'ampia gamma di metodi dal sito Bioconductor e di pacchetti di analisi dalle compagnie di bioinformatica.

Se si seleziona un test differente solitamente si identifica una lista diversa di geni significativi[10] dato che ogni test lavora con una specifica serie di ipotesi, e posiziona nei dati un differente accento su certe caratteristiche. Molti test iniziano con l'assunzione di una variabile casuale Gaussiana dei dati, perché questo sembra un punto di partenza ragionevole e spesso produce risultati che appaiono più significativi. Alcuni test considerano la joint distribution di tutte le osservazioni geniche per stimare la variabilità generale nelle misurazioni[11], mentre altri osservano ogni gene singolarmente. Molte tecniche moderne di analisi su microarray coinvolgono il metodo bootstrap, l'apprendimento automatico o i Metodi Monte Carlo[12].

Con l'aumentare del numero di esperimenti ripetuti in un microarray, vari approcci statistici producono risultati sempre più simili, ma la mancanza di concordanza tra differenti metodi statistici rende i risultati meno affidabili. Il Progetto MAQC[13] fa delle raccomandazioni per aiutare i ricercatori a selezionare metodi più standardizzati così che gli esperimenti condotti in differenti laboratori possano concordare maggiormente.

Annotazioni geniche

modifica

Mentre la statistica può identificare in maniera affidabile quale gene produce cambiamenti in condizioni sperimentali, dare un senso biologico al profilo di espressione dipende da quale proteina produce ogni gene e quale funzione compie. Le annotazioni geniche forniscono informazioni funzionali e di altro tipo, per esempio la localizzazione di ogni gene all'interno di un particolare cromosoma. Alcune annotazioni funzionali sono più affidabili di altre; alcune sono assenti. I database di annotazioni geniche cambiano regolarmente, e i vari database fanno riferimento alle stesse proteine con differenti nomi, il che riflette una comprensione mutevole della funzione proteica. L'utilizzo di una nomenclatura genica standardizzata aiuta il problema della nomenclatura, ma l'esatto abbinamento dei trascritti ai geni[14][15] rimane una considerazione importante.

Categorizzazione dei geni

modifica

Una volta identificati alcuni gruppi di geni, il successivo step dell'analisi del profilo di espressione implica la ricerca di pattern all'interno dei gruppi. Le proteine provenienti da questi geni assumono una funzione simile? Sono chimicamente simili? Risiedono in compartimenti cellulari simili? La geneontologia fornisce un modo standard per definire queste relazioni. La geneontologia inizia con categorie ampie, esempio "processi metabolici", prosegue con categorie più piccole, esempio "processi metabolici dei carboidrati", e finisce con categorie molto restrittive come "fosforilazione dell'inositolo e derivativa".

I geni hanno altre caratteristiche oltre alla funzione biologia, alle proprietà chimiche e alla posizione cellulare. È possibile raggruppare i geni in basa alla vicinanza ad altri geni, all'associazione con patologie e in base alle relazioni con farmaci e tossine. Il Molecular Signatures Database[16] e il Comparative Toxicogenomics Database[17] sono esempi di diversa categorizzazione dei geni.

Cercare collegamenti fra i geni

modifica
 
Ingenuity Gene Network Diagram[18] which dynamically assembles genes with known relationships. Green indicates reduced expression, red indicates increased expression. The algorithm has included unregulated genes, white, to improve connectivity.

I geni sono raggruppati in base a ciò che sono e a ciò che fanno e possono emergere importanti relazioni tra gli stessi[19]. Per esempio, potremmo osservare che un certo gene codifica un enzima che attiva una proteina che accende un secondo gene sulla nostra lista. Questo secondo gene potrebbe essere un fattore di trascrizione che regola ancora un altro gene dalla nostra lista. Dall'osservazione di questi collegamenti potremmo sospettare che rappresentino molto più che un'associazione casuale, e che sono tutti sulla nostra lista perché fanno parte di uno stesso processo biologico. Dall'altra parte, potrebbe essere che se si selezionano geni a caso, se ne potrebbero trovare molti altri che sembrano avere qualcosa in comune.

Relazioni causa ed effetto

modifica

La statistica di base fornisce un valore che indica se l'associazione tra geni di una lista è maggiore di quanto ci si aspetterebbe se fosse dovuta al caso. Queste analisi statistiche sono interessanti, anche se esse rappresentano una sostanziale semplificazione della realtà. Facciamo un esempio. Supponiamo la presenza di 10,000 geni in un esperimento, solo 50 (0,5%) dei quali ha un ruolo conosciuto nella produzione di colesterolo. L'esperimento identifica 200 geni. Di questi, 40 (20%) risultano essere presenti su una lista di geni del colesterolo. In base alla prevalenza complessiva dei geni del colesterolo (0,5%) ci si aspetta una media di 1 gene del colesterolo per ogni 200 geni individuati, cioè, 0,005 per 200. Questa aspettativa è una media, cioè ci si aspetta di vederne più di uno a volte. La domanda è quanto spesso ne vedremmo 40 invece di 1 dovuto al caso.

Secondo la variabile casuale ipergeometrica ci si aspetta di provare 10^57 volte prima di selezionare 39 o più geni del colesterolo o più da un pool di 10,000 estraendo 200 geni a caso. Se uno presta attenzione a quanto infinitesimamente piccola è la probabilità di osservare questo per caso, si concluderebbe che la lista dei geni viene arricchita in geni notoriamente associati con il colesterolo[20].

  1. ^ Microarrays Factsheet, su ncbi.nlm.nih.gov. URL consultato il 28 dicembre 2007.
  2. ^ Kawasaki ES, The end of the microarray Tower of Babel: will universal standards lead the way?, in J Biomol Tech, vol. 17, n. 3, luglio 2006, pp. 200–6, PMID 16870711.Scholar search
  3. ^ Suter L, Babiss LE, Wheeldon EB, Toxicogenomics in predictive toxicology in drug development, in Chem. Biol., vol. 11, n. 2, 2004, pp. 161–71, DOI:10.1016/j.chembiol.2004.02.003, PMID 15123278.
  4. ^ Magic Z, Radulovic S, Brankovic-Magic M, cDNA microarrays: identification of gene signatures and their application in clinical practice, in J BUON, 12 Suppl 1, 2007, pp. S39–44, PMID 17935276.
  5. ^ Cheung AN, Molecular targets in gynaecological cancers, in Pathology, vol. 39, n. 1, 2007, pp. 26–45, DOI:10.1080/00313020601153273, PMID 17365821.
  6. ^ Mirza SP, Olivier M, Methods and approaches for the comprehensive characterization and quantification of cellular proteomes using mass spectrometry, in Physiol Genomics, vol. 33, 2007, p. 3, DOI:10.1152/physiolgenomics.00292.2007, PMID 18162499.
  7. ^ Chen JJ, Key aspects of analyzing microarray gene-expression data, in Pharmacogenomics, vol. 8, n. 5, 2007, pp. 473–82, DOI:10.2217/14622416.8.5.473, PMID 17465711.
  8. ^ Vardhanabhuti S, Blakemore SJ, Clark SM, Ghosh S, Stephens RJ, Rajagopalan D, A comparison of statistical tests for detecting differential expression using Affymetrix oligonucleotide microarrays, in OMICS, vol. 10, n. 4, 2006, pp. 555–66, DOI:10.1089/omi.2006.10.555, PMID 17233564.
  9. ^ Significance Analysis of Microarrays, su www-stat.stanford.edu. URL consultato il 27 dicembre 2007 (archiviato dall'url originale il 20 gennaio 2008).
  10. ^ Yauk CL, Berndt ML, Review of the literature examining the correlation among DNA microarray technologies, in Environ. Mol. Mutagen., vol. 48, n. 5, 2007, pp. 380–94, DOI:10.1002/em.20290, PMID 17370338.
  11. ^ Breitling R, Biological microarray interpretation: the rules of engagement, in Biochim. Biophys. Acta, vol. 1759, n. 7, 2006, pp. 319–27, DOI:10.1016/j.bbaexp.2006.06.003, PMID 16904203.
  12. ^ Draminski M, Rada-Iglesias A, Enroth S, Wadelius C, Koronacki J, Komorowski J, Monte Carlo feature selection for supervised classification, in Bioinformatics, vol. 24, n. 1, 2008, pp. 110–7, DOI:10.1093/bioinformatics/btm486, PMID 18048398.
  13. ^ Dr. Leming Shi, National Center for Toxicological Research, MicroArray Quality Control (MAQC) Project, su fda.gov, U.S. Food and Drug Administration. URL consultato il 26 dicembre 2007.
  14. ^ Dai M, Wang P, Boyd AD, et al., Evolving gene/transcript definitions significantly alter the interpretation of GeneChip data, in Nucleic Acids Res., vol. 33, n. 20, 2005, pp. e175, DOI:10.1093/nar/gni179, PMID 16284200.
  15. ^ Alberts R, Terpstra P, Hardonk M, et al., A verification protocol for the probe sequences of Affymetrix genome arrays reveals high probe accuracy for studies in mouse, human and rat, in BMC Bioinformatics, vol. 8, 2007, p. 132, DOI:10.1186/1471-2105-8-132, PMID 17448222.
  16. ^ GSEA, su broad.mit.edu. URL consultato il 3 gennaio 2008.
  17. ^ CTD: The Comparative Toxicogenomics Database, su ctd.mdibl.org. URL consultato il 3 gennaio 2008 (archiviato dall'url originale l'11 febbraio 2011).
  18. ^ Ingenuity Systems, su ingenuity.com. URL consultato il 27 dicembre 2007 (archiviato dall'url originale il 25 gennaio 1999).
  19. ^ Alekseev OM, Richardson RT, Alekseev O, O'Rand MG, Analysis of gene expression profiles in HeLa cells in response to overexpression or siRNA-mediated depletion of NASP, in Reprod. Biol. Endocrinol., vol. 7, 2009, p. 45, DOI:10.1186/1477-7827-7-45, PMC 2686705, PMID 19439102.
  20. ^ Curtis RK, Oresic M, Vidal-Puig A, Pathways to the analysis of microarray data, in Trends Biotechnol., vol. 23, n. 8, 2005, pp. 429–35, DOI:10.1016/j.tibtech.2005.05.011, PMID 15950303.
  Portale Biologia: accedi alle voci di Wikipedia che trattano di Biologia