Sequenziamento del DNA

Ultimo aggiornamento: 19 dicembre 2023

Tempo di lettura: 8 minuti

In sintesi

Sequenziare il DNA significa determinare l’ordine dei nucleotidi, le unità che lo compongono.
Il Progetto genoma umano è stata una pietra miliare della storia della biologia e delle tecniche di sequenziamento del DNA, che anche sotto l’impulso di questa grande collaborazione internazionale sono evolute e migliorate enormemente.
Alle origini le tecniche di sequenziamento erano infatti molto laboriose e dispendiose. Con le odierne tecnologie, invece, gran parte del lavoro è automatizzato e i sequenziamenti sono diventati assai più precisi, economici e veloci.

Il principio e le applicazioni

Il verbo sequenziare significa letteralmente disporre in sequenza. Con sequenziamento del DNA si intende in effetti il processo con il quale si può stabilire l’ordine dei nucleotidi che compongono una molecola di DNA. I nucleotidi sono gli elementi che costituiscono gli acidi nucleici (il DNA o l’RNA) e sono formati da 3 porzioni: due non variano e sono sempre uno zucchero (il deossiribosio nel DNA e il ribosio nell’RNA) e un gruppo fosfato, mentre la terza, una base azotata, può essere di 4 tipi diversi. Le basi azotate del DNA sono l’adenina (A), la citosina (C), la guanina (G) e la timina (T). Quest’ultima è sostituita dall’uracile (U) nell’RNA. Il DNA è fatto di due filamenti avvolti tra loro, i cui legami si formano proprio tra le basi azotate, e in particolare tra A e T e tra C e G. Anche per questo si parla di complementarità delle basi. Sequenziando un segmento di DNA arriviamo quindi a conoscere l’ordine delle sue basi.

Oggi il sequenziamento del DNA è una tecnica comune, utilizzata in molti ambiti, tra cui:

nella ricerca, per esempio per studiare lo sviluppo e l’evoluzione delle specie;
nei test prenatali, per rilevare possibili mutazioni ereditarie che possono far aumentare il rischio di determinate malattie anche tumorali;
per caratterizzare gli agenti patogeni e trarre informazioni utili contro epidemie e pandemie, come accaduto di recente per il virus SARS-CoV-2 responsabile della malattia COVID-19;
nell’ambito del cancro, il sequenziamento del DNA può essere utilizzato con diversi scopi, sia clinici sia di ricerca, per la diagnosi e il monitoraggio della malattia e per lo sviluppo di terapie mirate.

Un po’ di storia

I primi tentativi di sequenziare il DNA risalgono alla seconda metà del Novecento. La prima sequenza pubblicata, lunga 24 basi, è del 1973, a opera degli scienziati statunitensi Allan Maxam e Walter Gilbert alla Harvard University a Cambridge, Massachusetts. Raggiungere questo obiettivo aveva richiesto ben due anni.

Nella seconda metà degli anni Settanta furono sviluppati due metodi di sequenziamento, uno a cura di Maxam e Gilbert e uno più veloce ed efficace, ideato dal chimico britannico Frederick Sanger all’Università di Cambridge. Per i loro contributi, Gilbert e Sanger hanno ricevuto il premio Nobel per la chimica nel 1980. Da notare che per Sanger era il secondo Nobel per la chimica: il primo gli era stato conferito nel 1958 per aver determinato per la prima volta la struttura e la sequenza completa di amminoacidi di una proteina, l’insulina.

Il metodo di sequenziamento di Sanger, ancora oggi utilizzato in determinate circostanze, si basa sulla sintesi da parte dell’enzima DNA polimerasi di catene di DNA di varia lunghezza e sull’uso di dideossinucleotidi trifosfato (ddNTP). Si tratta di nucleotidi quasi uguali a quelli presenti normalmente nel DNA, ma a cui manca una parte (il gruppo ossidrile sullo zucchero) che è fondamentale perché possano legarsi con un nucleotide successivo. In pratica, ciò che avviene nelle provette usate per il sequenziamento è la sintesi di filamenti complementari al frammento di DNA che si desidera sequenziare. Semplificando, gli ingredienti necessari sono il segmento di DNA, la DNA polimerasi (un enzima necessario a “montare” i pezzi del DNA), un breve e particolare segmento di DNA marcato radioattivamente, i 4 normali deossinucleotidi trifosfato, più un tipo di ddNTP.

La DNA polimerasi sintetizza il nuovo filamento inserendo i normali deossinucleotidi trifosfato in base a quelli presenti sul segmento di DNA di partenza. La sintesi, però, si arresta quando la DNA polimerasi incorpora un ddNTP. Quindi, dopo molte reazioni si otterrà una miscela di frammenti di diversa lunghezza che terminano tutti con quel particolare ddNTP. Con questo metodo sono dunque necessarie 4 reazioni, una per ogni nucleotide, per stabilire tutte le posizioni dei 4 elementi costituenti all’interno del DNA.

I frammenti ottenuti, tutti di lunghezze differenti, vengono poi separati in base alla loro dimensione mediante una tecnica chiamata elettroforesi su gel. In seguito, grazie all’uso di una particolare pellicola, è possibile visualizzare la posizione dei frammenti e leggere la sequenza del filamento.

Il metodo di Sanger è stato poi ottimizzato e automatizzato, con l’uso di macchine che includono, oltre ai sequenziatori, anche sistemi di elettroforesi capillare (dove il gel è contenuto appunto in un capillare). Inoltre, i 4 ddNTP in questa versione non sono marcati radioattivamente, bensì con un colorante fluorescente. Grazie a questa tecnica, che necessita di una sola reazione invece di 4, il sequenziamento è diventato più veloce e meno costoso.

Sono poi state introdotte tecnologie ancora più avanzate e vantaggiose da diversi punti di vista, che vedremo a breve. Prima, però, conviene soffermarci sul Progetto Genoma Umano, che ha dato una spinta fondamentale al loro sviluppo.

Il Progetto Genoma Umano

Il Progetto Genoma Umano, iniziato nel 1990, ha portato a una prima bozza della sequenza dei geni della nostra specie nel 2001 e al suo quasi totale completamento nel 2003. Questa grande ricerca internazionale non si sarebbe potuta concludere tanto velocemente senza la collaborazione di numerosi scienziati in molti Paesi del mondo. La prima bozza copriva circa il 90 per cento del genoma, mentre quella finale arrivava al 99 per cento circa ed era caratterizzata da un tasso di errori inferiore. Nella seconda versione furono tra l’altro colmati la maggior parte dei vuoti (o gap) rimasti tra i vari frammenti delle sequenze.

Inizialmente il progetto era talmente ambizioso che in pochi credevano che nel tempo previsto potessero essere letti tutti i circa 3 miliardi di nucleotidi di cui è composto il nostro genoma. Contro ogni aspettativa, il Progetto Genoma Umano si è invece concluso addirittura in anticipo ed è stato una pietra miliare, oltre che un grande successo di pubblico: l’annuncio dell’imminente completamento della prima bozza fu dato, nel 2000, dal presidente statunitense Bill Clinton e dal primo ministro britannico Tony Blair, in presenza degli scienziati Francis Collins e John Craig Venter, che avevano coordinato i due “bracci”, rispettivamente pubblici e privati, dell’impresa. I progressi compiuti durante il progetto, e la loro notorietà anche presso il pubblico, hanno permesso di progredire notevolmente nelle tecnologie utilizzate e di inaugurare una nuova era nella medicina moderna.

Alle sequenze completate nel 2003 si sono di recente aggiunti dettagli molto importanti, pubblicati ad aprile 2022. Ci sono infatti voluti ulteriori 19 anni per completare una piccola percentuale (circa l’8 per cento) di DNA che con le tecniche precedenti non era del tutto accessibile o leggibile. I risultati, annunciati sulla rivista Science, riportano per esempio le sequenze di parti di DNA difficili altamente ripetitivi, dove sono peraltro contenuti almeno 1.900 geni. Non solo: questa recente lettura ha permesso di ottenere campioni di genoma umano da popolazioni più vaste ed eterogenee di quelle coinvolte a cavallo del secolo, rendendo queste ultime sequenze più rappresentative della diversità genetica di tutta l’umanità.

Sequenziare non basta

Per stabilire la sequenza di nucleotidi di una molecola di DNA, o dell’intero genoma di un organismo, si usano essenzialmente variazioni sugli stessi principi tecnologici, con importanti differenze.

È innanzitutto necessario spezzettare le molecole di DNA in una serie di frammenti, che nell’insieme formano quella che viene chiamata libreria. Dopo questo passaggio si va a determinare la sequenza dei diversi frammenti passando di solito attraverso un processo di amplificazione di ciascun frammento tramite PCR, ottenendo così quantità di DNA adeguato a procedere con il sequenziamento.

Una volta ottenuta la sequenza di ciascun frammento, il lavoro non è finito: occorre capire come sono disposti tra loro i diversi pezzi letti, tramite appositi programmi informatici che aiutano a ricostruire la sequenza completa. Questo passaggio può essere difficoltoso a causa della complessità del genoma.

Si possono poi identificare gli elementi funzionali, nel processo noto come annotazione. Il genoma è, in effetti, una sorta di libro nel quale è contenuta tutta l’informazione genetica di un organismo. Quindi, ottenere la sua sequenza non significa capirne il contenuto: vuole solo dire che abbiamo compreso di quali lettere è composto e in quale ordine.

Per l’analisi e l’interpretazione delle informazioni ci si affida a strumenti di bioinformatica. Le innovazioni in questa disciplina sono fondamentali per il progresso dei sequenziamenti del DNA, perché i milioni di dati ottenuti devono essere non solo letti e interpretati, ma anche catalogati e conservati affinché possano essere consultati e studiati. Un altro aspetto da non dimenticare quando si parla di sequenze di DNA sono, infatti, le cosiddette banche dati genetiche. Si tratta di grandi archivi informatici nei quali le sequenze vengono raccolte, catalogate e messe a disposizione degli scienziati di tutto il mondo per le proprie analisi. Tali analisi possono per esempio includere confronti tra sequenze nuove, cioè appena ottenute, e altre già presenti in archivio, che fungono da riferimento.

L’evolvere delle tecniche

I metodi di sequenziamento sviluppati inizialmente da Sanger sono stati affiancati e in parte superati dalle cosiddette tecniche di nuova generazione, o Next Generation Sequencing (NGS). Con questa tecnologia tutte le reazioni necessarie a un sequenziamento avvengono in una singola provetta, peraltro a partire anche da piccole quantità di DNA e in un piccolo volume di soluzione. Semplificando al massimo, dopo la creazione della libreria di frammenti di DNA dal campione di partenza, i frammenti vengono automaticamente fissati su appositi supporti contenenti delle specifiche sequenze. Queste sono complementari ad almeno una parte dei frammenti del campione. Dopodiché, questi frammenti vengono amplificati e, infine, sequenziati. Poiché le macchine di NGS possono processare moltissime provette in parallelo, è possibile ottenere il sequenziamento di migliaia di frammenti di DNA allo stesso tempo.

Ancora più recenti sono le tecnologie di terza generazione, che offrono diversi vantaggi: uno tra tutti, la possibilità di leggere frammenti anche molto lunghi senza che sia necessario frammentarli né amplificarli.

La scelta tra le diverse tecnologie può dipendere da vari fattori, tra cui lo scopo della ricerca ‒ per esempio se si desidera sequenziare un nuovo genoma oppure se si intende studiare più in dettaglio una specifica regione di un genoma già conosciuto, o ancora cercare una particolare mutazione in un campione di DNA.

Qualunque sia la tecnica scelta, le sequenze ottenute sono lette, ordinate e interpretate grazie agli strumenti bioinformatici di cui si parlava sopra. Nell’insieme, questi grandissimi progressi hanno permesso di ridurre notevolmente gli errori, i tempi e i costi, e di aprire a moltissime nuove opportunità di salute e conoscenza.

Fonti principali

Scitable by Nature Education:

Shendure J et al. DNA sequencing at 40: past, present and future. Nature 2017. Doi: 10.1038/nature24286. https://doi.org/10.1038/nature24286

Agenzia Zoe
Agenzia di informazione medica e scientifica