Centinaia di migliaia di sequenze di
DNA, informazioni sui pazienti e sulle terapie: un'enorme mole di
dati che rappresenta una risorsa immensa per la ricerca sul cancro,
ma pone anche una serie di problemi da risolvere.

In gergo tecnico si parla di big data. Sono enormi
quantità di dati che vengono prodotti e raccolti in modo ordinato
grazie all'aiuto dei computer e che rappresentano una preziosa
fonte di informazioni purché si sia capaci di interrogarli nel modo
giusto per distillarne le risposte desiderate. In origine queste
raccolte di dati sono state usate in economia, per comprendere le
tendenze del mercato e modulare di conseguenza le decisioni
aziendali, ma oggi si accumulano big data praticamente in tutti i
campi, dall'astronomia alla geologia e, naturalmente, anche alla
ricerca medica e oncologica.
Proprio in oncologia, l'analisi su larga scala dei big data è
vista da molti come la base per una vera e propria rivoluzione
nella cura della malattia, grazie alla possibilità di analizzare
dettagli molecolari e clinici con una precisione mai raggiunta
prima. "Le potenzialità legate a questi giganteschi archivi sono
senza dubbio enormi, ma resta ancora molta strada da fare" spiega
Pier Paolo Di Fiore, scienziato dell'IFOM di Milano. "Alcune fasi
di questa rivoluzione sono già state completate, mentre altre sono
ancora da definire e ci sono aspetti che vanno oltre la biologia
che non possono essere trascurati, come per esempio i problemi
etici e di privacy che si associano alla raccolta e all'utilizzo di
dati tanto sensibili".
Facili sequenze
Per poter parlare di big data in oncologia bisogna innanzitutto
avere a disposizione grandi quantità di informazioni sui tumori e
sui pazienti colpiti da questi tumori. "La generazione di dati
molecolari e in particolare il sequenziamento del DNA oggi non è
più un problema, anzi, conoscere la sequenza di un determinato
genoma è diventato relativamente semplice e poco costoso" esordisce
Di Fiore. Se infatti la prima sequenza completa, ottenuta
all'inizio del millennio, è costata circa tre miliardi di dollari e
anni di lavoro, oggi conoscere in dettaglio l'ordine dei tre
miliardi di "mattoncini" che compongono il genoma umano è molto più
semplice e le previsioni dicono che entro pochi anni il costo
dell'intera operazione non supererà quello di altri esami medici
comunemente utilizzati.
Ma è davvero così importante conoscere la sequenza del DNA per
arrivare a curare il cancro? "Con il sequenziamento del DNA siamo
arrivati a conoscere molti geni e processi molecolari coinvolti
nello sviluppo della malattia e nella sua diffusione, così come
nella resistenza ai farmaci e nello sviluppo di recidive" spiega
l'esperto, ricordando l'enorme mole di dati molecolari sui tumori
raccolti in questi anni e oggi disponibili: "In realtà nella
maggior parte dei casi i dati vengono raccolti in database (archivi
informatici) privati, ma una parte di queste informazioni è
pubblica e accessibile a tutta la comunità scientifica".
Bisogna imparare a leggere i dati
I progressi in campo tecnologico e in campo biomedico hanno
permesso di generare quindi una quantità impressionante di
informazioni, misurate in petabyte, ovvero 1015 byte: per capire
quanto velocemente si sono moltiplicate le capacità di calcolo
delle macchine, basta ricordare che il computer che guidava il
modulo lunare Apollo aveva una memoria centrale nell'ordine di 104
byte.
La ricerca oncologica è davvero pronta a confrontarsi con i big
data? "La loro gestione è in effetti uno dei grandi problemi che
dobbiamo oggi affrontare" afferma Pier Paolo Di Fiore, convinto
però che la comunità scientifica si stia muovendo nella giusta
direzione. "Sono molti gli investimenti nel settore della
bioinformatica e dell'analisi dei dati e sono numerosi gli istituti
che si stanno dedicando a questo aspetto della ricerca oncologica
più moderna" dice. Serve innanzitutto creare banche dati complete e
facilmente consultabili dove raccogliere i big data. L'American
Association for Cancer Research guida il progetto internazionale
AACR Project Gene, nel quale i dati molecolari di migliaia di
pazienti oncologici sono legati ai dati clinici; e così via,
nell'ottica di creare banche dati sempre più ricche. Ma questo non
basta perché poi bisogna analizzare i dati con super computer,
capaci di aggiornarsi continuamente e di "imparare" come muoversi
nel mare dei big data. Si parla in questi casi di intelligenza
artificiale e di cognitive computing: la macchina è
"addestrata" a riconoscere le informazioni e a trarre conclusioni
dai dati che le vengono trasmessi. "È quello che normalmente fa un
medico quando deve fare la diagnosi o deve scegliere una terapia:
analizza tutti i dati a disposizione e in base a semplici algoritmi
prende le sue decisioni" spiega Di Fiore, sottolineando che, grazie
ai computer, questi algoritmi possono diventare sempre più
complessi e la risposta finale può arrivare in tempi molto più
rapidi.
Servono dati controllati
Avere la sequenza del DNA e i dati di un numero sempre più ampio
di pazienti è fondamentale, ma ancora non basta. L'entusiasmo delle
nuove scoperte tecnologiche e delle nuove possibilità di generare
dati velocemente ha fatto in un certo senso perdere di vista un
aspetto fondamentale della ricerca oncologica: il significato
clinico delle informazioni molecolari. "In altre parole non ci
basta sapere che un certo tumore presenta una mutazione, dobbiamo
collegare quella mutazione alla storia del paziente che ne è
affetto per comprenderne davvero il significato" afferma Di Fiore
ricordando l'importanza della qualità dei dati, non meno importante
della quantità. "Avere dati di centinaia di migliaia di pazienti è
senza dubbio molto utile, ma se non sono di buona qualità
potrebbero risultare inutili o addirittura portarci fuori strada"
spiega.
Potrà sembrare paradossale, ma oggi è molto più semplice
ottenere una sequenza di DNA che seguire il paziente negli anni
dopo la diagnosi di tumore: spesso infatti ci si opera in un centro
di eccellenza e poi si proseguono le cure in un centro più vicino a
casa, e non è semplice conoscere gli esiti della terapia (ritorno
della malattia, sopravvivenza eccetera). E senza queste
informazioni, che devono essere raccolte secondo protocolli
standard per poter poi essere confrontate, milioni di sequenze di
DNA servono a poco. "Proprio sulla raccolta di dati di qualità
l'Italia potrebbe trovare spazio per fare la differenza a livello
internazionale" dice l'esperto. "Credo che nel sequenziamento e
nell'analisi dei dati la strada sia già ben tracciata e mettersi in
viaggio ora significherebbe arrivare comunque in ritardo rispetto
agli altri Paesi, mentre la qualità dei dati è un campo che ancora
deve essere esplorato e nel quale potremmo dare un contributo
significativo".
Ben oltre Moore e le sue leggi
Già più di 50 anni fa - era il 1965 - Gordon Moore, cofondatore
del colosso statunitense Intel, aveva enunciato quella che oggi è
nota come la "prima legge di Moore". Si tratta di una legge
empirica, basata cioè sull'esperienza diretta, che sostiene che le
prestazioni degli strumenti come i computer raddoppiano ogni due
anni circa (un po' meno secondo le più recenti versioni della
legge) e contemporaneamente il loro costo si riduce. "La legge
riguarda una parte del sapere umano che è esplosa come mai era
successo a un'altra disciplina prima dell'information technology
nella storia dell'uomo" spiega Pier Paolo Di Fiore. Ebbene, con il
sequenziamento del DNA ci si è spinti oltre. Nei primi anni della
genomica, infatti, l'andamento della legge di Moore è stato
rispettato, ma con l'avvento delle più moderne tecnologie di
sequenziamento si è assistito a un incredibile abbattimento dei
costi, ancora maggiore di quello previsto in teoria.
Elementare, Watson...
È uno strumento di analisi con un nome che è tutto un programma:
si chiama Watson, come uno dei ricercatori che scoprirono la
struttura del DNA, ma anche come il fedele compagno di avventure di
Sherlock Holmes. E proprio come il Watson letterario creato da
Conan Doyle aiutava Sherlock a risolvere le sue indagini, la
moderna versione creata dalla IBM aiuterà i medici a scegliere il
trattamento più adatto per ciascun paziente e lo farà in base a una
enorme quantità di informazioni ricavate dalla letteratura
scientifica e dai pazienti (anche dal loro DNA), ma soprattutto
grazie alla sua capacità di "imparare" come muoversi all'interno
dell'enorme quantità di dati oggi disponibili. Diversi enti di
ricerca sul cancro stanno utilizzando questo strumento, che è solo
uno degli esempi di intelligenza artificiale dedicata
all'oncologia: di certo un tale aiutante può velocizzare
notevolmente il processo, offrendo un contributo al medico per
prendere la decisione finale.
La nuova oncologia si fa al computer?
Enormi quantità di dati raccolti in banche dati pubbliche e
private, computer intelligenti che sanno analizzarli e addirittura
possono "dare consigli" ai medici sui farmaci da scegliere. In
questo scenario viene da pensare che il futuro della ricerca
oncologica potrebbe fare a meno di provette, cappe e cellule,
insomma di tutto quello che in gergo più tecnico viene definito
wet lab, la parte di laboratorio nella quale "ci si sporca
le mani" e si lavora con camice e guanti e che si contrappone con
quella della bioinformatica che si fa invece dietro lo schermo di
un computer. "L'idea che il tempo del wet sia finito è a
mio parere una grande ingenuità" afferma convinto Pier Paolo Di
Fiore, convinto che discipline empiriche come la biologia o la
medicina non potranno mai staccarsi del tutto da questo aspetto
pratico del laboratorio (o della clinica). "Dai big data e
dall'informatica potremo sicuramente ottenere informazioni
preziose, che però dovranno essere confermate in un sistema
biologico" conclude.