Big data da distillare per carpire i segreti del cancro

Ultimo aggiornamento: 23 gennaio 2020

Big data da distillare per carpire i segreti del cancro

Centinaia di migliaia di sequenze di DNA, informazioni sui pazienti e sulle terapie: un'enorme mole di dati che rappresenta una risorsa immensa per la ricerca sul cancro, ma pone anche una serie di problemi da risolvere.

In gergo tecnico si parla di big data. Sono enormi quantità di dati che vengono prodotti e raccolti in modo ordinato grazie all'aiuto dei computer e che rappresentano una preziosa fonte di informazioni purché si sia capaci di interrogarli nel modo giusto per distillarne le risposte desiderate. In origine queste raccolte di dati sono state usate in economia, per comprendere le tendenze del mercato e modulare di conseguenza le decisioni aziendali, ma oggi si accumulano big data praticamente in tutti i campi, dall'astronomia alla geologia e, naturalmente, anche alla ricerca medica e oncologica.

Proprio in oncologia, l'analisi su larga scala dei big data è vista da molti come la base per una vera e propria rivoluzione nella cura della malattia, grazie alla possibilità di analizzare dettagli molecolari e clinici con una precisione mai raggiunta prima. "Le potenzialità legate a questi giganteschi archivi sono senza dubbio enormi, ma resta ancora molta strada da fare" spiega Pier Paolo Di Fiore, scienziato dell'IFOM di Milano. "Alcune fasi di questa rivoluzione sono già state completate, mentre altre sono ancora da definire e ci sono aspetti che vanno oltre la biologia che non possono essere trascurati, come per esempio i problemi etici e di privacy che si associano alla raccolta e all'utilizzo di dati tanto sensibili".

Facili sequenze

Per poter parlare di big data in oncologia bisogna innanzitutto avere a disposizione grandi quantità di informazioni sui tumori e sui pazienti colpiti da questi tumori. "La generazione di dati molecolari e in particolare il sequenziamento del DNA oggi non è più un problema, anzi, conoscere la sequenza di un determinato genoma è diventato relativamente semplice e poco costoso" esordisce Di Fiore. Se infatti la prima sequenza completa, ottenuta all'inizio del millennio, è costata circa tre miliardi di dollari e anni di lavoro, oggi conoscere in dettaglio l'ordine dei tre miliardi di "mattoncini" che compongono il genoma umano è molto più semplice e le previsioni dicono che entro pochi anni il costo dell'intera operazione non supererà quello di altri esami medici comunemente utilizzati.

Ma è davvero così importante conoscere la sequenza del DNA per arrivare a curare il cancro? "Con il sequenziamento del DNA siamo arrivati a conoscere molti geni e processi molecolari coinvolti nello sviluppo della malattia e nella sua diffusione, così come nella resistenza ai farmaci e nello sviluppo di recidive" spiega l'esperto, ricordando l'enorme mole di dati molecolari sui tumori raccolti in questi anni e oggi disponibili: "In realtà nella maggior parte dei casi i dati vengono raccolti in database (archivi informatici) privati, ma una parte di queste informazioni è pubblica e accessibile a tutta la comunità scientifica".

Leggi anche...

Bisogna imparare a leggere i dati

I progressi in campo tecnologico e in campo biomedico hanno permesso di generare quindi una quantità impressionante di informazioni, misurate in petabyte, ovvero 1015 byte: per capire quanto velocemente si sono moltiplicate le capacità di calcolo delle macchine, basta ricordare che il computer che guidava il modulo lunare Apollo aveva una memoria centrale nell'ordine di 104 byte.

La ricerca oncologica è davvero pronta a confrontarsi con i big data? "La loro gestione è in effetti uno dei grandi problemi che dobbiamo oggi affrontare" afferma Pier Paolo Di Fiore, convinto però che la comunità scientifica si stia muovendo nella giusta direzione. "Sono molti gli investimenti nel settore della bioinformatica e dell'analisi dei dati e sono numerosi gli istituti che si stanno dedicando a questo aspetto della ricerca oncologica più moderna" dice. Serve innanzitutto creare banche dati complete e facilmente consultabili dove raccogliere i big data. L'American Association for Cancer Research guida il progetto internazionale AACR Project Gene, nel quale i dati molecolari di migliaia di pazienti oncologici sono legati ai dati clinici; e così via, nell'ottica di creare banche dati sempre più ricche. Ma questo non basta perché poi bisogna analizzare i dati con super computer, capaci di aggiornarsi continuamente e di "imparare" come muoversi nel mare dei big data. Si parla in questi casi di intelligenza artificiale e di cognitive computing: la macchina è "addestrata" a riconoscere le informazioni e a trarre conclusioni dai dati che le vengono trasmessi. "È quello che normalmente fa un medico quando deve fare la diagnosi o deve scegliere una terapia: analizza tutti i dati a disposizione e in base a semplici algoritmi prende le sue decisioni" spiega Di Fiore, sottolineando che, grazie ai computer, questi algoritmi possono diventare sempre più complessi e la risposta finale può arrivare in tempi molto più rapidi.

Servono dati controllati

Avere la sequenza del DNA e i dati di un numero sempre più ampio di pazienti è fondamentale, ma ancora non basta. L'entusiasmo delle nuove scoperte tecnologiche e delle nuove possibilità di generare dati velocemente ha fatto in un certo senso perdere di vista un aspetto fondamentale della ricerca oncologica: il significato clinico delle informazioni molecolari. "In altre parole non ci basta sapere che un certo tumore presenta una mutazione, dobbiamo collegare quella mutazione alla storia del paziente che ne è affetto per comprenderne davvero il significato" afferma Di Fiore ricordando l'importanza della qualità dei dati, non meno importante della quantità. "Avere dati di centinaia di migliaia di pazienti è senza dubbio molto utile, ma se non sono di buona qualità potrebbero risultare inutili o addirittura portarci fuori strada" spiega.

Potrà sembrare paradossale, ma oggi è molto più semplice ottenere una sequenza di DNA che seguire il paziente negli anni dopo la diagnosi di tumore: spesso infatti ci si opera in un centro di eccellenza e poi si proseguono le cure in un centro più vicino a casa, e non è semplice conoscere gli esiti della terapia (ritorno della malattia, sopravvivenza eccetera). E senza queste informazioni, che devono essere raccolte secondo protocolli standard per poter poi essere confrontate, milioni di sequenze di DNA servono a poco. "Proprio sulla raccolta di dati di qualità l'Italia potrebbe trovare spazio per fare la differenza a livello internazionale" dice l'esperto. "Credo che nel sequenziamento e nell'analisi dei dati la strada sia già ben tracciata e mettersi in viaggio ora significherebbe arrivare comunque in ritardo rispetto agli altri Paesi, mentre la qualità dei dati è un campo che ancora deve essere esplorato e nel quale potremmo dare un contributo significativo".

Ben oltre Moore e le sue leggi

Già più di 50 anni fa - era il 1965 - Gordon Moore, cofondatore del colosso statunitense Intel, aveva enunciato quella che oggi è nota come la "prima legge di Moore". Si tratta di una legge empirica, basata cioè sull'esperienza diretta, che sostiene che le prestazioni degli strumenti come i computer raddoppiano ogni due anni circa (un po' meno secondo le più recenti versioni della legge) e contemporaneamente il loro costo si riduce. "La legge riguarda una parte del sapere umano che è esplosa come mai era successo a un'altra disciplina prima dell'information technology nella storia dell'uomo" spiega Pier Paolo Di Fiore. Ebbene, con il sequenziamento del DNA ci si è spinti oltre. Nei primi anni della genomica, infatti, l'andamento della legge di Moore è stato rispettato, ma con l'avvento delle più moderne tecnologie di sequenziamento si è assistito a un incredibile abbattimento dei costi, ancora maggiore di quello previsto in teoria.

Elementare, Watson...

È uno strumento di analisi con un nome che è tutto un programma: si chiama Watson, come uno dei ricercatori che scoprirono la struttura del DNA, ma anche come il fedele compagno di avventure di Sherlock Holmes. E proprio come il Watson letterario creato da Conan Doyle aiutava Sherlock a risolvere le sue indagini, la moderna versione creata dalla IBM aiuterà i medici a scegliere il trattamento più adatto per ciascun paziente e lo farà in base a una enorme quantità di informazioni ricavate dalla letteratura scientifica e dai pazienti (anche dal loro DNA), ma soprattutto grazie alla sua capacità di "imparare" come muoversi all'interno dell'enorme quantità di dati oggi disponibili. Diversi enti di ricerca sul cancro stanno utilizzando questo strumento, che è solo uno degli esempi di intelligenza artificiale dedicata all'oncologia: di certo un tale aiutante può velocizzare notevolmente il processo, offrendo un contributo al medico per prendere la decisione finale.

La nuova oncologia si fa al computer?

normi quantità di dati raccolti in banche dati pubbliche e private, computer intelligenti che sanno analizzarli e addirittura possono "dare consigli" ai medici sui farmaci da scegliere. In questo scenario viene da pensare che il futuro della ricerca oncologica potrebbe fare a meno di provette, cappe e cellule, insomma di tutto quello che in gergo più tecnico viene definito wet lab, la parte di laboratorio nella quale "ci si sporca le mani" e si lavora con camice e guanti e che si contrappone con quella della bioinformatica che si fa invece dietro lo schermo di un computer. "L'idea che il tempo del wetsia finito è a mio parere una grande ingenuità" afferma convinto Pier Paolo Di Fiore, convinto che discipline empiriche come la biologia o la medicina non potranno mai staccarsi del tutto da questo aspetto pratico del laboratorio (o della clinica). "Dai big data e dall'informatica potremo sicuramente ottenere informazioni preziose, che però dovranno essere confermate in un sistema biologico" conclude.

  • Cristina Ferrario