Viviamo nell’età digitale, ogni anno i dati da immagazzinare sono sempre maggiori e i sistemi di archiviazione dati, magnetici o ottici, che attualmente utilizzano il codice binario di 0 e 1, presto non potranno più essere utilizzati. Inoltre, la gestione dei database center richiede enormi quantità di energia.
In breve, stiamo per trovarci a dover affrontare un serio problema di archiviazione dei dati che diventerà sempre più grave nel tempo.
Un’alternativa ai dischi rigidi sta avanzando: l’archiviazione dei dati basata sul DNA
La biologia molecolare ci insegna che il DNA è una molecola che, per la sua particolare struttura, rappresenta un efficientissimo sistema di stoccaggio di informazioni altamente stabile nel tempo come è stato dimostrato dal sequenziamento completo del genoma di un cavallo fossile vissuto più di 500.000 anni fa, e immagazzinarlo non richiede molta energia.
In informatica siamo abituati ad utilizzare un sistema basato sul codice binario, cioè che utilizza solo due simboli 0 e 1. Nel DNA siamo invece di fronte a un sistema di notazione quaternario, a base 4, che utilizza cioè quattro simboli, le quattro basi azotate con cui è formato (A,G,T,C) che risulta ovviamente molto più efficiente di quello in base 2. Occorrono perciò la metà dei caratteri per definire la medesima informazione. Facciamo un esempio: prendiamo la semplice sequenza di nucleotidi GATTAGA, facendo finta che essa rappresenti una specifica informazione. Tradotta in codice binario informatico la sequenza diventerebbe esattamente il doppio: 10001111000100.
I dati, a questo punto, possono essere memorizzati nella sequenza di queste lettere, trasformando il DNA in una nuova forma di tecnologia dell’informazione.
Ma quello che più interessa è l’ampia capacità di archiviazione. Il DNA può immagazzinare accuratamente enormi quantità di dati a una densità di gran lunga superiore a quella dei dispositivi elettronici. Il semplice batterio Escherichia coli, ad esempio, ha una densità di memorizzazione di circa 1019 bit per centimetro cubo, secondo i calcoli pubblicati nel 2016 su Nature Materials da George Church dell’Università di Harvard e dai suoi colleghi. A quella densità, tutte le attuali esigenze di stoccaggio del mondo per un anno potrebbero essere soddisfatte da un cubo di DNA che misura circa un metro di lato.
Ricerca
La prospettiva della memorizzazione dei dati sul DNA non è meramente teorica.
Già da qualche anno, come riportato in un nostro precedente articolo, (https://www.larazzodeltempo.it/2019/memoria-dna/ ) sono nati diversi filoni di ricerca al fine di analizzare la capacità di accumulo di informazioni del DNA.
I ricercatori dell’Università di Washington e Microsoft Research hanno sviluppato un sistema completamente automatizzato per scrivere, archiviare e leggere i dati codificati nel DNA. Diverse aziende, tra cui Microsoft e Twist Bioscience, stanno lavorando per migliorare la tecnologia di archiviazione del DNA.
Già nel 2017, ad esempio, il gruppo di Church ad Harvard ha adottato la tecnologia di modifica del DNA CRISPR per registrare immagini di una mano umana nel genoma di E. coli, che sono state lette con una precisione superiore al 90%.
I ricercatori del Technion-Israel Institute of Technology di Haifa e del Centro interdisciplinare (IDC) di Herzliya hanno dimostrato di poter memorizzare informazioni con una densità superiore a 10 petabyte (un petabyte è un milione di gigabyte) in un singolo grammo di DNA migliorando significativamente il processo di scrittura. Per capire l’entità potremmo dire che consente di archiviare tutte le informazioni memorizzate su YouTube nel volume di un singolo cucchiaino di DNA.
Ma nel 2019 il team di ricerca del PhD Seth Shipman ha registrato un intero filmato nel DNA di un batterio.
“Abbiamo definito le strategie che essenzialmente traducono l’informazione digitale contenuta in ciascun pixel di un’immagine o di un fotogramma in un codice a DNA, successivamente integrato in uno o più spacer: ogni fotogramma è così diventato una collezione di spacer”, ha chiarito Seth Shipman, primo autore dello studio. “In seguito abbiamo fornito collezioni di spacer corrispondenti a fotogrammi cronologicamente consecutivi a una popolazione di batteri che, usando l’attività di Cas1/Cas2, li hanno integrati nei loro genomi; grazie al sequenziamento del DNA, infine, siamo riusciti a ricostruire tutti i fotogrammi del cavallo al galoppo nell’ordine in cui compaiono“.
Una volta aggiunte le informazioni i ricercatori hanno verificato se fossero state conservate in maniera corretta e attraverso un apposito software di decodifica, sono riusciti a visualizzare le immagini originariamente inserite, che si sono mantenute non solo stabili, ma l’informazione è stata trasmessa con la replicazione dei batteri.
Ovviamente per recuperare le informazioni precedentemente inserite nel DNA batterico i ricercatori conoscevano la “chiave per decodificare “ le informazioni precedentemente inserite.
Tra le sfide per rendere comune l’archiviazione dei dati del DNA ci sono i costi e la velocità di lettura e scrittura del DNA, che devono diminuire ulteriormente se si vuole competere con l’archiviazione elettronica.