DNA data storage algorithms and synchronization - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2022

DNA data storage algorithms and synchronization

Algorithmes pour la synchronisation de données et leur stockage sur ADN

Résumé

175 zettabytes. This is the predicted digital data storage needs for 2025. Despite the fact that data centers larger than stadiums and with a high carbon footprint are deployed every year, data storage capacity growth is less than required. DNA data storage could be the solution. Indeed, DNA is an extremely dense data storage media. In addition, it has a very long durability, and can be stored at a room temperature. However, the main drawback of DNA data storage is its high amount of insertion, deletion, and substitution errors. Hence, to build reliable practical DNA data storage systems, it is necessary to implement error-correction solutions. However, most conventional error-correction solutions only correct substitution errors, and completely fail at correcting insertions and deletions. This thesis aims to address several issues toward implementing practical DNA data storage systems. We first propose a memory channel model, which accurately models the DNA data storage channel. Especially, this channel model allows to run numerical simulations and to design efficient error-correction codes. We then introduce and evaluate two error-correction solutions. Especially, the second solution based on convolutional codes allows for an important gain in performance compared to the first solution and to state-of-the-art convolutional codes. Finally, we also propose a data deduplication algorithm called PBDA-SW, which improves state-of-the-art on data deduplication.
175 zettaoctets. C'est la capacité estimée pour pouvoir stocker les données numériques en 2025. Malgré le fait que des centres de données plus grands que des stades et à forte empreinte carbone sont déployés chaque année, la croissance de la capacité de stockage est inférieure aux besoins. Le Stockage de Données sur ADN (SDA) pourrait être la solution. En effet, l'ADN est un support extrêmement dense de stockage de données. De plus, il a une très longue durée de vie et peut être stocké à température ambiante. Cependant, le principal inconvénient du SDA est sa grande quantité d'erreurs d'insertions, suppressions, et substitutions. Par conséquent, pour construire des SDA pratiques et fiables, il est nécessaire de mettre en œuvre des solutions de correction d'erreurs. Cependant, la plupart des solutions de correction d'erreurs conventionnelles ne corrigent que les erreurs de substitution et échouent complètement à corriger les insertions et les suppressions. Cette thèse vise à résoudre plusieurs problèmes liés à la mise en œuvre de systèmes pratiques de SDA. Nous avons d'abord proposé un modèle de canal avec mémoire, qui modélise avec précision le canal de SDA. Ce modèle de canal permet notamment de faire des simulations numériques et de concevoir des codes correcteurs d'erreurs efficaces. Nous avons ensuite proposé et évalué deux solutions de correction d'erreurs. La deuxième solution basée sur des codes convolutifs a notamment permis un gain de performance important par rapport à la première solution et aux codes convolutifs de l'état de l'art. Enfin, nous avons également proposé un algorithme de déduplication de données appelé PBDA-SW, qui améliore l'état de l'art.
Fichier principal
Vignette du fichier
2022theseHamoumB.pdf (6.53 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03976945 , version 1 (07-02-2023)
tel-03976945 , version 2 (31-03-2023)

Identifiants

  • HAL Id : tel-03976945 , version 2

Citer

Belaid Hamoum. DNA data storage algorithms and synchronization. Signal and Image processing. Université de Bretagne Sud, 2022. English. ⟨NNT : 2022LORIS640⟩. ⟨tel-03976945v2⟩
197 Consultations
54 Téléchargements

Partager

Gmail Facebook X LinkedIn More