Оцінка кодеків корекції помилок для зберігання даних у ДНК

Вступ до зберігання даних у ДНК

З моменту появи концепції зберігання даних у ДНК, ключовим викликом було визначення правил для оборотного перетворення цифрової інформації в послідовності ДНК. Це завдання, що належить до теорії кодування для зберігання даних у ДНК, головним чином включає розробку та впровадження ефективних кодерів і декодерів (кодеків). Ранні демонстрації зосереджувалися на кодуванні джерела (стисненні) для ефективного кодування переважно текстових даних. Згодом, з появою масивного синтезу ДНК та секвенування нового покоління, акцент змістився на канальне кодування для забезпечення безпомилкового відновлення бінарних даних.

Для зберігання даних у ДНК на основі послідовностей з використанням секвенування Illumina, що застосовувалося для найбільших демонстрацій, канальне кодування є необхідним через особливі виклики. По-перше, масивний синтез ДНК обмежений довжиною послідовностей лише кількома сотнями нуклеотидів, що вимагає сегментації даних по багатьох окремих послідовностях. По-друге, всі біохімічні етапи робочого процесу зберігання даних у ДНК вносять помилки в послідовності та впливають на їх розподіл, потенційно призводячи до втрати послідовностей. Таким чином, кодеки повинні одночасно компенсувати нуклеотидні помилки та втрату послідовностей, що мотивує широко використовувану стратегію розділення коду на внутрішній та зовнішній.

Надмірність у ДНК-сховищах

Окрім логічної надмірності, що вводиться кодеками, наявність багатьох копій послідовностей під час біохімічної обробки забезпечує додатковий рівень надмірності, який називається фізичною надмірністю. Однак, для досягнення екстремальної щільності зберігання ДНК (теоретично до 227 ЕБ г⁻¹ для дволанцюгової ДНК) необхідно мінімізувати як логічну, так і фізичну надмірність, зберігаючи при цьому достатню надмірність для безпомилкового декодування. В результаті, хоча логічна надмірність безпосередньо пов'язана з вартістю синтезу, лише добуток логічної та фізичної надмірності є релевантним для щільності даних системи зберігання. Секвенування також дає кілька зчитувань на послідовність, надаючи ще одне джерело надмірності через глибину секвенування. Існує компроміс між цими формами надмірності, який не відображається в кодовій швидкості кодера.

Мета дослідження

Це дослідження систематично оцінює кодеки для зберігання даних у ДНК як in silico, так і in vitro, щоб встановити поточний стан справ. Для цього шість представницьких кодеків, обраних з літератури станом на жовтень 2023 року, були протестовані в декількох стандартизованих сценаріях у різних експериментальних умовах, зосереджених навколо найпоширенішого робочого процесу зберігання даних на основі послідовностей з секвенуванням Illumina. Дослідження демонструє переваги кластеризації зчитувань для продуктивності кодеків, оцінює переносимість синтетичних бенчмарків на реалістичні сценарії та оцінює межі поширених експериментальних бенчмарків. Робота представляє неупереджену та стандартизовану оцінку поточного стану справ у кодуванні корекції помилок для зберігання даних у ДНК, надаючи як відповідну базову лінію, так і основу для бенчмаркінгу для майбутніх досліджень.

Вибір та стандартизація кодеків

Для цього дослідження було обрано шість кодеків: DNA-Aeon, DNA Fountain, DNA-RS, Goldman, HEDGES та Yin-Yang. Критеріями відбору були наявність реалізації з відкритим вихідним кодом з достатньою документацією, наявність експериментів in vitro в оригінальній публікації, помітність у літературі та міркування щодо охоплення широкого спектру підходів. Усі кодеки були стандартизовані для забезпечення неупередженого порівняння продуктивності шляхом вибору їхніх параметрів таким чином, щоб вони давали схожі кодові швидкості (0.50, 1.00 та 1.50 біт нТ⁻¹) та довжини послідовностей (близько 150 нТ).

Базовий сценарій помилок

Для початкового порівняння було реалізовано базовий сценарій помилок, аналогічний найпоширенішим синтетичним бенчмаркам продуктивності в літературі. Цей сценарій випадковим чином вводить однонуклеотидні помилки для створення 30 помилкових копій кожної послідовності, з змінною швидкістю та заданим складом (53% заміщень, 45% делецій та 2% інсерцій). Як стандартний показник толерантності до помилок, повідомляється швидкість помилок, при якій декодування все ще успішно завершувалося з 95% ймовірністю. Декодування було обмежено однією годиною, 8 ГБ пам'яті та одним ядром ЦП на спробу.

У цьому базовому сценарії нижчі кодові швидкості (тобто вища надмірність) призводили до підвищеної толерантності до помилок для всіх кодеків. Кодек HEDGES, при 0.63 біт нТ⁻¹, продемонстрував найвищу толерантність до помилок на рівні 7.7%, що більш ніж удвічі перевищує показник DNA-RS (3.3% при 0.50 біт нТ⁻¹). DNA-Aeon був обмежений часом декодування при швидкості помилок вище 0.3%.

Переваги кластеризації зчитувань

Можливість декодування кодека безпосередньо пов'язана з балансом між доступною надмірністю та частотою помилок у даних. Дані секвенування, що використовуються для декодування в ДНК-сховищах, є за своєю суттю реплікованими, тобто доступні численні помилкові зчитування кожної послідовності. Цей внутрішній код повторення може бути використаний шляхом генерації менш помилкової консенсусної послідовності з окремих зчитувань за допомогою кластеризації.

Для оцінки переваг кластеризації для продуктивності кодеків були обрані як встановлені алгоритми кластеризації з біоінформатики (CD-HIT, MMseqs2, Starcode), так і спеціалізовані алгоритми кластеризації для зберігання даних у ДНК (LSH, Clover). Порівняння толерантності до помилок без кластеризації з найкращим алгоритмом кластеризації для кожного кодека показало, що кластеризація та генерація консенсусу покращили продуктивність кодеків у всіх випадках. В середньому, толерантні швидкості помилок збільшилися на 6.5 ± 2.5% в абсолютному вираженні, ефективно більш ніж подвоївши толерантність до помилок більшості кодеків. Кодек Yin-Yang, який не мав незалежних можливостей корекції помилок, продемонстрував толерантність до помилок 4.2%, покладаючись виключно на непряму корекцію помилок, забезпечену кластеризацією. CD-HIT виявився найкращим для дев'яти з тринадцяти протестованих кодеків та кодових швидкостей.

Стійкість до помилок та втрати послідовностей

Окрім помилок у послідовності ДНК, у каналі зберігання даних у ДНК також відбувається втрата послідовностей, тобто відсутність зчитувань деяких послідовностей у даних секвенування. Толерантність кодеків до втрати послідовностей рідко кількісно оцінюється в літературі, особливо в поєднанні зі змінними швидкостями помилок. Дослідження розширило базовий сценарій помилок, додавши змінну частку втрачених послідовностей. Різниця в толерантності до втрати послідовностей між кодеками та кодовими швидкостями значна — від 0% (Goldman та Yin-Yang) до 64% (DNA Fountain при 0.5 біт/нТ).

HEDGES, раніше визнаний найкращим кодеком за здатністю до корекції помилок, толерував лише до 7.8% та 10.5% втрати послідовностей при 1.07 біт нТ⁻¹ та 0.63 біт нТ⁻¹ відповідно. Натомість, толерантність DNA-Fountain до втрати послідовностей значно зросла з 3% при 1.50 біт нТ⁻¹ до 63% при 0.50 біт нТ⁻¹. Це свідчить про те, що толерантність кожного кодека до помилок та втрати послідовностей збалансована по-різному. У цьому синтетичному аналізі помилок та втрати послідовностей кодеки DNA-RS та DNA-Aeon виявилися широко ефективними.

Бенчмаркінг з літературними експериментами

Синтетичні бенчмарки є спрощеним представленням справжнього каналу помилок зберігання даних у ДНК. Тому для подальших бенчмарків були реалізовані реалістичні експериментальні робочі процеси за допомогою програмного забезпечення DT4DDS. Були відтворені три поширені експерименти з літератури: серійне розведення для оцінки максимальної щільності зберігання, серійне ампліфікування для демонстрації можливості копіювання та зменшення вибірки зчитувань для кількісної оцінки мінімальної глибини секвенування.

Серійне розведення та серійне ампліфікування виявили лише незначні відмінності в продуктивності між кодеками. Натомість, зменшення вибірки зчитувань виявило значні відмінності між кодеками. DNA-Aeon та DNA-RS значно перевершили DNA Fountain у всіх кодових швидкостях, вимагаючи всього лише одного зчитування на послідовність в середньому при 0.50 біт нТ⁻¹. Ці результати свідчать, що зменшення вибірки зчитувань є єдиним експериментальним бенчмарком, достатньо інформативним для порівняння кодеків з трьох протестованих літературних експериментів.

Оцінка в реальних робочих процесах

З експериментальної точки зору, три параметри є найважливішими для будь-якого робочого процесу зберігання даних у ДНК: постачальник синтезу, кількість олігонуклеотидів на послідовність під час зберігання (фізична надмірність) та кількість зчитувань секвенування на послідовність (глибина секвенування). Було реалізовано два сценарії: високоточний (висока однорідність, низька швидкість помилок, наприклад, Agilent, Twist Biosciences) та низькоточний (низька однорідність, висока швидкість помилок, наприклад, Genscript/CustomArray). У цих сценаріях варіювалася фізична надмірність та глибина секвенування, одночасно оптимізуючи щільність зберігання та вартість зчитування.

Що це означає для розробників

Це дослідження надає розробникам стандартизовану основу для оцінки кодеків корекції помилок у ДНК-сховищах даних. Воно демонструє переваги кластеризації зчитувань та виявляє компроміси між стійкістю до помилок і втрати послідовностей, що є критичним для розробки ефективних систем.

Ключові факти

Дослідження систематично протестувало шість представницьких кодеків корекції помилок для зберігання даних у ДНК.
Кластеризація зчитувань значно покращує толерантність кодеків до помилок, збільшуючи її в середньому на 6.5 ± 2.5%.
Кодеки мають різну стійкість до помилок та втрати послідовностей, що вимагає збалансованого підходу до надмірності.
HEDGES показав найвищу толерантність до помилок без кластеризації, тоді як DNA-RS та DNA-Aeon виявилися широко ефективними у синтетичному аналізі помилок та втрати послідовностей.
Бенчмаркінг з літературними експериментами показав, що лише зменшення вибірки зчитувань є достатньо інформативним для порівняння кодеків.