近日,深圳华大生命科学研究院研究员沈玥团队与合作者在《自然计算科学》上发表封面文章,为DNA信息存储的应用提供了一种高密度、高稳定性的比特—碱基编解码方法,并完成体内外两种模式的信息存储实验验证。
该论文的通讯作者沈玥告诉《中国科学报》,他们将DNA双链模型与中华文化中“阴阳”对立统一的思想相结合,巧妙地将其应用于DNA编解码系统,以两套不同的规则,分别对两条二进制信息进行“一对一”编译转换,再取两者统一交集的部分为最终解,实现将两条独立的信息组合统一为一串DNA序列。
与此同时,研究人员通过引入筛选机制,将与现有合成测序技术兼容性不佳的序列通过预先设置的筛选条件进行过滤。根据不同的组合方法,该系统共能提供1536种不同的编码规则组合,大大扩展了其应用场景范围。
研究人员还通过编码学的理论推导及不同数据类型文件的模拟编码,证明了该系统在保证信息密度的前提下,在数据恢复稳定性方面有显著的性能提升(存储数据的平均恢复率较DNA喷泉码现有水平提升近两个数量级)。
论文共同第一作者、深圳华大生命科学研究院助理研究员平质告诉记者,他们还测试了该系统在酵母细胞内存储、传代后的数据恢复稳定性。结果证明,作为载体的酵母菌株经过1000代以上的传代,信息仍可以被完整恢复,该存储方式接近天然DNA分子存储物理信息密度的理论极限,每克DNA能存储的信息量约为 432.2EB。
该研究开发了一种全新的DNA存储编码方法,并提出1536种不同编码规则组合的方案,为DNA存储的多类型应用提供了重要工具,有望在海量数据长期存储的新型介质研究中起到积极的推动作用。