很怪啊,也不知道从什么时候开始,网友们突然喜欢把各种各样的东西刻进自己的 DNA 里。
有电影的名场面,有洗脑神曲,还有一些奇怪的像素。
当然,刻进 DNA 这个说法也只是大家的调侃,毕竟像这些数据更多的还是存在于我们的硬盘里。
但我们把时间往前翻两年,2019 年由科学美国人所评选的十大突破性技术中,DNA 存储技术赫然在列。
卧槽!难道未来将画面刻进 DNA 真的能够实现了?
大家好!我是差评君~顺着这个话题,今天咱们就来聊聊数据存储的那些事。
现有存储方式以及局限性
自打人类文明诞生以来,如何保存信息,一直都是一个让人类头疼的问题。从给绳子打结,到现在的磁带硬盘。
随着文明的进步,存储方式也在发生着巨大的改变,原因就在于我们想要存储的信息也越来越多了。
咱们就从视频网站来看 —— 在去年 3 月某视频站启用新视频序号之前,该站的视频号序号已经到达了 1 亿的量级。
按一个视频 100MB 来看,这些视频所需要的存储空间就达到了 9.5PB。
想要存够这些视频,大概需要 9500 块 1T 容量的硬盘。
这样看上去好像还好,但随着该站用户的增多,如今一天的投稿量就已经超过了十万。
简单估算一下,一年就能投超过 6000 万个稿件,又因为增加了 4K 和高帧率视频。视频占用空间更大,估计不到一年就能用掉之前好几年才能用掉的存储空间。。。
如果 B 站未来发展良好的话,需要的储存空间将会不可逆的加速增加。除了视频之外,各种物联网设备和车载系统也会产生大量数据。
据因特尔计算,一辆联网的自动驾驶汽车,一天运行下来,通过各类的传感器,将会产生大约 4GB 数据。
而对于那些社交软件,就拿微信举例吧。安装的时候不到 100MB,等你过个一年半载的再看看。
嚯!占用空间 10G+。。。
所以对于未来数据储存的需求,IDC( 国际数据组织 ),早在 2018 年就发布了一份《 数据时代 2025 》的报告。预测到 2025 年,全球每年产生的数据将会达到 175ZB,换算下来每天都会产生 491EB 左右的数据量。
如果你想要用 1T 大小的硬盘把 491EB 的数据存下来,那你至少需要 514850816 块硬盘。把这些硬盘首尾相连,能绕地球赤道将近两圈。
而这,只是一天所产生的量!
探索新的存储方式
与此同时,咱们 2020 年全球硬盘( 包括固态和机械 )的产量,也不过 5.89 亿块,加起来的总存储容量连 2ZB 都不到,而硬盘储存在所有储存方式中占比达到了 65%。
硬盘不够用了,自然就有很多数据被永久的删除了。
当然并不是所有产生的数据都有储存必要,像腾讯 QQ 就算你开了超级会员,它也只给你在云端保存个两年的聊天数据。
但在未来由大数据驱动的互联网环境下,需要储存的数据只会越来越多,所以除了硬盘、磁带、光盘,咱们还能有什么方法能够大量的长时间存储数据呢?
对此,科学家们提出了一种可能。
这个可能就藏在每个人的身体里 —— 那就是 DNA。
DNA 存储的可行性
停停!别乱想~这是很正经的学术问题。
早在 20 世纪 70 年代,有关于 DNA 信息储存的构想就被提出来了,并在 1988 年由哈佛大学和艺术家 Joe Davis 共同合作将 35bits 数据的符号图像编入了大肠杆菌 DNA 中。
我相信看到这里肯定有很多人搞不明白,这 DNA 怎么能和存储信息联系起来。
要讲清楚这个,咱们首先要知道一件事。
信息是怎么存储的?
现在咱们用的数字化存储磁带硬盘这些东西,想要存储文字图片视频这些信息,并不是像纸笔这样直接写下来或画下来,而是将文字图片视频转化成一串二进制码,再记录在硬盘上。
比如想要记录这么一句话 “ hello world ”,首先电脑会将 hello world 经过 ASCII 码转化成二进制码,ASCII 码是基于拉丁字母的一套电脑编码系统。
这套系统中,ASCII 码定义了 128 个字符,每个字符按顺序使用二进制码标记,这样通过记录二进制码就能知道你记录的数据了。
这种做法很像摩斯电码是不是,转换成二进制码之后,电脑就会通过磁电效应,利用硬盘里上成千上万的小磁极记录这些 01 数据,在读取时反向操作即可。
。。。
以上这些内容相信大多数差友们比我都还了解,但这跟 DNA 又有什么关系?
难道 DNA 也有磁性,能像这些网友们一样吸住铁勺嘛?
肯定不能啊!更何况这些人能吸住勺子,大概率只是因为没洗澡皮肤黏而已。( 虽然 DNA 也挺黏的 )
啊不是!虽然 DNA 没有磁性,但是差友们还记得高中生物中教的 DNA 转录那一课吗?DNA 本身是由四种碱基组成 —— 腺嘌呤、鸟嘌呤、胞嘧啶以及胸腺嘧啶。
为了记录遗传信息,四种碱基会排列成不同顺序。在表达时 DNA 解旋裂开以其中的一条链为模板进行转录,生成 mRNA ( 信使 RNA ),mRNA 上相邻的三个碱基,就是它们表达性状的最小单位密码子。
不同排列顺序的密码子就代表着不同的遗传密码。
欸!这个密码表,放计算机里来,原理上不就是 ASCII 码嘛,也就是说 DNA 记录信息的方式在逻辑上是和数字存储一摸一样的。只要咱们把 DNA 的四种碱基拿来翻译二进制,那不就可以用 DNA 记录信息了嘛。
比如,00 指代腺嘌呤 A、01 鸟嘌呤 G、10 胞嘧啶 C、11 胸腺嘧啶 T。
一句 “ hello world ” 的二进制 ASCII 码是这样的:
01101000 01100101 01101100 01101100 01101111 00000000 01010111
01001111 01010010 01001100 01000100
转换成 DNA 编码那就是这样:
GCCA GCGG GCTA GCTA GCTT AAAA GGGT GATT GGAC GATA GAGA
这样一来,所有能用二进制记录的数据,DNA 也能记录下来了。从逻辑上来看,虽然 DNA 存储很好理解,具体到实现上就要花点功夫了。
作为存储设备,要实现的功能无非就是写入然后读取 DNA 编码写入部分主要由两步组成。
DNA 编码以及 DNA 合成编码过程中除了要进行二进制码转化外,还有就是要解决化学合成中的精准度不高的问题。所以一般都是对信息先进行压缩,然后加入纠错码,最后再转化成 DNA 编码。
DNA 合成则是将碱基序列中的碱基逐个连接形成 DNA 链的过程,由于细胞的排外性及受生物活动的影响,一般采用体外人工合成的方式合成 DNA 链,这个合成本质上来说就是一系列针对性的化学反应。
又因为合成 DNA 长链在时间、错误率、技术难点等方面均高于短链,所以通常将碱基序列分成若干短链。
短链的头部就是地址位,它的功能就是定位某段短链在信息中的位置,这样就可以快速查找、定位、拼接各段信息。
信息存入完毕后,剩下的就是 DNA 解码读取了。
首先通过 PCR 技术,也就是 DNA 体外扩增技术,对 DNA 片段进行复制,获得多个 DNA 片段副本,然后在对副本进行 DNA 测序。
获取碱基序列后,对序列纠错、去冗( rong )余解码,最后就能得到完整的原始数据。
优缺点
既然是一种新的存储方式,DNA 存储肯定有它的优势所在。
首先就是存储密度,因为 DNA 自身的立体双螺旋结构,使得 DNA 信息存储密度的数量级是目前已知任何储存技术的若干倍。
比如闪存最多只能在 10nm 内存储 1bit 的数据,而 DNA 可以在 0.34nm 存储 2bits,1 克 DNA 所能存储的信息,需要 420 亿个 U 盘或者 26 亿块硬盘或者 2.27 亿个磁带才能存下。
想要记录下全球所有的数据,咱们需要的只是一千克 DNA 而已。
其次,DNA 还有着其它磁性材料无法拥有的稳定性。
硬盘磁带这些磁性材料,其存储时间最多数十年,就会因为消磁和耗材等原因造成信息丢失,以至于要对数据重新刷写。
而 DNA 并没有消磁的担忧,DNA 分子是一种在低温下极其稳定的分子。它的半衰期长达 512 年,并且在极低温下,DNA 可以保存成千上万年。
在 2013 年,科学家们就从永冻土中挖出过一匹被冰冻时间长达 70 万年的马。经测试,这匹马的 DNA 仍然可以进行测序。
虽然 DNA 存储的优点非常亮眼,但它现在的缺点也是非常明显的。
首当其冲的就是 DNA 存储的成本过高。。。
纽约基因中心曾经将 6 个文件写入 DNA —— 一个完整的操作系统、一部 1895 年的电影、一个 50 美元的亚马逊礼品卡、一个计算机病毒、1972 年先锋号飞船上的金属板所携带的信息以及信息学家 Claude Shannon 一项 1948 年的研究信息。
为了合成这些信息,他们总共花费了 7000 美元,而为了读取这些信息他们又花费了 2000 美元。
整个过程都需要专业的仪器设备协助,个人使用及其不方便。
其次就是合成速度慢,之前说的那 6 个文件,他们花了两周时间才收到了合成好的 DNA。
DNA 测序的发展
这些缺点让 DNA 存储目前的应用场景变得非常局限,毕竟谁也不想存个照片就得等个大半天吧不是。不过,这些缺点也不妨碍 DNA 存储成为目前存储方向的重点研究领域。
咱们国家就已经把 DNA 存储这项技术纳入十四五规划中,国外对这项技术的研究也没有停滞。
据外媒报道 2019 年微软就与华盛顿大学旗下的科研人员,研发出了一套能够将 DNA 合成和测序自动化读取的储存设备。
这台原型设备造价不过 1 万美元,这台设备的软件首先将数字代码转换成 DNA 编码,然后 DNA 编码自动发送到合成器,合成器以正确的顺序和比例将所需的化学物质和液体结合起来,然后将定制的 DNA 分子吐到存储容器中。
想要读出数据时,存储容器中的 DNA 分子会被推入一个纳米孔 DNA 测序机,把 DNA 分子序列自动转化成二进制码。
在实验中,他们成功的将 “ hello ” 这一词编入了 DNA 片段并进行读取。
而且从 2004 年至今,合成 DNA 寡聚体的成本已经下降了 96%,降低的原因是基于微阵列的合成方法以及寡聚体池的发展,但是由于 DNA 良好的可复制性,反而让 DNA 存储在商业上无法得到更大的利润。
因为一旦获得了合成的 DNA,就不再需要重复订购,基因可以在内部以低廉的成本复制,甚至编译好的 DNA 还能随着生物的自我繁殖而复制。
早在 2017 年,就有团队将一张赛马的动图经过 DNA 编码后,送入大肠杆菌内。
随着大肠杆菌的多代繁殖,研究人员依旧能够从它们的后代中提取出编码后的信息准确率高达 90%。
结尾
所以随着这项技术的发展,未来世界可能会变得越来越赛博朋克起来。
有这么一个事,在 2018 年有一位来自法国的 16 岁高中生在了解 DNA 存储后,他便想着能不能给自己的身体里刻入一些 DNA 信息呢?
于是他把圣经和古兰经的部分内容转译编成 DNA 编码,一家名为 VectorBuilder 的专门用来创造病毒的公司在把 DNA 片段编入病毒后,将 DNA 液体寄给了这位高中生。
随后这位高中生便将这份液体注入到自己的体内。据他称事后除了伤口有一点发炎并无其它大碍。
当然,像他这样往自己体内注射病毒的方式并不能改变自己身上的 DNA,除了让自己的免疫系统忙碌起来并没有什么其它作用。
不过咱们可以大胆幻想一下,随着基因工程和 DNA 储存的发展,说不定到时候还真会诞生各种存储了 DNA 数据的生物或宠物。
想要交换数据不再是交换 U 盘了,而是问道,能给我一点你的 DNA 嘛?
希望大家到那个时候可别把什么乱七八糟的东西都刻进 DNA 啊!
|