IT与BT融合:产业的爆发点

2015-06-01 21:48王俊
中国信息化周报 2015年13期
关键词:基因组程序数字化

当我们谈到数字化的时候,通常以硅为体系,而在讲到生命的时候是以碳为体系。我认为生命的基础是碳,它也是数字化的。为什么生命是数字化的?它能够储存吗?能够编程吗?能够用不同的程序改变来实现不同的生命形式吗?可以做克隆吗?答案是肯定的。

生命是数字化的

现在没有任何一种存储介质可以把信息储存上百万年的时间,而DNA可以。DNA也可以计算,因为计算和编程最核心的基本单位是基因,基因是生命体最基本的构成单位。我们每个人身上蕴藏的所有信息组合就是一套生命信息基本程序,这套基本程序就是生命的语言。在最开始的时候,就像每个程序员写出一个功能模块希望所有人都能用上一样,在生命体里形成的一些基因、蛋白质、小分子也希望不断扩张自己,在不断扩张自己的同时,有时候发现一个基因并不够用,可以和其他基因一起合作,当很多基因合作更好的时候,就形成个体。

人的身上通常有2~3万个基因,水稻有5万多基因,不同物种有不同基因,不同的基因组合形式有不同的生命程序,不同生命程序造就了个体与周围环境相适应。每一套程序代表着不同的生存策略,这套不同的生存策略事实上针对于不同环境体系而来。而检查你的这套程序是否好用的唯一标准就是这套程序能不能使你活下去,传播更多后代。当你选择传播更多后代,这套程序就可称为可以适应于这套环境的生命语言。

我们每个个体更像是基因信息的载体,作为一个群体,每一个人的生命程序也是不一样的。西藏人可以高原适应,而有的人却有很强的高原反应,就在于藏族人有一套特有的基因,有这个基因的人群可以适应高原体系,在汉族人体系里就只有5%人有这个基因,而藏族人达到95%。类似的事情不仅单纯存在于西藏复杂极端的环境里,还有很多跟饮食相关,譬如傣族人因为其祖先经常吃槟榔,所以体内基因很多跟槟榔适应等等。这是个体水平的变化。

每一代中,父母和孩子间就有100个基因突变,这些基础就形成不同生存策略,环境在时时刻刻变化、基因在时时刻刻变化,基因组是预测程序,人身上的基因是祖先千万年不断学习、进化,进而对后代有可能遇到的环境的预测。人体内的基因不会告诉你是否去高原,但是一定会告诉你去高原会有什么反应。

这让我想到一个很有意思的假设。如果每个人生下来就有一个盒子,这个盒子清楚地告诉你往哪去、会产生什么样的影响,它将如何指导我们生活呢?假使人们很好地遵循基因告诉你的事情,也不可能活到150岁,因为你有可能会得各种各样的病,这些病有的从年轻的时候开始一直到老都有关系,而这些病跟基因或者跟环境、数字化以及IT、BT有什么关系?

大数据将预知人类健康

基因里面的毛病有点像写程序的时候出了一个bug,出了bug,基因程序运营不了,此时就出现很严重的问题,如各种各样罕见疾病,有罕见疾病的一般生存周期都非常短。生命程序不断试代码、试代码过程中不断试错,当然每一个错误并不是代表新的往前演化的可能。对付他们我们该怎么办?譬如有些孩子患有先天性的疾病,那么当孩子出生之前,我们能不能做一些检测,发现并控制问题。其次,我们能否先查验父母有没有基因突变,有多大的概率会传给孩子。如今在人工受精前我们可以做移植前检测,是否可以在怀孕两到三个月之内对孩子进行完整基因检测,尤其是针对非常罕见的基因性疾病,通过这些筛选可以达到出生前防控。此外,新生儿出生了,如果早一点知道他得各种各样疾病,包括自闭症的风险,我们就可以提前预防和治疗。我们还会有更疯狂的想法——能不能通过大数据挖掘发现一些罕见病的真正解决方案呢?我们搜索了100万人基因数据发现,有部分人他们体内有非常明确的致病基因,但是非常健康,原因在于他体内有另外一套基因保护他。如果找出那一段是什么,也许就可以找出对抗罕见性疾病的药物。此外,更重要的支持就是基因测序。

现代社会很多人面对肿瘤威胁,肿瘤是人们在生存过程中由于环境因素的影响,导致基因程序的变异,所有细胞都来源于第一个细胞——受精卵细胞,从这个细胞开始每次都会引发程序变化。不同环境影响会导致程序有非常大的不同,比如抽烟增加肺部细胞变异率。用IT方式来讲,就是你生命程序那段代码被黑客给黑了。而这个被黑的细胞很有可能获得比其他细胞更强的适应性,进而不断扩张。从一个肿瘤细胞发生到最后被CT扫描出来,平均要15年,也就是说有至少有15年的时间我们不知道体内有肿瘤细胞。将来我们可以利用血液中深度的基因检测进行早期检查,并进行个性化的治疗。

过去30年人们所处的环境产生了巨变,饮食习惯也在改变,由此也引发了肠道微生物菌群失调,很多疾病都与此有关。将来我们可以根据检查的结果补充我们所缺的微生物,确保人体内是符合真正健康的菌群体系。我们所做的一切最终就是为了要完成这样的一个生命公式:输入端是我们自己的的基因、环境因素等,输出端是所表现的状况,身高、体重、病理特征、健康与否等。我们现在知道了输入端、输出端,对中间的编程毫无所知。健康大数据的完成取决于把所有输入端、输出端全部计算清楚,要研究清楚至少需要100万人,如果这些研究完成,可以在所有数据的基础上,预知未来健康走向,这种预知可以促进一些改变。

5年后基因测序或将免费

当然研究的成本是非常昂贵的,这也给数据的搜集带来了很大的阻碍。那么,是否可以做到免费呢?免费实施的到来,事实上在于基因本身的数据价值远远大于产生他的数据所需要的成本。对华大基因而言,我们认为5年左右我们可真正达到免费。

除了这种基因数据之外,把数据连接起来也很重要。未来,如果把每个人的数据都连起来,形成基因组网络,将是不可估量的。我们现在在网上建立了一个同病相怜社区,当所有病人聚集在上面,我们就有机会把基因和疾病之间的关系弄得更清楚,在这个上面所形成的机会、信息和知识是以前我们在没有做甚至做个人基因组是不可想象的。最终我们还需要人工智能来学习,因为这么大的量已经不可能用一个单一模型来解决。

奥巴马提出了一个精准医疗计划,就是要做百万人基因组库,当所有人完成后,就可以对人们未来的健康走向有一个预知,根据预知“量体裁衣”,制定个性化的精确治疗方案。未来,啤酒里的酵母将不再是自然界的酵母,而是由计算机写出来的,这种酵母产生的啤酒味道也许比你现在喝的任何啤酒味道都要好。人们或许还可以通过改变干细胞重回年轻的时候。

所有如科学幻想的东西都在生命科学界飞速发展。对IT界的人士而言,对健康的追求不是感性愿望,更是理性追求。如果基于人工智能方式、大数据处理方式能管理健康、掌握预测的程序和健康关系,这将是基因科技最能够带给人类的福祉。

(以上内容系根据王俊博士在“2015深圳IT领袖峰会”上的演讲整理而成)

猜你喜欢
基因组程序数字化
牛参考基因组中发现被忽视基因
家纺业亟待数字化赋能
高中数学“一对一”数字化学习实践探索
高中数学“一对一”数字化学习实践探索
试论我国未决羁押程序的立法完善
“程序猿”的生活什么样
英国与欧盟正式启动“离婚”程序程序
数字化制胜
创卫暗访程序有待改进
基因组DNA甲基化及组蛋白甲基化