解读生命之书

2017-06-02 09:00袁越

三联生活周刊 2017年23期

袁越

DNA是写在生命体内的一本历史书，记录了生命进化史上发生的所有大事。如果科学家们能够学会解读这本生命之书，就有可能穿越到遥远的过去，弄清楚每一个生命都是怎么来的。

生化标签和分子钟

历史学家喜欢以百年为单位，似乎每一个世纪都有自己的独到之处。刚刚过去的20世纪毫无疑问是人类历史上最重要的100年，而且从第一年开始就精彩纷呈，令人目不暇接。

1900年，一个名叫卡尔·兰德斯坦纳（Karl Landsteiner）的奥地利医生发现了血型的秘密。这项发现不光是让输血变得更加安全，而且从根本上改变了人的分类方式。事实上，这是人类所发现的第一个属于生物化学领域的身体特征，具有严格的科学定义，和高矮胖瘦这些概念模糊的形容词很不一样，更是和种族这个常用标签完全不同。任何人都只能有一种血型，没有中间状态，而且一辈子无法更改。

发现了血型秘密的奥地利医生卡尔·兰德斯坦纳

第一个尝试用血型来分类的人是一个名叫路德维克·赫兹菲尔德（Ludwik Hirszfeld）的波兰军医，他在第一次世界大战的时候奉命为马其顿战场上的士兵测血型，结果发现欧洲士兵大部分是A型血，印度雇佣军则多为B型血。于是他猜测A和B代表两个原始部落，分别来自北欧和南亚这两个地区，然后双方杂交，形成了AB型和O型。他把测量结果写成论文，发表在1919年出版的《柳叶刀》（Lancet）杂志上，但他却没有解释血型到底意味着什么。

无论赫兹菲尔德怎样解释肯定都不对，因为随着血型数据的增加，人们很快就发现他的这个理论是不成立的。人类的基本血型只有4种，分布模式又太复杂了，根本不适合作为辨别不同人群之间遗传关系的依据。不过，这个思路却启发了新一代人类学家去寻找更合适的生化指标，帮助他们去研究人类的起源。

巴黎人類博物馆里展出的（左起）长臂猿、猩猩、黑猩猩和人的骨架

上世纪60年代，出生于新西兰的美国加州大学伯克利分校生物学教授艾伦·威尔逊（Allan Wilson）找到了一个合适的指标，并在1967年12月出版的《科学》（Science）杂志上公布了他的发现。当时科学家们已经初步搞清了抗原和抗体的概念，知道如果把一种哺乳动物体内的抗原（比如血清球蛋白）打入另一种哺乳动物的身体里，就会刺激后者产生专门针对它的抗体。如果用这种抗体来试验其他哺乳动物体内的类似抗原的话，那么抗原抗体之间的免疫反应强度取决于两种哺乳动物遗传距离的远近，两者关系越近，免疫反应就越强烈。威尔逊试验了各种灵长类哺乳动物的免疫反应，测出了任意两两组合之间的反应强度，然后依照这个结果画出了灵长类动物的进化树。

后来人们知道，抗原和抗体都是由20种氨基酸依照不同的排列方式组成的蛋白质分子，免疫反应的强度和氨基酸的排列顺序有关。上述实验测量的其实就是这个排列顺序的差异，两种动物分开的时间越长，差异就越大。

之后，威尔逊又做出了一个大胆而又绝妙的假设，他认为氨基酸排列顺序的差异度和时间成正比，两者是一个近乎线性的关系。于是，每一个蛋白质分子都可以被看成是一台分子钟，只要测出两种动物体内的同源蛋白质分子的差异，就可以推断出两者分开的确切时间。

有了这个假设，剩下的事情就简单了。当时考古学家们已经通过化石研究知道了几种灵长类动物分家的大致时间，威尔士将这几种灵长类动物的分子差异和分家时间分别作为X轴和Y轴，做成一张曲线图，然后他把人和黑猩猩的分子差异带入这张图，得出结论说两者大约是在300万～500万年前分家的。

这个结论立刻引起了广泛争议，因为当时的考古学家们大都认为人和猩猩是在2000万～3000万年前就分开了，500万年太短了，很难解释双方之间看似巨大的差异。于是大家一致认为威尔逊的实验方法出了问题，分子钟不可靠。要知道，60年代的考古学界还处于化石和石器研究占主流的阶段，这个领域的绝大部分专家都属于比较传统的学者，只相信自己的眼睛，蛋白质看不见摸不着，很难让人信服。

后来我们知道，威尔逊的估算结果基本准确，人和猩猩应该是在600万～700万年前分家的。两者之间的遗传距离也远没有大家想象的那么大，基因层面只有1%的差别。不过，考古学家们的质疑也是有道理的，蛋白质并不是一个好的分子钟，尤其和放射性同位素时钟相比缺点非常明显。一来免疫反应强度是个相对模糊的概念，并不能准确地反映出氨基酸顺序的差异。二来氨基酸顺序的变异并不完全是中性的，很可能会受到环境因素的影响而变得不准确。

左图：有了DNA工具后，就可以很清楚地知道黑猩猩才是距离人类最近的灵长类动物

饶是如此，用蛋白质分子钟来测年的技术仍然可以称得上是一项绝妙的发现，因为古老的蛋白质很难获得，只能用活动物的蛋白质去倒推祖先的生活轨迹，其难度可想而知。相比之下，同位素测年法用的是古老的样本，无论是测量原理还是实验方法都要比分子钟更容易理解。

面对考古学家们的质疑，威尔逊并没有放弃，他坚信分子钟测年法的逻辑是正确的，只是蛋白质分子不太适合干这个罢了。他需要找到一种分子，既要有相对恒定的变化速率，还要有很高的分辨率。天底下哪有这么好的事情？答案是真的有，这就是大家耳熟能详的DNA。

天赐良钟

1953年，DNA双螺旋结构被发现，遗传的秘密从此大白于天下。简单来说，DNA是一种线性的生物大分子，由ATCG这四种核苷酸首尾相连而成。几乎每一个人体细胞内都含有46个这样的DNA分子，它们被称为染色体。这46条染色体两两对应，一共有23对，每对染色体中有一条来自父亲，另一条来自母亲。

如果我们把每一个生物体看作一幢由蛋白质组成的大厦，那么DNA分子就好比是携带着建筑信息的图纸，其中负责编码蛋白质结构的那部分DNA被称为基因。人体内一共有大约2万个基因，它们合起来被称为基因组，总长度只占染色体总长度的1.5%。每一代生物体都会把建筑图纸的内容通过DNA复制的形式传递给下一代，生物性状就是这样一代一代地遗传下去的。DNA拷贝的准确性非常高，但偶尔也会出差错，如果某个错误错得恰到好处，那么它就会被大自然挑中，将错就错地继续遗传下去，这就是达尔文进化论的本质。

正是因为DNA复制差错无处不在，所以地球上除了极少数微生物和病毒之外，没有两个生命体是完全相同的，大自然用这种方式为每个生命贴上了独有的DNA标签，远比肤色或者血型之类的标签要精准得多。人类学家们只要掌握了DNA标签的解读方式，就可以精确地比较人和人之间的遗传关系，从而更好地推断出人类这个物种的进化史。

比如，以前的人們不敢肯定到底是黑猩猩距离人类近还是红毛猩猩距离人类近。有了DNA工具后，这个问题就变得很容易解决了。只要比较一下三者的DNA序列，就可以很清楚地知道黑猩猩才是距离人类最近的灵长类动物。

对于我们要讲的这个人类起源故事来说，DNA分子还有一个特性更重要，那就是有些DNA段落是搭基因的顺风车而来的，它本身不编码任何蛋白质，也不具有任何调控能力，不会对生物的性状或者适应环境的能力带来任何影响，这样的DNA段落被称为“垃圾DNA”。虽然名字很糟糕，但其实垃圾DNA片段的复制方式和非垃圾片段是一样的，出错的概率也是一样的。

更妙的是，DNA复制的差错率是一个相对恒定的生物学特性，和生物的年龄、健康状况及生存环境等等因素关系不大。于是，只要我们能测出祖先DNA的顺序，再和当代DNA加以对照，就可以计算出两者之间经过了多长的时间了。举例来说，如果我们测出了某种生物的DNA顺序，又想办法得到了它的祖先的DNA顺序，发现两者有100万个差别。已知这种生物的DNA突变率大约为每代100个，我们就可以计算出两者之间相差了1万代。如果我们再假定每代之间相隔25年，就可以推断出这种生物从祖先发展到今天一共用时25万年。

右图：红毛猩猩曾经被认为是距离人类最近的灵长类动物

上述算法和碳-14测年法的原理是类似的，不难理解。两者的差别在于，碳-14所测的古代样本是可以得到的，祖先的DNA顺序可就没那么容易测出来了。不过，这点困难可难不倒科学家们，他们改进了算法，只需要测出当代生物的DNA序列，就可以通过数学推理的方式推测出物种进化的大致路径和年代。

为了更好地解释这个方法的妙处，让我们举一个现实生活中的例子。改革开放前的大陆不允许进口港台书籍，于是金庸小说只能以盗版的方式在大陆扩散，请问如何才能通过分析这些盗版书籍搞清它们的扩散路径和时间呢？

首先我们必须假定所有盗印设备都会出错，而且这种错误的出现概率很低，同一个错误很难出现两次。其次，我们还要假定盗版商审稿不严，错字不会被发现，而是继续将错就错地传播了下去。有了这两个假设，缉私局的侦探们就可以开始工作了。

假设他们发现广东省收缴上来的盗版书错误种类最多，其他各省的错误种类不但要少得多，而且大都可以在广东省盗版书中找到，于是侦探们有理由相信，盗版书首先是从广东省开始出现的，而且一定是先在广东省内流传了很长的时间，积累了大量错误，然后才流到其他省份去的。

其次，如果福建、浙江、江苏和山东省境内收缴的所有盗版书都有同一个错字，其他省份没有这个错字。在此基础上，浙江、江苏和山东省境内的盗版书里全都有另一个错字，其他省份没有……以此类推，那么侦探们有理由相信这几个省份的盗版书是按照福建、浙江、江苏、山东这样的顺序流传开来的。

第三，假定我们事先知道盗版设备的错误率，又知道了山东省和甘肃省境内的盗版书相互之间一共有多少不一样的错误，侦探们就可以大致算出山东盗版书和甘肃盗版书距离它们共同的源头到底经过了多少轮复制。具体的算法比较复杂，这里就不详细写了。另外，侦探们不必去统计所有的金庸小说，只要能统计出某一本小说，甚至某一个章节的错误率就可以大致估算出来了。当然了，统计的书目越多，这个估算就越精确。

具体到DNA分子钟这件事上，上述假定都是成立的。首先，DNA复制会出错，大约每复制10亿个核苷酸会出一次差错。这样算下来，每个人一生中会出现70个全新的基因变异。不过大家不用害怕，要知道每个人的基因组里都有大约60亿个核苷酸，如果把这60亿个字母印成一本书的话，按照每页印3000个字母的标准来计算，这将是一本200万页的巨著，所以说这70个错误对于每个人来说几乎可以忽略不计。

目前全世界所有人的单个核苷酸复制错误加在一起一共有600万个左右，相当于每1000个核苷酸就会出现一个不一样的字母，科学术语称为“单核苷酸多态性”（简称SNP）。SNP是人类DNA序列差别的最主要的表现形式，世界上之所以不存在两个一模一样的人，主要原因也在于此。

不过，所有这些SNP当中，绝大部分都是所谓的“中性突变”，既不好也不坏。这类中性SNP在人群中的扩散机制主要是以遗传漂变（Genetic Drift）的形式（而不是自然选择）进行的，我们可以简单地理解为“全凭运气”。这个想法最早是由日本遗传学家木村资生提出来的，他也因此而被公认为是群体遗传学的奠基人之一。这套理论解释起来需要用到大量的数学知识，一般人不必理会。我们只需知道DNA分子之所以能够被当成分子钟来使用，原因之一就是木村资生的这套“中性理论”。

其次，人类染色体DNA的突变率是非常低的，通常情况下一个字母发生突变之后，再在同样的地方发生第二次突变的概率低到可以忽略不计。所以我们可以不必考虑这种情况，以最简单的方式来解释任意两人之间的遗传关系。这个方法的理论基础就是著名的“奥卡姆剃刀”原理，即“如无必要勿增实体”。这是群体遗传学家们进行数学计算之前的重要前提，一般人也不必深究，只需知道这个奥卡姆剃刀是DNA分子钟的另一个理论基础就行了。

有了这两个理论做基础，剩下的事情就相对简单了。威尔逊再次成为第一个吃螃蟹的人，正是他在1987年发表的一篇论文，打开了基因寻祖的大门，从而彻底改变了人类进化史研究的进程。

上世纪50年代，有“中国遗传学泰斗”之称的谈家桢（左）教授指导学生观察细胞结构

线粒体夏娃

1987年1月出版的《自然》杂志刊登了一篇重磅论文，作者是威尔逊以及在他手下工作的博士生丽贝卡·卡恩（Rebecca Cann）和马克·斯通金（Mark Stoneking）。这篇论文通过对人类线粒体DNA多態性的研究，得出结论说全世界所有现代人的母系祖先都可以追溯到15万年前的非洲，我们都是同一位非洲女性的后代。

这篇论文好似一枚炸弹，把全世界都炸醒了。各国媒体不约而同地把这条消息放在了头条的显著位置，有人借用《圣经》里的概念，称这位非洲女性为“线粒体夏娃”。威尔逊虽然不喜欢这个带有宗教意味的说法，但无法阻止它迅速流传开来。不用说，以英国人类学家斯特林格为代表的“取代派”高声欢呼，认为自己的理论得到了最权威的DNA数据的支持。与之对立的“连续进化派”也迅速做出反应，对这篇论文的科学原理和计算方法提出了质疑。威尔逊认真听取了各方的反对意见，增加了新的数据，改进了计算方法，重新又算了一遍，但结果依然维持原样，我们所有人的母亲仍然是一位“幸运的非洲妈妈”。

这个结论是怎么得出来的呢？让我们先从线粒体开始说起。这是一种体积比细胞还小的细胞器，专门负责为细胞提供能量。有证据表明线粒体是远古时代的细胞捕获的一种微生物，这就是为什么它会自带DNA的原因。

线粒体之所以能成为基因寻祖的突破口，和线粒体DNA的两个特性有关。第一，线粒体DNA严格遵循母系遗传的规则，只从母亲传给子女，父亲几乎没有做出任何贡献。这样一来科学家就不用考虑基因重组的问题了，大大简化了计算和推理的过程。如果再用金庸盗版书举例的话，这就好比说盗版商把每一章的影印工作分包了出去，然后再统一收集起来装订成一本盗版书，警察分不清哪一章来自哪里，这就给侦缉工作增加了很多困难。而线粒体就好比是金庸写的那本最短的小说《越女剑》，从来没有被分拆过，历史很清白，分析起来要容易得多。

第二，线粒体DNA的复制精确度比常染色体DNA低，纠错系统的工作效率也较染色体DNA为低，其结果就是线粒体DNA的突变率大约是常染色体DNA的10倍，直接导致线粒体的遗传多样性要比常染色体高出很多。人类常染色体每1000个核苷酸才有一个突变，线粒体DNA的高变区每100个核苷酸就有一个突变。从群体遗传学家的角度看，这就意味着线粒体分子钟走得比常染色体分子钟要快，如果研究对象的年代不那么遥远，可供分析的数据就变多了，分析结果的准确性就会大大提高。如果拿放射性同位素测年法来做个对比的话，线粒体DNA就相当于半衰期较短的同位素，更适合用来研究近代发生的事件。

以上分析都属于纸上谈兵，具体做起来难度相当大。上世纪80年代的时候，DNA测序还是一件非常困难的事情，不但实验程序复杂，而且价格昂贵，一般人是测不起的。幸亏加州大学伯克利分校有眼光，给了威尔逊足够多的研究经费，支持他测量了134个人的线粒体DNA序列。为了方便起见，这134个志愿者都是从美国国内找的，好在美国是个移民国家，可以找到来自世界各地的“纯种”的少数民族，足以代表世界上几个比较大的族群了。

线粒体DNA虽然很小，但也有1.67万个核苷酸，全测一遍是不可能的。威尔逊选择了其中的一个总长度为500个字母的控制区，这个区对于线粒体的功能没有影响，区内的所有突变都是木村资生所说的中性突变，最适合用来进行分类和寻祖。

分析结果显示，非洲人在控制区内的基因突变种类最多，其他族群的基因多态性不但少了很多，而且所有非非洲人（指除了撒哈拉沙漠以南非洲之外的所有地方的人）的突变类型都可以在非洲人群中找到，说明所有非非洲人的母系祖先都来自非洲。非洲的那几个基因类型也都可以追溯到同一个母系祖先那里去，这说明所有的现代人的母系祖先都来自同一个非洲部落。

所有非非洲人的基因突变类型还可以一级一级地细分下去，从而画出人类走出非洲的路线图。有了这个路线图之后，威尔逊就可以判断出哪些位点是从非洲带来的野生型，哪些是后来突变产生的。然后他又通过其他办法估算出了线粒体DNA的突变率，将其带入一套算法，算出所有人类共同的母系祖先生活在距今14万～20万年的非洲。

这个年代估算是线粒体夏娃理论当中最关键的数据，因为前文说过，人类祖先源自非洲这件事是没有争议的，大家争议的是现代人到底是从哪里来的。如果所有现代人共同的祖母只有不到20万年历史的话，“多地起源”理论就不成立了。事实上，这就是线粒体夏娃理论被多地起源学派攻击得最厉害的地方，很多人都在想办法找出分子钟的漏洞来。但是，这么多年争论下来，大家只是对分子钟的准确性做了一些必要的修正，这个理论整体上依然是没有问题的。

随着DNA测序技术的进步，科学家所能研究的线粒体DNA越来越长，采样的范围越来越广，数据量也成倍上升，但主要结论依然没变。那篇论文刚发表时，在埃塞俄比亚挖到的现代智人奥莫化石的测年结果还是13.5万年，论文发表若干年后这个结果被修正为19.5万年，为线粒体夏娃理论提供了重要的化石证据。目前国际学术界普遍认为人类共同的母系祖先最晚可以追溯到距今20万年前的非洲，也就是说，如果地球上的每个人都能坐上时光机一代一代地往回穿越，最终大家会发现所有人的曾曾……曾祖母都是同一个人。

到底有多少个“曾”字呢？如果拿20万年来计算的话，假定每25年更新一代，那么答案是8000代。这是个超出一般人想象的数字，这就是为什么历史学家们通常用“深邃”这个词来形容漫长的史前时代。

必须指出的是，这个结论并不意味着当时这个非洲部落里只有一名女性。事实上，群体遗传学研究认为这个部落很可能有上千人之多，其中肯定有几百名育龄女性。但是她们要么没有生下女儿，要么生下的女儿没有接着生下女儿，导致她们的线粒体都没有传下来，这就是为什么威尔逊一直把这位女性称为“幸运的非洲妈妈”，而不是夏娃。

威尔逊完成的这个线粒体寻祖实验是群体遗传学历史上最经典的研究之一，具有划时代的意义。如今，利用DNA分子多态性来构建某种生物的遗传史已经成为群体遗传学领域最重要的工具，计算流程已经高度标准化了。这套工具需要用到复杂的数学知识，但其理论基础就是前文提到的“中性理论”和“奥卡姆剃刀”原理。反对者也大都会从这两个理论着手，质疑这套工具的正确性。比如中国就有一位大学教授宣称自己找到了这套理论的错误，而且一直在四处办讲座宣传自己的那套理论，可惜他关于此事所写的论文并没有被任何一家采用同行评议制度来审稿的主流科学期刊所采纳，只能说是自说自话而已。事实上，目前尚未出现任何一种质疑能够被大多数群体遗传学家所接受，所以我们仍然认为这两个理论是正确的，这套计算工具仍然是可信的。

值得深思的是，线粒体夏娃理论提出之后的头10年里，中国学术界一直没什么反应。一方面是因为当年大部分中国考古学家都是支持“连续进化附带杂交”理论的，大家不约而同地选择对这个不利于自己的证据保持沉默。从另一方面讲，上世纪80年代的中国正处于百废待兴的时期，有很多远比人类起源更加迫切的问题需要解决，没多少人有闲心去关心自己祖先的事情。最终还是一位在美国留学的中国学者意外地闯入了这个新兴领域，没想到却掀起了一场更大的波澜。

寻找亚当

在讲述亚当的故事之前，必须先来谈谈遗传学在中国的遭遇。上世纪50年代，遗传学也曾经像今天的人类进化领域一样，分成了互相抵触的两大学派。一派的代表人物是苏联的植物育种专家米丘林，另一派则是果蝇遗传学的奠基人摩尔根。中国因为政治的原因选择站在了米丘林一边，当年中国大学生物系的遗传学教材都是从苏联照搬过来的。摩尔根学派在中国遭到了残酷的打压，唯一的原因就是摩尔根是美国人。

摩尔根有个学生名叫杜布赞斯基，前文曾经提到过他。杜布赞斯基招过一位来自中国的研究生，名叫谈家桢。新中国成立后谈家桢博士回国任教，担任了复旦大学生物系的系主任。正是因为谈家桢的缘故，复旦大学决定继续讲授摩尔根遗传学，为中国的遗传学研究保留了唯一的火种。

改革开放之后，或者更准确地说，是“冷战”结束之后，中国学术界终于承认摩尔根遗传学是正确的。因为谈家桢留下的班底还在，所以复旦大学生物系遗传专业迅速成为全国最佳，培养了一大批优秀的人才，现任复旦大学副校长的金力博士就是其中之一。他在1985年和1987年分别在复旦大学生物系拿到了遗传学学士和硕士学位，然后赴美留学，于1994年在得克萨斯大学拿到了博士学位。毕业后他立即前往斯坦福大学，在著名的意大利裔人类遗传学家路易吉·卢卡·卡瓦利-斯福扎（Luigi Luca Cavalli-Sforza）实验室做博士后，主攻群体遗传学。

“我那时候的主要兴趣是疾病的群体遗传学，非常希望研究對象尽可能地‘纯，这样研究起来会更方便。但实际人群都是‘杂的，所以我想对实际人群到底有多杂做一个分析评价，于是便开始关注Y染色体。”金力博士在他的办公室接受了我的采访，“当时线粒体的遗传多样性已经做了好几年了，但线粒体毕竟太小，而且独立于细胞核之外，应用范围有限。Y染色体也是单线遗传的，不必考虑重组问题，所以我觉得Y染色体也许是一个机会，可以帮助我解决问题。”

前文说过，人体一共有46条染色体，它们分成23对，除了X和Y这两条性染色体之外，其余的22对常染色体是一一配对的。性细胞在减数分裂的过程中会发生基因重组，也就是一对染色体中相对应的段落彼此互换位置，以此来增加遗传多样性。据统计，人类的每一代平均会发生36次基因重组，每条染色体发生一次多一点，如此累计下来，只需几代之后，染色体就混杂得分不清哪块来自父亲，哪块来自母亲了，导致基因分析的工作量大大增加。X和Y染色体只有极少部分是对应的，基本上不会发生基因重组，所以Y染色体的遗传方式和线粒体类似，都是单线遗传的，只不过这次是从父亲传给儿子，和母亲无关。所以，沿着Y染色体这条线，最终找到的是人类共同的父系祖先，西方媒体习惯性地称为亚当。

对于科学研究这件事，普通人往往只看原理和结果，不关心过程。科学家则正相反，因为他们才是真正做实验的那个人。寻找Y染色体亚当的理论基础虽然和线粒体夏娃差不多，但Y染色体和线粒体很不一样，实验过程要困难很多倍。首先，一条Y染色体上含有将近6000万个核苷酸，比线粒体大了3600多倍，对于当年的DNA测序技术来说，这是个庞然大物，极难对付。其次，Y染色体是位于细胞核内的“正规”染色体，其DNA复制的精确度比线粒体高很多倍，导致Y染色体上的SNP突变频率要低很多，找起来非常困难。当时全世界只发现了一个Y染色体SNP，远远不够。

虽然明知山有虎，但金力偏向虎山行。但他冥思苦想了很长时间，始终找不到解决办法，最终是一位分析化学专业的博士后帮了金力的大忙。“我喜欢喝咖啡，和另外一间实验室的一个同样喜欢喝咖啡的奥地利人交上了朋友。”金力回忆道，“他叫皮特·欧芬纳（Peter Oefner），专业是高压液相色谱（HPLC）。当时他正在尝试用‘变性高压液相色谱（DHPLC）技术来分离DNA短片段，这项技术速度快、效率高，可以不必通过测序就辨别出不同序列的DNA小分子。我俩一起尝试用这项技术来辨别DNA长片段，结果大获成功，在很短的时间里就筛选出了好几个Y染色体标记物。”

这里所说的标记物指的是Y染色体上和别人不一样的点，类似于金庸盗版小说里的印刷错误。不同版本的盗版小说可以通过这些具有特异性的印刷错误一眼认出来，不同来源DNA也一样。SNP是遗传学家最常用的标记物，Y染色体上还有“短串联重复”（STR）和“拷贝数差异”（CNV）这两大类标记物，也可以用来给Y染色体做标记。

“其实我的兴趣并不是人类起源，而是人类的迁徙路径。研究人类迁徙最关键的一点就是找到特定人群的标记物，然后利用它去追踪源头。”金力博士解释道，“这就好比说你要搞清楚东海里的水到底是哪里来的，最好的办法就是在黄河源头倒一瓶红墨水，在长江源头倒一瓶蓝墨水，然后去东海里取一瓢水，看看里面到底有多少红墨水分子，又有多少蓝墨水分子。在这个例子中，墨水就是标记物，用来追踪水的迁徙路径。”

初战告捷之后，金力和同事们在1995年召开的美国人类遗传学年会上向与会者报告了这项技术，引来了无数关注。此后来自世界各地的科学家运用这项技术找到了好几百个Y染色体标记物，为人类寻找亚当的踪迹铺平了道路。

2000年11月，来自卡瓦利-斯福扎实验室的19位作者在《自然遗传学》（Nature Genetics）杂志上发表了分子进化领域的第二篇重磅论文，通过对不同人群Y染色体遗传标记物的分析，找到了人类共同的父系祖先。这位亚当同样生活在非洲，时间大约是距今5.9万年，远比夏娃要近得多。后来科学家们又获得了更多的数据，把这个数字修正为距今12万～16万年，和夏娃大致处于同一个时间段内。

这篇论文发表后，“多地区进化”理论便又挨了重重的一拳，虽然这个理论的支持者仍然还想挣扎着再爬起来，但难度越来越大了。

“其实我想问的问题很简单，那就是各个人群之间的遗传距离到底有多大？如果这个距离大于100万年，那么多地区起源理论就有可能是正确的。但如果像现在这样只相差十几万年，那么这个理论就不太好解释了。”金力对我说，“我当然知道分子钟有问题，计算出的年代可能有误差，但顶多差个1～2倍而已，无论如何差不到100万年以外去，没法支持多地起源理论。”

2000年那篇论文只分析了1000多例Y染色体，虽然已经足以得出结论说世界上大部分人的父系祖先都来自非洲，但金力还是不满足。“我接下来想再问一个问题：这个‘大部分人到底是多少？非洲智人是不是把世界各地的古老人种完全替代了？有没有漏网之鱼？对这几个问题我想了很久，一直想不出解决办法。”金力回忆道，“我除了喜欢喝咖啡之外，有一个爱好就是吃烤肉，就是在一次烤肉时我突然想到，既然直立人曾经走到了亚洲，那么只有大规模调查现代亚洲人的Y染色体，看看能否找到亚洲直立人的贡献，才能回答这个问题。”

于是，大家关注的目光再一次转到了亚洲，转到了中国。

东亚男性大调查

1994年冬天，正当金力在斯坦福大学尝试用DHPLC技术寻找Y染色体标记物的时候，当年已是86岁高龄的谈家桢专程去斯坦福拜访了他，希望他学成之后回到复旦大学遗传所工作。后来金力果然听从了谈先生的建议，于1997年回到复旦大学做了兼职教授，2005年他干脆放弃美国居留权，回到复旦大学生命科学学院担任了全职教授。

几乎与此同时，由IBM公司提供技术支持，美国《国家地理》杂志负责实施的“人类迁徙遗传地理图谱计划”于2005年4月在世界各地同时启动。该计划打算在全球范围内收集10万份人类DNA标本，用5年时间描绘出史前人类的迁移路线。复旦大学生命科学院承担了东亚和东南亚地区的DNA取样和研究工作，金力是东亚和东南亚中心的总负责人。在他的领导下，中国科学家们分析了2万多个Y染色体样本，绘出了东亚男性成员的迁徙路线图。

写到这里必须要提一下Y染色体上最著名的SNP M168，这是3.5万～8.9万年前起源于非洲大陆的一个SNP，最早是在金力参与的那篇2000年发表的论文里被发现的。当时金力他们只测了1000多个个体，发现所有非非洲大陆男性的Y染色体上都有这个M168，为人类进化的“取代学说”提供了一个强有力的证据。

这一次，金力打算更进一步，分析一下M168旗下的3个子单倍型YAP+、M89T和M130T。所谓“单倍型”指的就是一组相距很近的SNP的集合体。因为距离近，这些突变总是连在一起传递给下一代。用单倍型来作为遗传标记物，操作起来要比用单个SNP更加方便，准确性也更高。

实验结果显示，来自于163个亚洲及附近人群中的所有1.2127万个采样个体均带有上述这3个单倍型中的一个，无一例外。这个结果再次说明几乎所有东亚人的父系祖先全部来自M168群体，也就是说他们均来自非洲，没有任何一个古老型人种对当今东亚人的Y染色体做出过贡献。

金力把研究结果写成论文，刊登在2001年5月11日出版的《科学》（Science）杂志上。“多地区进化”理论挨了第三记重拳，很难再爬起来了。

曾经在加州大学伯克利分校任教的美国人类学家文森特·萨里奇（Vincent Sarich）一直是“多地区进化”理论的坚定支持者，多年来一直不遗余力地宣扬该理论。但当他看到了这篇论文后，也不得不在公开场合承认自己错了。“我好像经历了一次信仰转换，简直就像是耶稣基督对我显灵了一样。”萨里奇写道，“我终于确信当今人类中确实找不到任何一条古老的Y染色体，也找不到任何一个古老的线粒体，这是一次完全的替代。”

也许有读者会问，既然是这样，为什么现在生活在欧亚大陆上的各个民族彼此之间会有如此大的不同呢？针对这个常见问题，群体遗传学家有自己的解释。他們通过对现代人基因多样性的分析发现，现代智人在走出非洲后经历过好几次瓶颈效应，即人群数量因为自然环境恶化等原因而突然大量减少，就好像一群人一起通过一个狭窄的瓶口一样。最终大部分人都被瓶口堵住了，只有极少数幸运儿挤了过去，其结果就是原有人群的遗传多样性大幅减少，在此基础上重新扩增起来的人群就有可能和原来的很不一样了。

从遗传多样性的角度讲，能通过瓶颈的人纯属运气好而已，这就是前文提到的“遗传漂变”。但是，对于一些和生存能力有关的基因来说，这是个优胜劣汰的过程，属于自然选择的范畴，人类肤色的差异就是如此。肤色是由两个因素决定的，一个是维生素D的合成，一个是叶酸的破坏。人的皮肤会在阳光的催化作用下合成维生素D，阳光越强烈，维生素D的合成就越充分。但是，过于强烈的阳光会破坏叶酸，这同样是一种非常重要的维生素，所以低纬度地区生活的人倾向于进化出深色皮肤，以此来保护叶酸不被阳光破坏。生活在高纬度的人则倾向于进化出浅色肤色，以便更好地利用阳光补充饮食中缺乏的维生素D。

当然了，这是在人类退掉毛发后才出现的一种进化选择。我们的祖先因为毛发浓密，挡住了绝大部分阳光，皮肤几乎可以肯定是浅色的。

有趣的是，真正到了最北端，也就是生活在北极圈内的人，情况又有所不同。比如生活在阿拉斯加和加拿大北部的因纽特人皮肤反而非常黝黑，这是因为他们主要靠打猎为生，动物脂肪富含维生素D，所以他们并不需要从阳光中获得维生素D，这时候防晒就是一件更重要的事情了。

另一个很常见的问题是，原本生活在欧亚大陆上的古老型人类都去了哪里？化石证据显示他们当中的一些人已经开始向现代智人的方向进化了，前言中提到的许昌人就是一例，难道他们不是我们的祖先吗？对此问题金力给出了一个很好的解释：“一个古人类学家找到一个古人化石，他只能希望它是有后代的，但是它究竟有没有留下后代呢？古人类学家是没有办法知道的。DNA就不同了，现代人身体里的DNA肯定都是有祖先的，我们可以通过对DNA多样性的分析，推测出每一个DNA祖先都是从哪里来的。”

换句话说，在人类起源的问题上，群体遗传学家和古人类学家探究的是两个完全不同的问题。前者想要知道现代人的祖先究竟是谁，他们是从哪里来的，后者研究的则是人类这个物种的进化过程，其中有些支系群体不一定留下过后代，属于进化的死胡同，类似案例在其他生物中非常常见，人类一点也不特殊。

但是，这并不等于说这些支系就没有研究的必要，因为他们很可能在某些方面影响了现代人的进化过程。这就好比说你出生在一个小村子，村里有多户人家，你的律师肯定只关心你的父母，只有他们才是你的直系祖先，其他人和你没有法律关系。但你的传记作家除了关心你父母之外，也会去关心村里其他那些成年人，因为他们都或多或少地影响过你的人生。

在媒体的渲染下，很多旁观者都误以为人类进化的两派之争是遗传学家和古人类学家在打嘴仗，但实际上很可能双方研究的根本就不是同一个问题。不过，确实有少数科学家自己也没有弄明白两者的区别，分不清每一种研究方法的边界在哪里，一直热衷于关公战秦琼。

金力对两者的区别非常清楚。他在复旦大学创立了人类学与人类遗传学系，从名字就可以看出这个系分成了两个不完全一样的部门，分别研究人类的进化史和依靠DNA寻祖这两件事。后者目前主要是由李辉教授在负责，他带领一群研究生花费了大量时间和精力去祖国各地收集DNA样本，分析Y染色体和线粒体的遗传多样性，画出了一张现代中国人迁徙草图。

中国人到底是从哪里来的？

上一篇文章提到，中国的人类考古学家大都属于传统的“化石派”，他们通过对化石的研究认定现代中国人是从原本生活在中国大陆上的原始人类单独进化而来的。金力和李辉属于这个领域的闯入者，他们拿到的DNA证据又得出了怎样的结论呢？为了寻找答案，我专程去复旦大学采访了李辉教授，发现他最爱说的一句口头禅就是：“这是很清楚的一件事情。”

他之所以如此自信是有原因的：一来DNA分析本身就远比化石分析来得更精确，二来他曾经找到了一个已经延续了70代的大家族，对DNA分析法做过验证。前文说过，Y染色体代表父系遗传，而中国的大家族一般都是父系家族，两者有很强的对应关系。李辉把Y染色体研究结果和这个大家族的家谱进行了对比，发现两者是高度一致的，说明这套算法经得起考验。

如果把研究对象从一个大家族扩展到更大范围的人群，光是研究单倍型就不够了，需要引入单倍群（Haplogroup）的概念。国际Y染色体命名委员会把全世界所有的Y染色体单倍型分为代号A-T的十几个大的类群，称为单倍群。每个单倍群出现的时间都不一样，这是可以估算出来的。如果再把每个单倍群出现的地点找到，就可以推断出人类的迁徙路线和过程了。比如大洋洲原住民大都属于C单倍群，出现的时间非常古老，暗示人类走出非洲之后很快就沿着海岸线到达了东南亚诸岛。

每个单倍群内部还可以逐级分层，这个过程很像是一个大家族的儿子们离家出走另开门户。如果再用金庸盗版书做比喻的话，这就相当于广东省外所有的盗版书（以及一部分广东省内的盗版书）都印错了“甲”字（比如M168），所有收自福建、浙江和江苏省的盗版书都印错了“乙”字（比如YAP+），所有收于广西、云南和西藏的盗版书都印错了“丙”字（比如M89T），所有收于湖南、湖北和陕西省的盗版书都印错了“丁”字（比如M130T），于是缉私人员就可以得出结论说，“甲”这个错别字来自广东省境内，这是广东省外所有盗版书的母版，然后盗版书沿着东线、西线和中线这三条线路在中国大陆扩散，这三条线分别拥有乙、丙和丁这三个错字。

这三条传播路线中的每一条都可以按照新出现的错字继续分层，代表盗版书传播路径中的每一个细小分支。在人类遗传学研究中，这种分层最多可以分出好几十层，最终可以一直分到每个人自己的直系亲属为止。举例来说，Y染色体单倍型分层的最末端就是你和你兄弟，你们俩在所有其他层面上都是一样的，只有最后一层才能看到差别。

按照这个方法，李辉推算出了早期人类从非洲迁往东亚地区的大致路线。在他看来，这次迁徙是分两次才完成的，第一次大约发生在6万年前，这群人从中东地区出发，沿着海岸线一路向东进入了亚洲地区，这是比较符合常理的一条路线，因为沿着海边走永远不愁找不到吃的。李輝称这些人为“早亚洲人”，他们的后代至今仍然居住在澳大利亚、新几内亚和美拉尼西亚诸岛上，在遗传上属于C单倍群，过去曾经被称为“棕色人种”。进一步研究显示，一部分“早亚洲人”曾经沿着海岸线一直走到了亚洲的东北部，然后其中的一部分人转而向西进入西伯利亚大草原，成为蒙古人，另一部分人穿越白令海峡，成为美洲大陆的原住民。

“早亚洲人”当中还有一个神秘的D单倍群，他们大都是住在小岛或者山林里的“小黑人”，学名称为尼格利陀人（Negrito）。如今还能在安达曼群岛、马来西亚诸岛、菲律宾吕宋岛、日本本州岛和北海道，以及俄罗斯库页岛等地看到他们的踪迹，说明这群人曾经一直沿着海岸线迁徙到了东亚和东北亚。事实上，李辉认为C型和D型“早亚洲人”都曾经到达过中国东部的沿海地区，他们多半靠打鱼为生，中国东南沿海出土的贝丘遗址就是这些人留下来的。但这些人没能长期在中国生存下来，今天的大多数中国人不是这群人的后代，只有青藏高原的羌族和藏族，以及四川和甘肃交界处的白马氏人有一部分人属于D型单倍群，科学家们尚不清楚这个单倍群是如何传过去的。

这些“早亚洲人”的祖先很可能早在10万年前就走出了非洲，进入了中东地区。他们之所以没有迅速向欧亚大陆的腹地扩散，很有可能是受到了当时居住在欧亚大陆上的尼安德特人等古人类的阻挡。后来不知因为什么原因，双方的实力对比发生逆转，现代智人打败了尼安德特人，这才得以向北扩散，进入了欧洲和中亚地区，这也是为什么现代人直到4万年前才到达欧洲的原因，比到达亚洲的时间晚了2万年。

正是在打败了尼安德特人等古人类之后，第二批亚洲移民这才得以从陆路进入了东南亚。他们很可能是追逐着猎物一路向东，大约在3万～4万年前到达了亚洲地区。李辉称这些人为“晚亚洲人”，他们的Y染色体单倍群主要为O型，也有少量的N、P、Q和R型。这些人构成了现代东亚和太平洋地区人群的主体，而那些“早亚洲人”则很可能是上古传说中被我们的祖先消灭掉的那些相貌古怪的“魔鬼”。

金力和他的学生宿兵等曾经分析过当今中国人的Y染色体多样性，发现南方人比北方人要多，因此金力等人认为“晚亚洲人”最早是从南方进入中国大陆的，时间是在2万～3万年前。因为这批人是采集狩猎者，很可能是一路追逐着猎物前行，哪里有路就往哪里走。根据中国西南地区的地形地貌特点，以及DNA证据，他们猜测最有可能的一条线路位于滇西，即从缅甸经瑞丽进入中国，然后途经大理到达昆明，这是最容易走的一条路线，而黄种人的皮肤很可能就是从缅甸到云南的过程中突变出来的，

古人没有交通工具，古代中国也没有道路，所以沿江而走是最合理的选择。李辉认为当年那批人进入滇西后兵分两路，一群人沿着珠江走，最终进入了两广地区，时间大约是1.6万～1.8万年前。另一群人沿着长江走，之后又分成两路，一路进入四川，一路进入湖广地区，时间也差不多。

大约在1.1万年前，最近的一次冰期结束，全球气候逐渐变暖，万物复苏，全世界掀起了一股发明农业的浪潮。中国最早的农业应该出现在洞庭湖西岸的澧阳平原，湖南澧县的彭头山文化就是早期农业文明的代表，彭头山出土的陶器内发现了稻谷和稻壳的痕迹，时间为距今8300～9000年，证明水稻很可能就是从这里走向世界的。江南地区则驯化了菱角，但这种农作物产量低，不能做主粮，不是很成功的驯化，所以江南地区的文明发展一直落后于湖南，直到水稻传过去后这块地方才迅速发展起来。这些以水稻为主粮的民族构成了中国的南方人群，中国的北方人群则以小米为主粮，发源地很可能位于现在的河北和内蒙古一带。

有了农业才会出现大的部落，才会有很多人聚在一起生活，语系的概念就是在这一阶段出现的。语言学也是研究人类起源和迁徙的一个重要工具，比如汉藏同源这个概念就是先从语言学研究领域开始叫出来的，后来被基因学研究所证实。从某种意义上说，语言和基因很相似，都是遵循一定的规律一代代拷贝下去的，也都可以通过倒推的方法追根溯源。但语言传承的规律性和精确性均不如基因，只能作为辅助手段来使用。

有了大部落，才会出现等级制度，才有可能出现强人统治。金力的学生严实等通过对Y染色体的研究发现，当今中国男性当中有将近一半的人属于三个超级男性的后代，他们很可能是三个古代部落的首领，各自代表着三个原始族群。但在人类遗传学体系里，这三个族群是用Y染色体上的三个标记物的名字命名的，李辉正在尝试把他们和具体的历史事件联系起来。

按照李辉的说法，第一个超级男性出现在6800年前，对应于7800年前在湖南开始的高庙文化。这就是前文所说的水稻文明，彭头山文化是其草创期，已经出现了很多大聚落，但那时只有护城河，没有城墙。前者挡野兽足够了，后者是高庙时期才出现的，主要是为了挡人，这说明从高庙时期开始，原本那些因为地理阻隔而单独发展了数千年的不同部落开始了相互争斗，中国的民族大融合从此拉开了序幕。

第二个超级男性出现在6500年前，很可能和仰韶文化有关。这个文化大致位于黄河中游地区，从今天的甘肃省到河南省之间，传说中的夏商周就位于这一区域，华夏民族的主体很可能就来自这里。

第三个超级男性出现在5300年前，可能和红山文化有关。该文化大致位于今天的燕山以北的大凌河与西辽河上游地区，以小米为主要农作物。位于内蒙古赤峰市的红山后遗址挖掘出了大批造型生动的玉器，说明中国人用玉的传统很可能来自这里。

高庙文化、仰韶文化和红山文化都是考古学家们喜欢使用的名词，李辉认为这是一个很不好的习惯。“仰韶就是个小村子啊，怎么就变成一个文化了？考古界的专家们当然明白这是怎么一回事，但如果不借助历史文本的框架来解释的话，这些名词对于民众来说是没有意义的。”李辉对我说，“如果我们用神农时代、黄帝时代或者炎帝时代来解释的话，老百姓就能听懂了。考古遗传学也是如此，O1O2这些Y染色体标记物对于老百姓来说没有任何意义，只有把它们和历史事件严丝合缝地拼接起来才有意义，这就是人类学要做的事情。”

李辉非常讨厌文理分科，他认为人类考古界不能各自为战，应该统一起来，所有材料不分文理都可以拿来用。理科生可以借助遗传学为人类历史整理出一个骨架，但是光有骨架太难看了，必须有考古学提供内脏，语言学和文化学提供肌肉，历史学提供皮毛，只有这样拼接起来才能构建出人类历史这头大象。

比如，李辉认为第一个超级男性对应的是苗瑶语系，很可能和蚩尤有关。第二和第三个超级男性则代表汉藏语系，很可能分别对应了炎帝和黄帝。他甚至认为传说中的逐鹿之战就发生在北京和张家口一代，当时生活在中原地区的炎帝先是和蚩尤打了一仗，战败后跑到北方向黄帝求援，然后炎黄二帝合力将蚩尤战败，获胜者就是华夏民族的祖先。今天的苗族人認为他们就是蚩尤的后代，战败后被逐出中原，流落他乡。

上述说法听上去很让人兴奋，李辉也坚信这是DNA给出的结果，是“很清楚的一件事情”。不过，李辉也明白他这个说法目前尚无考古学证据的支持，需要各方努力才能还原真相。

用Y染色体来追寻祖先的踪迹，功能虽然很强大，但毕竟是用现代人的遗传密码倒推古人，中间有很多逻辑链条都是建立在假说之上的，难以服众。因为人群不断迁徙的缘故，现代人的居住地很可能和他们的祖先不一样，这也是考古遗传学的缺陷之一。如果能直接测出古人的DNA，解读出古人的生命之书，再来和现代人做比较，就能更准确地搞清真相了。

尾声

不知有多少人还记得老山汉墓的故事。这是位于北京市石景山区东部老山地区的一座西汉时期的王室贵族墓葬，北京市文物研究所于2000年8月在墓中发现了一具尸骨。那次挖掘在中央电视台做了直播，是央视有史以来所做的第一个考古直播，引起了海内外历史学爱好者的广泛关注。

经我国著名人类学家潘其风研究员鉴定，这具骸骨属于一个30岁左右的女性，其身份应该是西汉时期某诸侯王的王后。北京市文物研究所将头骨送至公安部物证中心，后者依照法医学原理做出了一个面部复原石膏像，看上去像是个西域人。于是那段时间媒体纷纷报道说这位王后是一名西域胡女、中国在西汉时期就经常和西域通婚，等等。但是，潘其风研究员通过体质人类学的方法对遗骨做了研究，认为她是中原人。

双方在遗骨的身份认定上产生了分歧，谁也说服不了谁。北京市文物研究所决定向吉林大学边疆考古研究中心求援，请该中心考古DNA实验室主任周慧老师出山，设法提取出骸骨中的DNA，还她一个清白。

从此，一扇紧闭了很久的大门被打开，中国考古进入了一个全新的时代。