中国科学院上海营养与健康研究所研究员李海鹏研究组与华东师范大学脑功能基因组学研究所副研究员潘逸萱研究组“十年磨一剑”,创建了快速极小时间溯祖(FitCoal)新理论,并发现人类在早、中更新世过渡期由于气候环境剧变经历了严重的“群体瓶颈”。在长达十几万年的漫长岁月中,人类祖先群体只有1000多人,几近灭绝。相关研究9月1日在线发表于《科学》。
这项被誉为“新理论带来新发现的典范式研究”,不仅展示了计算生物学对相关领域的促进和推动,也为进一步研究和确定所有人类出生地提供了关键线索。
走出史前人口“普查”困局
“人类起源问题极其重要且引人入胜,而人群数量的变化历史为研究人类起源提供了关键信息。”西湖大学生命科学学院教授杨剑介绍说,“最近100万年是现代人类进化的关键期。”
史前人口数量的变化综合反映了该时期气候环境的变迁。因此,通过群体遗传学研究方法进行回溯,能深入了解现代人类的形成。已有化石记录表明,近100万年是人类进化的关键时期,但人类群体历史的研究多局限于最近30万年至10万年内。
“虽然近年来古DNA测序技术发展迅速,但由于地球气候不利于DNA保存,因此无法从30万年前非洲人类祖先化石中提取古DNA。”李海鹏告诉《中国科学报》。
因此,李海鹏和合作者一直尝试通过群体遗传学新理论,分析现代人群基因组并研究百万年前的群体历史。
“史前虽然没有文字记载群体数量,但有效群体大小会影响每个世代的溯祖率,即两个谱系在上一世代来自同一祖先的概率。”李海鹏解释说,“因此,可以通过人类祖先在群体基因组中留下的印记来推断当时的群体大小。”
虽然找到了研究方法,但新问题随之而来。研究人员发现,群体历史越久远,留存至今的印记信号越微弱。
为了准确解读这些信号,进而准确估算百万年前人类群体历史,研究人员创建了群体遗传学和计算生物学新理论——FitCoal。
“遵照该理论进行数学推导,可获得任意群体模型下各突变类型,即突变频谱对应溯祖树枝长期望值的解,并获得精确的似然值,也就是在群体历史条件下观察到样本突变频谱的概率。”李海鹏说。因此,无须事先获得群体历史的先验知识,用FitCoal即可自动快速搜寻出极大似然值,从而推断群体历史,对古人类群体进行“人口普查”。
新理论催生新发现
在FitCoal理论基础上,由中国科学家主导,意大利罗马大学、佛罗伦萨大学以及美国得克萨斯大学的研究人员通力合作,通过设定群体历史模型并分析模拟产生的DNA多态数据,衡量估计群体历史的无偏性和95%置信区间。
这是评判某种分析方法准确程度的模型。通过模拟两个群体历史模型的结果可以看出,FitCoal估计的群体历史不但“无偏差”,而且置信区间优于目前领域内常用的3种方法。
通过大量计算机模拟,研究人员进一步分析了不同条件下的群体历史,包括群体交融和自然选择,发现所有结果均表明FitCoal可精准估算百万年内的人类群体历史。
基于FitCoal,研究人员进一步分析了来自千人基因组计划和HGDP-CEPH基因组计划产生的50个现代人类群体基因组数据,首次发现在距今93万年前,人类祖先由于早、中更新世过渡期的气候剧烈变化,在短期内丧失了约98.7%的群体成员,导致人类几乎灭绝。
在此后长达11.7万年的时间里,人类平均成年个体数仅为1280,且从千人基因组和HGDP-CEPH两组独立数据获得的群体数估值几乎完全一致,分别为1270人和1300人。考虑到群体数量的自然波动,这一均值代表了远古人类群体瓶颈期最小群体数量的上限。
“该理论在百万年时间尺度上,实现了高精度时间回溯,同时能准确地估计近期和远古的群体历史。发现人类祖先经历过严重的群体瓶颈是一个里程碑,对人类进化具有重要影响,可能决定了人类许多关键表型的形成。”杨剑说。
最好的“理论框架”
“这是个买椟‘藏’珠的故事。”中山大学生命科学学院教授吴仲义评价说,“这也是近年来《细胞》《自然》《科学》上刊发的凤毛麟角的理论文章。”
吴仲义认为论文只是刊登了研究结论,实际上该研究的理论架构意义更加深远。
研究人员用南部非洲两个群体的基因组作进一步验证,虽然样本个体仅为6人和8人,但FitCoal依然检测到了远古群体瓶颈。对非洲群体样本重抽样的结果表明,仅需3个个体的基因组,即可利用该理论检测到这一远古群体瓶颈,这进一步验证了理论的可靠性。
有趣的是,这一远古群体瓶颈恰好与非洲人类祖先化石的缺失环节、非洲直立人化石的消失、新的古人类物种(LCA)的形成、两条古人类2号染色体的融合阶段相对应。
“这说明早、中更新世过渡期严重的群体瓶颈对人类进化具有关键影响,可能决定了现代人类许多关键表型的形成。”李海鹏说,“远古时期群体数量减少降低了65.85%的现代人群遗传多样性,对人类生命和健康产生了深远影响。”
群体遗传学和人类遗传学家、美国南佛罗里达大学教授刘晓明认为,FitCoal方法是目前最准确的估计有效群体规模历史的方法。而且,该方法基于突变频谱数据,具有数据形式适应性强、计算速度快等优点,有非常广泛的应用前景。
“在科学发现方面,他们首次展示了人类在约100万年前所经历的一次严重群体瓶颈的基因组证据。这一推断与一系列人类学、古气候学证据吻合。”刘晓明说。(张双虎)