近期,由我国科学家牵头发起,多国科学家共同参与的“灵长类基因组计划”取得重大进展,相关研究成果在权威学术期刊《科学》上发表。其中,由时任基因测序巨头Illumina Senior Fellow、分子之心创始人许锦波教授与Illumina人工智能实验室联合完成的《The landscape of tolerated genetic variation in humans and primates》一文,借助AI蛋白技术分析灵长类动物基因组的变异,了解个体的基因变异和遗传风险,为个性化基因医学的发展带来重要机遇。
“灵长类基因组计划”由中国科学院昆明动物研究所率先提出,中、美、德、英等多个国家的100多位科学家共同参与,是一项跨国、跨学科的科学探索工程。该计划拟通过测定地球上已知500多种灵长类动物的基因序列,绘制灵长类基因组图谱,破译人类“近亲”的遗传信息,为灵长类动物的保护及生命科学、医学等领域的发展奠定基础。
众所周知,基因是决定遗传特征的基本单位。人类基因组中有很多基因发生了微小的变异,但人们并不完全了解这些变异对人类健康的影响。由于基因组的复杂性和多样性,这些变异中只有极小一部分被科学家们认为与疾病相关,其他的变异则一直没有明确的解释。科学家们一直在努力寻找方法来准确解读这些变异,以确定人类遗传变异的影响及其对疾病风险的影响,从而实现个性化医疗。为更好地理解人类基因组中的变异,科学家们转向灵长类动物进行研究。多数灵长类物种的基因信息与人类基因密切相关,比如黑猩猩和人类具有99.4%的蛋白质序列同一性。因此,可以根据人类密切相关的灵长类物种信息来推断与其直系同源的人类变异的致病性。
科学家们对来自211种灵长类动物的703个个体进行了测序,并将这些与之前研究的数据进行了汇总,确定了430万个独特的错义(蛋白质改变)变体。在灵长类动物中观察到的错义变异在ClinVar数据库中的评估中更有可能被认为是无害的,也就是说,这些变异并不会对人们的健康产生不良影响,这与自然选择和基因组适应性有关,表明它们被自然选择所容忍。这一发现为进一步研究人类基因组的变异提供了重要线索。
为了进一步分析和解释人类基因组中的变异,研究团队开发了PrimateAI-3D的深度学习网络。该网络利用蛋白质的多序列比对和3D结构作为输入,通过3D卷积识别蛋白质结构中关键的变异区域,经过AI训练,能够准确分类良性和未知的人类变异,预测基因变异的致病性。
据悉,PrimateAI-3D为科学家们解读基因变异的功能和影响提供了新的工具。比如,研究人员利用PrimateAI-3D模型对STK11基因进行了深入分析,研究人员通过PrimateAI-3D模型的预测,可以对STK11基因中的变异进行分类,判断其可能的致病性,便于进一步理解STK11基因的功能和与Peutz-Jeghers综合征的关系,为临床诊断和治疗提供指导。而通过对灵长类动物基因的研究,科学家们将在个性化基因医学领域取得重要突破。通过更准确地解释人类基因组中的变异,医生和研究人员可以更好地理解患者的遗传特征,并为其提供更加个性化和精准的医疗护理,为全人类健康带来福祉。