AI模型设计特殊蛋白,我国建生物蛋白质全球最大数据集,90亿条达美国4倍
抗体蛋白怎样更加抗酸、耐碱,耐胃肠消化?蛋白酶如何更敏感检测疾病,比如心脏病或精神病?这些特殊功能的蛋白质,在生物技术、医药研发和化学等工业生产中有着巨大应用。而功能型蛋白质产品的诞生,通常需要丰富的专家经验,配合数以万计的实验试错,其时间长、成本高、试错密集等长期以来一直是业界难题。3月22日,上海交通大学在大零号湾发布最新研发成果,特聘教授洪亮团队将AI与蛋白质设计改造相结合,建立了全球最大的蛋白质数据集,覆盖从常规地表生物到极端环境微生物的百亿量级蛋白质序列信息。基于该数据集训练的AI模型,就能预测并设计蛋白质的功能,变“缓慢试错”为“高效精准”的新范式。该成果配合行业领先的自动化设备,已经实现产业化落地,把蛋白质设计从原先的“复杂科学”变为如今的“简单工程”,为相关领域带来创新和突破,造福生命健康。
洪亮团队正进行湿实验验证工作。
全球最大蛋白质数据集,含近90亿条序列
提起蛋白质,你会想到什么?肉、蛋、奶,这些食物中含有丰富的蛋白质,可以为人们提供身体所需的营养。其实,大量工业级的蛋白质产品,需要人工设计和改造,才能发挥特定功能,满足应用需求。蛋白质由氨基酸序列构成,氨基酸序列的长度从数百个到上千个不等。AI时代,数据成为推动技术进步的核心资源,庞大的蛋白质序列数据集为AI模型提供了丰富的“学习资料”,能帮助模型更好地理解蛋白质的序列、结构和功能关系。洪亮团队建立的蛋白质序列数据集Venus-Pod含有近90亿条蛋白质序列,包含数亿个功能标签,成为全球数据规模最大、功能批注标签最多的数据集,达到另一行业知名模型——美国ESM-C模型训练用的21亿条蛋白质序列的4倍体量。解放日报·上观**记者了解到,该数据集包含36.2亿条陆地微生物蛋白质序列、26.4亿条海洋微生物蛋白质序列、24.3亿条抗体蛋白质序列、0.6亿条病毒蛋白质序列,尤其是配备的数亿功能标签,包括蛋白质工作的温度、酸碱度、压强等。这些数据意味着什么?洪亮表示,一方面该数据集构成了巨大的“蛋白质矿藏”,使得人类有可能挖掘新的蛋白或者生物催化剂,助力生物医药和合成生物学的快速发展;另一方面,AI大模型有望通过的学习和掌握自然界蛋白质的进化模式,为AI设计优异的蛋白质产品提供宝贵学习资料。
洪亮教授讲解。赖鑫琳 摄
AI预测蛋白功能,训练“六边形战士”
蛋白质是由20种氨基酸组成的高分子链,这个高分子链会扭曲并折叠成独特的三维结构,正是这种独特结构赋予了特定蛋白质的生物功能。去年,诺贝尔化学奖颁发给谷歌DeepMind团队,该团队利用AI技术“AlphaFold(阿尔法折叠)”精准解析了从蛋白质序列到三维结构的关系,解决了困扰生物学家长达50年的基本难题。然而,一个现实难题是:如果稍微改动蛋白质的氨基酸序列,哪怕只是1%的微小改变,蛋白质的整体结构看似没有发生明显变化,但它的功能大概率会变差,甚至完全丧失。换言之,要设计出一款成功的蛋白质产品,不能只关注它的三维结构,而是要能成功预测和设计它的功能。为此,洪亮教授团队另辟蹊径,不再执着于蛋白质的结构,而是直接瞄准“功能预测”这一终极目标,将复杂的蛋白质设计变成以需求为导向,只需配合少量实验输出结果的简单过程。“我们训练了Venus(启明星)系列模型,学习自然界蛋白质序列的组织规则以及它与功能之间的关系,其预测蛋白质突变功能的精度位居行业榜单之首。”洪亮表示,Venus系列模型具备两大核心功能:“AI定向进化”与“AI挖酶”。所谓“AI定向进化”是指 Venus系列模型可以对一个不尽如人意的蛋白质产品多种性能进行优化,让它成为“六边形战士”满足相应应用的需求。而“AI挖酶”则是Venus系列模型基于其海量的未知功能蛋白质数据集,可以“海选超能力战士”,去精准发掘满足苛刻应用需求的具备超常规功能的蛋白质,比如极度耐热、极度耐酸、极度耐碱、极度耐胃肠消化等。与此同时,配合Venus系列模型,全球首款低通量大体积蛋白质表达、纯化与功能检测自动化一体机,可在24小时内不间断地完成100余个蛋白质的表达、纯化与检测任务,较人力效率提高近10倍,将大大减少研发过程中的人力、物力和时间成本投入,显著提高蛋白质工程与合成生物学研究的效率。“设计AI化,实验自动化”,让科研人员从烦琐的设计和实验中解放出来,他们只需要提出问题,AI和自动化来解决问题。
团队记录实验结果,干湿迭代完成蛋白质设计。
多款产品落地,助力阿尔兹海默症等诊断
经AI设计出的蛋白质在实验室环境中表现出色,能不能保证它在中试阶段或大规模生产中同样能够维持优异的性能?事实上,经过Venus系列模型设计的多款蛋白质已经实现了落地产业化。
以国内生长激素龙头金赛药业的单域抗体耐碱性改造为例。提升蛋白质的耐碱性,历来是一项极具挑战性的工作。洪亮团队借助该模型结合少量湿实验闭环迭代验证,不到1年就将普通单域抗体的耐碱性提升4倍,每年为金赛药业节约上千万元成本。该成果已实现多个批次5000升放大生产,成为全球首款由大模型设计并规模化生产的蛋白质产品。
另一项Venus系列模型的创新应用,则是对某体外诊断头部公司的碱性磷酸酶(ALP)改造项目。ALP因高稳定性和灵敏度被广泛用作标记酶,其活性越高,检测灵敏度越高,从而能够检测到量度极低的生物标志物,但提升ALP的活性一直是大挑战。
结果,Venus系列模型成功优化 ALP,使其分子活性超国际头部公司产品3倍,为如心肌梗死、阿尔兹海默症等超敏检测诊断带来巨大价值。目前,改造后的ALP已进入200升规模的放大生产阶段,标志着Venus系列模型实现产业转化。