一种新型深度学习模型ProtGPS能预测蛋白质在细胞内的定位,揭示了调控生物组织隐藏的分子密码,为药物设计和发现提供了强大的工具。
ProtGPS预测蛋白质(绿色点)的定位,无论是在其正常和致病突变形式。
一种新型深度学习模型现在可以预测蛋白质如何在细胞内自我排列。该模型揭示了塑造生物组织隐藏的分子密码,为我们对生命的理解增加了新的复杂维度,并为药物设计和发现提供了一个强大的生物技术工具。
以前的生物学人工智能系统,如获得诺贝尔奖的AlphaFold,都侧重于预测蛋白质结构。但是,这个名为ProtGPS的新系统,不仅能让科学家预测蛋白质的构建方式,还能预测它在细胞内的位置。它还赋予科学家设计具有明确分布的蛋白质的能力,并能以外科手术般的精确度将它们引导到细胞的特定位置。
“了解蛋白质的去向与了解它的折叠方式完全互补,”马萨诸塞州剑桥市怀特海德生物医学研究所的化学生物学家Henry Kilgore说,他是这项研究的共同负责人。这两种特性共同塑造了蛋白质在细胞内的功能和相互作用。他表示,这些见解——以及促成这些见解的机器学习工具——“将对药物开发项目产生重大影响”。
Kilgore和他的同事在2月6日发表在《科学》杂志上的一篇论文中描述了这种新工具。
将蛋白质放在细胞地图上
在过去的几年里,像AlphaFold这样的人工智能工具通过预测蛋白质形状,彻底改变了结构生物学——就像宜家家具附带的说明书一样,展示了如何组装椅子或床。但是,事实证明,仅仅知道蛋白质的结构不足以理解其功能。ProtGPS通过确定每件分子“家具”在细胞开放式内部的哪个位置,填补了这一缺失的部分。
一些蛋白质有明确的目的地。几十年来,研究人员已经知道,前往细胞核或线粒体等位置的蛋白质——这些结构被膜包围,与细胞其他部分隔开——携带着引导它们的短信号标签。
但是,细胞的大部分是一个开放的环境,蛋白质依靠更微妙的线索将自己分类成所谓的生物分子凝聚物——动态的、类似液体的簇,有助于调节基因活性,管理细胞应激,并导致疾病。正如一张舒适的扶手椅可能自然地适合阅读角一样,蛋白质遵循内在的分子定位规则,引导它们到适合特定功能的专门凝聚物中。
ProtGPS现在已经开始解码这些规则,揭示了构成所有蛋白质骨架的氨基酸序列中的隐藏特征——内在的分类线索,决定蛋白质是否以及在细胞不同凝聚物中的哪个位置定位。
“我们的模型正在学习这些定位特征,”麻省理工学院的机器学习科学家、共同作者Itamar Chinn说。“我们可以利用这些特征来制造具有我们想要的定位的新蛋白质。”
ProtGPS使用机器学习框架来预测冷凝物隔室中的蛋白质定位。
教AI学习蛋白质的语言
ProtGPS就是所谓的蛋白质语言模型。它的工作方式很像OpenAI的ChatGPT或Anthropic的Claude等大型语言模型,根据学习到的模式预测序列。但是,ProtGPS处理的不是文本或语音,而是蛋白质,蛋白质以字母串的形式表示,每个字母对应于20种氨基酸构建模块之一——L代表亮氨酸,S代表丝氨酸,等等。
Kilgore、Chinn和他们的同事使用名为ESM的深度学习框架构建了该模型,ESM最初由Meta开发,用于预测蛋白质的结构、功能和特性。
ESM是进化规模建模的缩写,与AlphaFold一样,也从蛋白质序列中提取有意义的模式。但是,Meta的模型没有像AlphaFold那样使用物理学来预测精确的原子级结构,而是依赖于基于序列的学习,而没有复杂的3D计算,这使得它在分析大型数据集时速度更快,可扩展性更强。(上个月,推出了一个升级版的ESM,功能得到了改进。)
Kilgore和Chinn的团队使用ESM的架构来解码嵌入在氨基酸序列中的神秘信号。研究人员调整和改进了该工具,既可以预测蛋白质的组装位置,又可以设计新型蛋白质——这些蛋白质在自然界中不存在,但可以通过精确的凝聚物靶向特性进行工程改造。
就这样,ProtGPS诞生了。研究人员用近5000种已知定位于12个不同凝聚物隔室之一的人类蛋白质训练了该模型。然后,他们在独立的数据集上测试了ProtGPS,发现它可以准确地将蛋白质放在细胞的正确部分。
区室化的神秘密码
某些物理和化学特性,如蛋白质的电荷和疏水性,似乎在事物最终在细胞中的位置发挥了作用。但是,正如机器学习模型经常出现的情况一样,ProtGPS预测背后的确切原因——以及,通过扩展,选择性分布背后的生物学原理——仍然很大程度上是一个谜。
但这并不是说研究人员没有试图将其分开。他们仔细研究了模型的预测,寻找可能解释其分类规则的清晰序列模式或生化特性。“没有什么明显的真正显现出来,”麻省理工学院的计算生物学家、共同作者Peter Mikhael说。
这种黑匣子不透明性是人工智能中一个熟悉的挑战。语言模型本质上擅长将来自许多不同特征和上下文信号的贡献结合在一起,使它们能够检测到人类无法立即看到的模式。“因此,ProtGPS可以提取即使是经验丰富的生物学家也很难定义的定位线索,这也就不足为奇了,”曾帮助开发该模型的麻省理工学院机器学习科学家Ilan Mitnikov说。
“如果规则很简单,人们早就弄清楚了,”Mitnikov说。
工程改造蛋白质,预测疾病
即使没有完全理解是什么控制着蛋白质的细胞目的地,研究人员也表明,ProtGPS可以用来创建具有精心调整的定位特性的蛋白质。该工具还被证明能够预测与疾病相关的突变如何破坏蛋白质区室化,从而揭示癌症和发育障碍等疾病背后的分子机制。
Dewpoint Therapeutics是一家由该研究的作者之一、怀特海德生物学家Richard Young共同创立的生物技术公司,现在计划将ProtGPS整合到其药物发现工作中。首席科学官Isaac Klein称该工具为识别药物靶点和设计新疗法的“游戏规则改变者”。(Young、Kilgore和麻省理工学院计算机科学家Regina Barzilay也参与了这项研究,他们都在Dewpoint担任咨询或顾问角色。)
其他科学家也看到了该工具的潜力,包括剑桥大学的生物物理学家Tuomas Knowles,他同时也是Transition Bio的首席技术官,该公司是另一家专注于针对凝聚物靶点进行药物发现的公司。“特别令人兴奋的是,这篇论文进一步证明,存在非常特定的序列特征,控制着活细胞中蛋白质的定位和分配到凝聚物中,”Knowles说,他没有参与这项研究。“此外,这为影响和控制蛋白质定位提供了新的机会——并有可能纠正错误定位,这是许多疾病的根源,”他补充道。
但是,除了它的应用价值之外,ProtGPS 还突出了生物学中一种新兴的范式,即细胞内分子的物理排列对其功能至关重要,就像分子的结构一样,氨基酸序列中嵌入的密码会影响折叠和细胞区室化。
正如一个设计良好的家不仅仅是家具的集合——它依靠直观的布局来最大限度地发挥效用一样,细胞也需要精确的分子组织才能发挥最佳功能。通过揭示蛋白质序列中的隐藏模式,ProtGPS 可以作为这种细胞流动的建筑师,解码自然界关于细胞内部设计的蓝图。
本文译自 IEEE Spectrum,由 BALI 编辑发布。
(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )