推广 热搜:   公司  中国  行业  快速  企业  设备  上海  未来  技术 

AI成功改写人类DNA,全球首个基因编辑器震撼开源

   日期:2024-12-31     移动:http://www78564.xrbh.cn/mobile/quote/28467.html

编辑:编辑部

【新智元导读】刚刚,分子生物学界引爆核弹级消息:人类的DNA,已经能由AI重新改写了!初创公司Profluent宣布开源了世界首个AI设计基因编辑器,成功编辑了人类细胞中的DNA。这可太科幻了,如果有机会,你会选择「改造」自己的DNA吗?

AI,能够重写人类基因组了?

就在刚刚,初创公司Profluent宣布,完全由AI设计的基因编辑器,已经成功编辑了人类细胞中的DNA。

在迄今最广泛的基于CRISPR的基因编辑系统数据集上,研究者训练了LLM。这些LLM产生的蛋白质,将几乎所有天然存在的CRISPR-Cas家族的多样性,扩大了4.8倍!

并且,基因编辑器在人类细胞中显示出了与SpCas9(一个示例基因编辑器)相当或更好的活性和特异性,同时距离超过400个突变。

这也就意味着,我们掌握了自己的基因组密码。未来的科学家,会比今天更精确、更快速地对抗疾病。

Profluent联创Ali Madani表示,「尝试用AI设计的生物系统,编辑人类DNA是一次科学登月之旅」。

「我们的成功表明,在未来,AI可精准设计出一系列定制的疾病治疗方案」。

论文预计将于下月,在美国基因与细胞治疗学会年会上发表。

这项技术和驱动ChatGPT的方法是一样的,它在分析大量生物数据后,创造了新的基因编辑器,包括科学家已经用于编辑人类DNA的微观机制。

加州大学旧金山分校生物工程和治疗科学系教授兼系主任James Fraser介绍说,这些生物材料从未在地球上存在过,而Profluent的AI系统,正是从大自然中学习如何创造这些全新的东西。

如果这些技术继续发展,所产生的基因编辑器,或许会比我们人类经过数十亿年进化磨练的基因编辑器更灵活、更强大。

现在,Profluent表示正在开源OpenCRISPR-1编辑器,这也就意味着,个人、学术实验室和公司都能免费使用这些技术。

AI界常见的开源,可以加速新技术的产生。不过,对于生物实验室和制药公司来说,像OpenCRISPR-1这样的开源并不常见。

AI编辑蛋白质,为何意义重大

目前,蛋白质工程界想要复制功能性蛋白质,或者用「定向进化」来迭代修饰,通常还是需要从自然界中复制。

许多对人类有重大意义的蛋白质,都是我们偶然发现的,比如狗的胰岛素、酸奶设施中的Cas9和经常造成食物中毒的肉毒杆菌毒素。

大型生成蛋白质语言模型的作用,就是可以捕获使天然蛋白质发挥作用的基本蓝图。它们勾勒出一条捷径,可以绕过进化的随机过程,推动人类有意识地为特定目的设计蛋白质。

如果通过实验穷尽所有可能的序列变异,许多科学家几辈子时间都做不完。

然而,AI系统却能很轻松地探索整个搜索空间,发现功能性的基因编辑器。而且,只需要花几个小时!

全球首个开源基因编辑器,改写人类DNA

基因编辑器OpenCRISPR-1,由一个Cas9样蛋白质,和引导RNA(guide RNA)构成。

正如之前所述,它是完全由Profluent的AI大模型开发的。

在具体实现过程中,研究人员对26TB组装的「基因组」和「元基因组」数据库系统进行挖掘,整理出超100万个CRISPR操纵子(operon)的数据集。

而且,语言模型还为类Cas9效应蛋白定制了单引导RNA序列。

与原型基因编辑效应器SpCas9相比,几个生成的基因编辑器显示出,可比或改进的活性和特异性,同时在序列上相差400个突变。

最后,研究人员还证明了AI生成的基因编辑OpenCRISPR-1与碱基编辑的兼容性。

这项研究中的关键结果,具体如下。

AI生成4.8倍「CRISPR-Cas」蛋白质宇宙

生成蛋白质语言模型通常是在,大型涵盖多种系统发育和功能的天然蛋白序列的数据集上,进行预训练 。

这些模型能够生成,反映天然蛋白质分布和特性的真实蛋白质序列。

通过总结共性,研究人员发现了所有CRISPR-Cas蛋白的单一模型,能够生成跨家族的不同序列。

为了生成新型CRISPR-Cas蛋白,作者在CRISPR-Cas Atlas上微调了基于ProGen2的语言模型,由此平衡了蛋白家族的表示和序列簇大小。

从这个模型中,研究者生成了400万个序列。

其中一半是直接从模型生成的,另一半是由天然蛋白质N或C末端的最多50个残基提示,以引导向特定蛋白的生成。

为了评估其新颖性和多样性,作者使用MMseqs2对每个家族的生成序列和天然序列按70%的同一性进行了聚类。

结果发现,与CRISPR-Cas图谱中的天然蛋白相比,生成序列实现了4.8倍的多样性扩展。

对于天然蛋白质很少的家族,比如Cas13和Cas12a,生成序列的多样性分别增加了8.4倍和6.2倍。

虽然许多CRISPR-Cas蛋白已被用于基因组编辑 ,但Cas9仍是应用最广泛的一种。

为了生成类Cas9的新序列,研究人员从CRISPR-Cas图谱中采样,Cas9的N端或C端50个残基,对CRISPR-Cas模型进行了提示。

这里,作者使用了CRISPR-Cas Atlas中238917条Cas9序列,对另一个语言模型进行了微调。

生成的可存活代(n=542,042)与同一性为40%的天然Cas9聚类在一起,并用作构建最大似然系统发育树的输入(图2a)。

引人注目的是,生成的蛋白质主导了系统发育的格局,占系统发育总多样性的94.1%。

与整个CRISPR-Cas图谱相比,多样性增加了10.3倍(图2b)。

新的系统发生群分布在整个树中,这表明该模型捕捉到了Cas9的全部多样性,并没有过度拟合任何特定系。

生成的序列与CRISPR-Cas图谱的差异很大,与任何自然序列的平均同一性只有56.8%(图2c)。

总体而言,生成的序列与同一蛋白质簇中天然蛋白质的长度密切匹配,皮尔逊相关性为0.97(图2d)。

然后,研究者进一步将关注范围缩小到CRISPR-Cas9系统,并在CRISPR-Cas图谱中的238,917个Cas9蛋白上,训练了蛋白质语言模型。

使用这些模型,研究者生成了可与SpCas9互操作的Cas9样蛋白。也就是说,它们与基因组的相同部分(PAM)结合,并与相同的sgRNA相容,因此,它们可用于相同的应用。

研究者选择了其中48个生成的序列,用于在人类细胞中进行严格的功能表征。

最热门的OpenCRISPR-1,在靶向位点的活性与SpCas9相当(OpenCRISPR-1的编辑率为55.7%,SpCas9的编辑率为48.3%),但令人惊讶的是,在脱靶位点的编辑减少了95%(OpenCRISPR-1的编辑率为0.32%,SpCas9为6.1%)。

研究者们还发现,当与脱氨酶配对时,OpenCRISPR-1和SpCas9在精确编辑靶基因组中的单个碱基时,具有相似的活性和特异性。

最后,为了进一步优化所生成的核酸酶的活性,研究者还训练了一个模型来为任何给定的Cas9样蛋白生成相容的sgRNA。

AI,正在改善医疗保健

现在,全世界都有很多项目,在用AI技术改善医疗保健。

这个模型从氨基酸和核酸序列中学习,正是这些化合物,定义了科学家用来编辑基因的微观生物学机制。

本质而言,它就是分析了从自然界中提取的CRISPR基因编辑器的行为,学习了如何生成全新的基因编辑器。

人类编辑基因,还会有多远

目前,Profluent尚未对这些合成基因编辑器进行临床试验,因此尚不清楚它们是否能与CRISPR的性能相媲美,甚至超过CRISPR。

但他们的研究表明了,AI模型可以产生能够编辑人类基因组的东西。

真正的瓶颈在于,这项编辑器在用于临床治疗之前,还会因安全性、制造、监管审查产生极高的成本。

但是,随着学习越来越多的数据,生成式AI系统的潜力不可小觑。

如果Profluent的技术继续改进,终有一天,科学家们可以用更精确的方式编辑基因。

到那时,我们可能身处这样一个世界——许多药物和治疗方法,都能快速为个人量身定制。这是今天的人们所不敢想的。

长期以来,科学家们一直在警告:不要使用CRISPR进行人类增强!

因为,这是一项相对较新的技术,很可能会产生不良的副作用,比如引发癌症。而且还有些人会用于非道德的用途,比如转基因人类胚胎。

合成基因编辑器,也面临着这项问题。而如今,科学家们已经掌握了编辑胚胎所需的一切技术。

但Fraser博士表示,如果真的有人想用它们做坏事,也只会使用现有的东西,而非AI创建的编辑器。

参考资料:

https://www.profluent.bio/blog/editing-the-human-genome-with-ai

本文地址:http://www78564.xrbh.cn/quote/28467.html    迅博思语 http://www78564.xrbh.cn/ , 查看更多

特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


相关最新动态
推荐最新动态
点击排行
网站首页  |  二维码  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  粤ICP备2023022329号