核心内容摘要
探索“靠逼”app:重塑社交边界,点燃生活激情
AlphaGenome能够一次性读取 100 万个 DNA 碱基对并以单碱基的惊人精度破译这一庞大序列中的调控密码为人类理解占据基因组 98% 的非编码区域带来了史无前例的清晰视野。
Google DeepMind 团队去年 6 月发布的 AlphaGenome 模型刚刚开源了。
而且同步登上了Nature封面。
AlphaGenome能够一次性读取 100 万个 DNA 碱基对并以单碱基的惊人精度破译这一庞大序列中的调控密码为人类理解占据基因组 98% 的非编码区域带来了史无前例的清晰视野。
生命是一部由 ATCG 四个字母编写的宏大史诗每个人体内都携带者这套长达 30 亿个字符的说明书。
长期以来科学家们能够比较流畅地阅读其中负责制造蛋白质的 2% 章节但对于剩余 98% 的非编码区域就像生命基因的暗物质我们不仅读起来磕磕绊绊甚至常常不知所云。
这片广袤的区域是指挥官决定了基因何时开启、何时关闭以及在何处发挥作用。
AlphaGenome 照亮这片暗物质。
它不仅能看懂基因组的语法还能预测当这本说明书里出现哪怕一个字母的拼写错误时会对细胞的命运产生怎样剧烈的蝴蝶效应。
这是人类向着完全解码生命图谱迈出的坚实一步。
百万碱基为画卷生物学研究中长期存在一个令人头疼的权衡难题。
过去的人工智能模型在观察基因组时往往只能在看得远和看得清之间二选一。
像 Enformer 这样的模型拥有广阔的视野能捕捉到长距离的基因相互作用但它的预测结果就像一张马赛克图片分辨率较低难以看清细节。
而像 SpliceAI 这样的模型虽然能精确到每一个碱基看清剪接位点的细微变化但它的视野狭窄就像管中窥豹看不见远处的调控元件是如何施加影响的。
AlphaGenome 构建了一个统一的架构能够同时处理长达 100 万个 DNA 碱基对的输入序列并以单碱基的分辨率输出预测结果。
这相当于在拥有广角镜头的拍摄宏大风景的同时还能保留显微镜级别的细节纹理。
研究团队设计了一种受 U-Net 启发的骨干架构。
这种架构巧妙地融合了卷积层和 Transformer 模块。
卷积层擅长捕捉局部的序列模式就像识别文章中的词组搭配。
而 Transformer 则负责处理序列中长距离的依赖关系比如位于基因上游很远的增强子是如何跨越巨大的空间距离来启动基因转录的。
训练过程动用了大规模的序列并行技术将 100 万个碱基的序列切分到 8 个相互连接的 TPU 设备上进行同步处理。
这种工程上的突破使得模型能够在一个连贯的上下文中理解复杂的基因组语法而不是将其割裂成孤立的片段。
在涵盖基因表达、剪接、染色质可及性等 11 种模态的 24 项基因组轨迹预测任务中AlphaGenome 在 22 项上都击败了目前最强的外部模型。
特别是在预测细胞特异性的基因表达变化方面它比之前的多模态模型 Borzoi 提升了
1
7%。
模型不仅能预测基因表达的音量还能精准描绘出基因组的物理形态。
它输出了两类表示一类是一维的线性基因组特征如 RNA 测序覆盖度、转录因子结合位点另一类是二维的接触图谱展示了基因组在三维空间中是如何折叠和相互接触的。
全方位的视角使得 AlphaGenome 成为了目前最全面的基因组功能预测工具。
研究人员首先训练了多个特定于不同基因组区域的教师模型让它们学习实验数据的规律。
随后这些教师模型的知识被浓缩传授给一个单一的学生模型。
学生模型继承了老师们的全部智慧还通过随机的数据增强训练变得更加稳健。
最终这个学生模型成为了一个全能选手只需一次推理就能同时预测所有模态和所有细胞类型的结果。
在 NVIDIA H100 GPU 上AlphaGenome 处理一个变异只需要不到 1 秒钟。
科学家们现在可以在极短的时间内对全基因组范围内的变异进行大规模的筛查和分析而不需要像以前那样依赖笨重的模型集成或昂贵的实验验证。
多模态视角下的基因基因变异导致疾病的一个主要途径是破坏剪接过程。
剪接就像是电影的后期剪辑将基因转录出的原始素材剪掉不需要的片段内含子再把有用的片段外显子拼接在一起。
如果这个过程出了差错生成的蛋白质就会功能异常甚至完全失效。
AlphaGenome 在剪接预测上引入了全新的机制。
它不再仅仅预测剪接位点在哪里而是能同时预测剪接位点的使用率以及具体的剪接连接情况。
这种能力让它能够构建出完整的转录本结构视图。
这就好比它不仅能告诉你电影该在哪里剪一刀还能告诉你这一刀剪下去后剩下的胶片会如何重新拼接。
在对 DLG1 基因的一个内含子变异的分析中AlphaGenome 精准地复现了该变异导致的后果。
这是一种罕见的变异会导致外显子跳跃即本该被保留的片段被错误地剔除。
模型准确预测出了受影响外显子的剪接位点使用率大幅下降连接该外显子的剪接点消失取而代之的是一条跨越该外显子的新连接。
这一切都与 GTEx 项目中观察到的实验数据高度吻合。
除了剪接基因表达量的改变也是许多复杂疾病的根源。
这类影响表达量的变异被称为表达数量性状位点eQTL。
预测 eQTL 的难点不仅在于判断变异是否会改变基因表达更在于判断它是会让表达量升高还是降低。
AlphaGenome 在这就体现出了卓越的判断力。
在预测 eQTL 的效应方向即符号预测上它的准确率相比之前的 SOTA 模型 Borzoi 有了显著提升受试者工作特征曲线下面积auROC从
75 提高到了
80。
它能更可靠地告诉研究者某个变异是会让基因更活跃还是更沉默。
AlphaGenome 能够利用其对 RNA 测序覆盖度的预测能力来推断多聚腺苷酸化Polyadenylation的变化。
这是一种发生在 RNA 尾部的修饰过程直接关系到 RNA 的稳定性和寿命。
即使没有专门针对这一任务进行训练AlphaGenome 依然展现出了超越专门模型的能力能够敏锐地捕捉到那些破坏或创造多聚腺苷酸化信号的变异。
这种多模态的预测能力让 AlphaGenome 就像一个全能的虚拟实验室。
研究人员不再需要分别运行针对剪接、表达、染色质开放性的多个模型只需使用 AlphaGenome就能一次性获得变异在所有这些层面上可能产生的影响。
这对于理解那些机制复杂的致病变异来说无疑是雪中送炭。
例如在分析 COL6A2 基因的一个变异时模型不仅预测出了一个新的剪接供体位点的产生还展示了原本的供体位点是如何失效的。
这种对分子机制的细致解剖为解释罕见病患者的临床表型提供了强有力的证据支持。
在全基因组关联分析GWAS中研究人员经常会发现一些与疾病相关的位点但苦于不知道这些位点究竟影响了哪个基因以及是如何影响的。
AlphaGenome 的高准确率使其在这一领域大显身手。
在使用 80% 准确率阈值的情况下它为近一半的 GWAS 可信集中的至少一个变异指明了效应方向。
极大地扩展了我们生成功能性假设的能力特别是对于那些频率较低、难以通过传统统计方法捕捉的变异。
洞悉致癌机理为了验证 AlphaGenome 在真实疾病研究中的潜力研究团队将其应用于 T 细胞急性淋巴细胞白血病T-ALL的致病机理分析。
这是一种凶险的血癌其发生往往与 TAL1 癌基因的异常激活有关。
在 T-ALL 患者中科学家们观察到了多种不同类型的非编码突变包括增强子区域的插入突变、内含子中的点突变等。
这些突变虽然形式各异位置不同但似乎都指向了同一个结果*TAL1* 基因的过度表达。
AlphaGenome 就像一位经验丰富的病理学家对这些突变进行了逐一审查。
对于一个已知的致癌插入突变chr. 1: 47239296: CACG模型准确预测出该位置会出现 H3K27ac 和 H3K4me1 这两种组蛋白修饰信号的增强。
不仅如此模型还预测到在 TAL1 基因的启动子区域原本抑制基因表达的 H3K9me3 和 H3K27me3 信号会减弱而促进转录的 H3K36me3 信号则会覆盖整个基因体。
所有这些预测的生化标记变化最终都汇聚成一个结论*TAL1* mRNA 的表达水平将显著升高。
这与临床观察到的现象完美契合。
通过计算机模拟诱变In Silico Mutagenesis, ISM分析AlphaGenome 揭示了这背后的分子微操。
它发现那个致癌的插入序列实际上在基因组上凭空创造了一个 MYB 转录因子的结合基序。
MYB 蛋白因此被招募到这里像一把钥匙插进了新锁启动了 TAL1 的异常表达。
这种机制层面的解析能力展示了 AlphaGenome 能为我们提供可解释的生物学洞察。
除了癌症AlphaGenome 在区分良性与致病变异方面也表现出了极高的灵敏度。
在临床遗传学数据库 ClinVar 的基准测试中无论是深部内含子变异、同义突变还是剪接区域的变异AlphaGenome 的综合评分都优于目前最好的专用模型。
它能够敏锐地指出那些看似人畜无害的同义突变实际上可能通过破坏剪接机制而导致严重的遗传病。
模型消融实验进一步证实了其设计选择的正确性。
研究发现以单碱基分辨率进行训练是实现高性能的关键。
尽管粗粒度的预测如每 128 个碱基一个值在某些任务上表现尚可但在处理像剪接这样需要精细操作的任务时只有单碱基精度的模型才能捕捉到那些稍纵即逝的信号。
此外长序列上下文的重要性也被反复验证。
用完整 100 万碱基长度训练的模型即便在推理时被迫只看较短的片段其表现也往往优于那些专门在短序列上训练的模型。
在训练阶段让模型见识更广阔的基因组景观能够帮助它建立起更深刻、更通用的序列理解能力。
AlphaGenome 并非完美无缺。
研究人员坦诚地承认在捕捉超长距离超过 100kb的调控元件影响方面仍有进步空间目前的物种覆盖也主要局限于人类和小鼠。
但它所展现出的潜力是巨大的。
它为合成生物学提供了设计工具可以预测人工合成序列的功能为罕见病诊断提供了新的线索能够重新评估那些意义不明的变异甚至可以辅助药物研发加速反义寡核苷酸等疗法的设计。
AlphaGenome 提供了一个强大而统一的框架将我们要理解的基因组从一个静态的字符串变成了一个动态的、可预测的、多维互动的生命系统。
我们正加速驶向那个能够完全读懂、甚至治愈基因疾病的未来。