17c.com喷泉:点亮城市夜空,激荡生活灵感

核心内容摘要

大73赛13
藏在光影里的夏日私语:当《糖心vlog》遇上白桃少女的牛仔梦

《需要儿子播种美国》:一部颠覆认知的黑色幽默史诗

这次推出的全新成员AlphaGenome将AI的预测疆域拓展到了最为宏大且神秘的人类基因组图谱。

谷歌Alpha家族再登Nature封面这次推出的全新成员AlphaGenome将AI的预测疆域拓展到了最为宏大且神秘的人类基因组图谱。

AlphaGenome能够同时对11种不同的基因调控过程进行综合预测准确捕捉基因深处的复杂互动。

它能深入分析复杂的基因剪接机制识别细胞如何从单个基因生成多种蛋白质以及这一过程何时会出错导致疾病。

例如AlphaGenome对白血病相关基因TAL1的致病突变进行了精准还原准确预测出8000个碱基之遥的区域发生的突变引起病变。

这能让人类更进一步了解免疫细胞失控增殖引发癌症的深层成因同时也证明了该模型不仅能处理已知数据更能对从未见过的DNA片段及其未知突变做出准确预测。

综合成绩方面其预测性能在各项测试中均持平或超越现有程序成为当前基因组预测领域的SOTA模型。

目前Google DeepMind已面向非商业研究开放AlphaGenome API。

同时预测11种基因调控过程AlphaGenome构建了一个统一的预测框架单次推理即可覆盖基因组的广泛特征。

该模型直接对11种不同的生物学过程进行综合预测涵盖了基因表达RNA-seq、转录因子结合、组蛋白修饰以及染色质在三维空间中的折叠接触图谱。

不仅预测范围广泛精度方面在各项严格的基准测试中AlphaGenome也刷新了多项纪录。

在针对基因组轨迹预测的24项评估中它取得了22项SOTA。

以及在直接关联疾病研究的变异效应预测任务中它与Borzoi、Enformer等现有模型进行了26轮对决并在25轮中胜出证明了其在捕捉微小基因变异后果上的精准度。

在极其复杂的RNA剪接过程中AlphaGenome实现了对剪接动力学的完整模拟。

它能够同时计算剪接位点Splice sites、位点使用率Usage以及具体的剪接连接点Splice junctions。

以动脉组织中的DLG1基因案例为例DNA序列中一个微小的4碱基缺失TACTCT就会导致关键的外显子被错误跳过。

AlphaGenome精准捕捉到了这一连串反应计算出受影响外显子的使用率大幅下降并直接描绘出了因此产生的那条异常剪接连接通路。

除了编码基因基因组的奥秘同样散布在广阔的非编码区中对于这部分基因序列AlphaGenome利用其长程预测能力解析了距离靶基因超过10kb的远端增强子。

这种对“超距作用”的掌控解决了全基因组关联分析GWAS中的核心难题——GWAS虽然能找出大量与疾病相关的变异位点但这些位点绝大多数位于非编码区往往距离它们真正影响的靶基因数千甚至数万碱基之遥。

在测试中AlphaGenome成功为49%的GWAS相关位点指明了明确的调控方向解析率大幅超越了传统方法。

这种能力在白血病相关基因TAL1的研究中得到了直观验证AlphaGenome成功锁定了一个距离TAL1基因转录起始位点8000个碱基之遥的插入突变并给出了完整的致病逻辑链条。

模型预测这个突变在原本沉寂的区域创造了一个MYB转录因子的结合位点。

随后的In Silico Mutagenesis (ISM) 分析进一步揭示这个新出现的位点招募了H3K27ac等活性标记形成了一个新增强子Neo-enhancer。

正是这个新诞生的开关远程强制激活了本应关闭的TAL1基因最终导致T细胞癌变。

AlphaGenome所展现的这些能力不仅提升了从DNA序列预测分子表型的准确性也为解析非编码区变异的生物学功能提供了可操作的预测手段。

那么AlphaGenome背后都有哪些

关键技术呢CNNTransformer混合架构为了实现高精度的基因组预测AlphaGenome采用了一种基于U-Net的混合主干网络融合了卷积神经网络与Transformer的技术优势。

该架构利用卷积层提取局部的DNA序列特征同时引入Transformer模块利用注意力机制捕捉跨越长距离的碱基依赖关系。

这种混合设计最终生成了两种形式的嵌入表示分别是用于预测线性基因组功能轨迹的一维嵌入以及专门用于重构染色体在三维空间中折叠结构接触图谱的二维嵌入。

在U-Net结构的具体设计中编码器通过卷积模块逐步降低序列分辨率以提取高维特征中间层的Transformer塔在低分辨率下处理长程信息最后解码器通过跳跃连接Skip connections逐步恢复至单碱基分辨率。

基于这一架构AlphaGenome将输入窗口扩展到了100万个碱基对1Mb足以覆盖绝大多数远程增强子与启动子之间的相互作用区域确保模型在进行预测时拥有完整的上下文视野。

支撑该模型训练的是一个覆盖人类与小鼠双物种的工业级规模数据集。

模型利用了来自ENCODE、GTEx及4D Nucleome Project等公开资源针对人类基因组的5930种功能轨迹和小鼠基因组的1128种功能轨迹进行了端到端的监督学习。

这些数据覆盖了不同的组织、细胞类型及细胞系确保模型能够学习到基因调控在不同生理环境下的通用规则。

在训练策略上AlphaGenome实施了一套两阶段流程以兼顾泛化能力与推理效率。

第一阶段为预训练采用了严格的4折交叉验证策略将基因组划分为互不重叠的区间确保模型在未见过的测试集上进行评估。

第二阶段采用了蒸馏策略研究团队构建了一个由所有预训练模型组成的全折叠教师模型集合并用它们来指导单个学生模型进行学习。

在此过程中系统引入了严苛的数据增强策略包括随机移位、反向互补甚至引入了随机突变。

这种高难度的训练迫使学生模型不仅仅是记忆训练数据而是必须掌握DNA序列背后深层的语法规则从而在面对未见过的变异时表现出更强的鲁棒性。

工程化方面AlphaGenome利用序列并行Sequence Parallelism技术将1Mb的长输入序列切分为多个片段如131 kb并分配至8个互联的TPU v3设备上同步计算。

这种软硬件协同的架构使得模型能够在保持单碱基分辨率精度的同时完成大规模训练任务最终得到的蒸馏模型在单个GPU上仅需不到1秒即可完成推理。

蝴蝶少女EXO免费观看-蝴蝶少女EXO免费观看应用

百度百家号客服电话人工服务

123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123