从青涩到绽放的秘密花园:解锁你的内在潜能,拥抱无限可能

核心内容摘要

探索“欧美操”:深度解析一场文化与审美的碰撞
91精选

婷婷深爱五月天

来源AI思想会【前言】AI 正以前所未有的速度发展新的机遇不断涌现如果你希望与技术专家、产品经理和创业者深度交流一起探索 AI如何改变各行各业。

欢迎在文末扫二维码加入「AI思想会」交流群和一群志同道合的伙伴共同学习、思考、创造今年 1 月DeepSeek 发布了一项名为 Engram条件记忆的技术在大模型圈子里掀起不小波澜。

它的核心思想很简单别让模型死记硬背常识直接给它一个「外挂记忆库」。

具体做法是把常见的 N-gram比如「人工智能」、「光合作用」预先存进一个哈希表模型需要时查表即可省下大量算力专注推理。

这个思路能不能用在其他领域的模型训推上答案是能且效果惊人。

就在 Engram 论文《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》发布仅 16 天后同样 base 在杭州的一支研发团队推出 GengramGenomic Engram模块把「外挂字典」搬进了基因组世界。

代码链接 https://github.com/zhejianglab/Gengram模型链接 https://huggingface.co/ZhejiangLab/Gengram论文链接 https://github.com/zhejianglab/Gengram/tree/main/paper传统方法的困境为每个碱基「重复造轮子」当前主流的基因组基础模型Genomic Foundation Models, GFMs如 Deepmind 的 AlphaGenome 等普遍采用一种叫「单碱基分词」的策略也就是把 DNA 序列拆成一个个单独的字母A/T/C/G来处理。

这听起来非常符合生物学逻辑并且操作精度更高然而代价也是巨大的。

首先是效率低下。

要识别一个关键功能片段比如启动子或剪接位点模型得靠多层注意力机制从零开始「拼凑」出像「TATAAAA」这样的经典碱基组合Motif。

其次是容易迷失。

在动辄几万甚至几十万碱基的长序列中模型常常「只见树木不见森林」何况人类的基因组是一串长达 30 亿字符的连续序列。

用更容易理解的方式来打个比方人类学习「魑魅魍魉」时一眼就能理解这是个成语。

但传统的基因组模型却得先分析每个「鬼」字究竟是什么鬼…… 既要区分又要预测最终结果就是既费力又不准。

Gengram 是怎么工作的Gengram 的核心逻辑承袭自 Engram将「静态的 Motif 识别」与「动态的上下文推理」进行解耦处理。

Gengram 预先构建了一个可微分的哈希表存储所有长度为 1 到 6 的 DNA 片段称为 k-mer如「ATG」、「CGTA」对应的语义向量。

这些 k-mer 很多就是已知的生物学功能单元比如转录因子结合位点相当于给 AI 配了一本《基因组学实用短语手册》。

与其他领域相比DNA 只有 4 个字母A/T/C/G及少量未知碱基N构成整个字符集极小。

Gengram 无需承担复杂的 Tokenizer 压缩负担查表速度极快几乎不增加计算开销。

事实上由于功能重要性不同并非所有 Motif 都需要这本「字典」的加持。

为此Gengram 引入了动态门控机制。

模型可以结合上下文语境自主决定何时「查字典」在遇到外显子、启动子等关键 Motif 区域时激活检索功能在通过非编码背景区域时关闭检索依赖推理优化资源。

经团队测试这个门控目前已经掌握了「什么时候该查询参考资料什么时候该独立思考」的判断能力。

小模块大提升事实上Gengram 只是一个仅约 2000 万参数的轻量化插件对于百亿级规模的模型来说微不足道但它带来的性能提升却令人振奋。

在 8k 和 32k 两个上下文版本中同等训练设定下应用了 Gengram 的模型几乎在所有任务里领先未应用的版本。

其中剪接位点预测 AUC 提升了

1

1%从

776 到

901表观遗传预测任务H3K36me3 AUC 提升了

2

6% 从

656 到

804。

这种跨越式的性能飞跃赋予了模型惊人的数据杠杆效应。

在与多款主流 DNA 基础模型的横向测评中集成 Gengram 的模型仅需极小规模的训练数据和较小的激活参数量便能在核心任务上媲美乃至超越训练数据规模领先其数十倍的公开模型大幅提升了模型训练的数据能效比。

同时Gengram 展现出了卓越的通用适配能力能够跨越 Dense稠密 与 MoE混合专家 等不同模型架构实现无缝部署。

无论采用何种注意力机制变体Gengram 均能在有效降低训练损失的同时显著加速模型收敛。

特别是针对 MoE 架构中专家负载失衡这一顽疾Gengram 通过吸收局部高频噪声显著改善了专家负载均衡实现了模型性能与架构效率的协同跨越。

跨稀疏度负载均衡在 Top-2 /

64 和 32 专家配置下使用与不使用 Gengram 模块的负载均衡损失曲线对比表明其在多种稀疏度设置下均能实现稳定性能。

此外模型开始「涌现」出对 DNA 物理本质的理解。

当团队为 Gengram 局部聚合窗口Local Window Aggregation测试窗口大小策略时结果显示窗口大小参数设置为 21bp 时其性能达到峰值。

为什么偏偏是 21因为 DNA 双螺旋结构每

1

5 个碱基旋转一圈而 21 个碱基正好对应两个完整的螺旋周期。

这意味着每相隔 21bp 的碱基在物理空间上其实位于螺旋的同一侧具备相似的生化环境和特征。

换句话说Gengram 在没有学习过任何结构生物学知识的前提下通过计算自己悟到了 DNA 序列信息和空间相位规律。

DNA 双螺旋结构示意图展示了 B 型 DNA 的结构参数DNA 双螺旋每

1

5 个碱基对旋转一圈。

不同 Gengram 窗口大小下的验证损失由此选择了 21 宽度的窗口范式启示Gengram 为 AI 科学模型提供新探索路径Gengram 的成功远不止于解决基因组建模的特定难题。

它更像一个精巧的概念验证为如何构建新一代懂科学的 AI 探索了一种新的模式。

从「暴力记忆」到「结构化知识外挂」效率范式的转变。

传统 AI 模型增强能力主要靠扩张参数与数据本质是让网络更费力地「记住」 一切。

Gengram 则将领域内确凿的、结构化的先验知识如功能 Motif做成一个轻量、可查询的外部知识库。

这让核心模型能从繁琐的模式记忆中解脱专注于更高级的上下文推理与组合创新。

这预示着未来科学基础模型的架构可能是「通用模型核心多个领域专用插件」的协同形态。

「归纳偏置」注入生物物理规律的「硬编码」。

通过将 B 型 DNA 双螺旋每

1

5 个碱基完成一个旋转周期即约 21 bp 的双圈周期这一结构特性显式转化为模型内部的局部窗口机制Gengram 成功地将这种物理空间相位的周期性作为先验知识注入模型使其能够捕捉特定相位的立体化学模式和蛋白质绑定偏好。

可解释性的内生设计让 AI 的「思维过程」透明化。

模型不再仅仅进行隐式的统计拟合而是通过显式的 Hash 查询和门控记忆通路在浅层即展现出对 TATA-box、poly (T) 等关键功能基元的高度敏感性其内部残差强度的峰值与基因组功能边界精准对齐实现了从「黑盒计算」向「具备生物学认知足迹」的演进。

解决长程依赖的新路径从局部最优到全局洞察。

实验证明Gengram 使得仅在 8K 长度上训练的模型却获得了处理 32K 长序列的优异能力。

这为基因调控元件预测、表观遗传学分析、跨物种进化分析以及复杂的多组学建模等复杂长序列问题开辟了精细化局部感知驱动全局理解的新途径。

Gengram 建立了一种将领域特有规律转化为显式架构约束的创新范式证明了通过精细化的局部结构化感知可以有效弥补标称上下文长度的局限实现低成本且高效的长程依赖建模。

低调的 Genos Team 是啥背景尽管论文署名低调地使用了「Genos Team」但从开源代码库的 Zhejianglab 和 BGI-HangzhouAI 能够推断出这支团队的硬核背景一家是坐落在杭州的专注于智能计算的新型研发机构之江实验室另一家是杭州华大生命科学研究院。

两个团队的融合构建起「AI 生命科学」的交叉创新壁垒这是纯 CS 团队或纯基因团队无法比拟的优势。

论文里的实验大多基于人类基因组基础模型 Genos 实现从可公开获取的信息来看Genos 多数指标都超越了目前的业界顶流 Evo-2。

阅读最新前沿科技趋势报告请访问欧米伽研究所的“未来知识库”https://wx.zsxq.com/group/454854145828未来知识库是“欧米伽未来研究所”建立的在线知识库平台收藏的资料范围包括人工智能、脑科学、互联网、超级智能数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。

目前拥有超过8000篇重要资料。

每周更新不少于100篇世界范围最新研究资料。

欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

天涯pro-天涯应用

百度百家号客服电话人工服务

123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123