核心内容摘要
纲手绝技:木叶医疗忍术的巅峰,辉煌过往与传奇足迹
原文towardsdatascience.com/moe-moa-for-large-language-models-c1cafeffd6a5?sourcecollection_archive---------8-----------------------#
寻求专家小组的建议https://medium.com/rahulvir?sourcepost_page---byline--c1cafeffd6a5--------------------------------https://towardsdatascience.com/?sourcepost_page---byline--c1cafeffd6a5-------------------------------- Rahul Vir·发表于 Towards Data Science ·阅读时间4 分钟·2024 年 7 月 16 日–https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/16d3e9edea3d8545cbef99ac81077d6d.png图片由作者提供AI 生成 leonardo.ai大型语言模型LLMs无疑已经掀起了科技行业的风暴。
它们的迅猛崛起得益于来自维基百科、网页、书籍、大量研究论文以及我们喜爱的社交媒体平台的用户内容的大型数据集。
这些数据和计算资源密集型的模型一直在热切地整合来自音频和视频库的多模态数据并且已经使用了成千上万的英伟达 GPU进行数月的训练以打造最先进的SOTA模型。
这一切让我们不禁思考这种指数级增长是否能够持续下去。
这些大型语言模型面临的挑战是多方面的但让我们在此探讨其中的一些。
成本与可扩展性更大的模型在训练和部署过程中可能需要数千万美元这成为了日常应用中广泛采用的障碍。
参见训练 GPT-4 的成本训练数据饱和公开可用的数据集很快就会耗尽可能需要依赖缓慢生成的用户内容。
只有那些拥有稳定新内容来源的公司和机构才能够生成进一步的改进。
幻觉生成虚假且无根据信息的模型将成为一种障碍因为用户在使用这些信息进行敏感应用之前期望从权威来源获得验证。
探索未知LLMs 现在被用于超出其原始目的的应用。
例如LLMs 在游戏玩法、科学发现和气候建模方面展现了极大的能力。
我们将需要新的方法来解决这些复杂情况。
在我们开始过于担心未来之前先来看一下 AI 研究人员如何不懈努力以确保持续进展。
Mixture-of-ExpertsMoE和 Mixture-of-AgentsMoA的创新表明希望就在眼前。
首次引入于 2017 年Mixture-of-Experts技术表明多个专家和一个能够选择稀疏专家的门控网络能够以更低的计算成本产生显著改善的结果。
门控决策使得可以关闭网络的大部分部分从而启用条件计算并且专门化提高了语言建模和机器翻译任务的性能。
https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/076aab63ab3201d9a51a7913193f052f.png来源来自极大规模神经网络的 MoE 层上图展示了 Mixture-of-Experts 层如何被集成到一个递归神经网络中。
门控层仅激活两个专家来处理任务并随后将它们的输出合并。
尽管这一点已经在一些选定的基准上得到了验证但条件计算为我们提供了一个途径可以在不依赖日益增大的模型规模的情况下看到持续的改进。
受到 MOE 的启发Mixture-of-Agents技术利用多个 LLM 来改善结果。
问题通过多个 LLMs即代理进行处理这些代理在每个阶段增强结果作者已经证明与更大的 SOTA 模型相比这种方法能够用更小的模型产生更好的结果。
https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/e010a39fddb47fcbc620ad668c47e
png来源Mixture-of-Agents 增强了大语言模型的能力 | 许可该图展示了 4 个 Mixture-of-Agents 层每个层中有 3 个代理。
为每一层选择合适的 LLMs 非常重要以确保适当的协作并产生高质量的响应。
(来源)MOA 依赖于这样一个事实LLMs 之间的协作能产生更好的输出因为它们能够结合其他模型的响应。
LLMs 的角色分为生成多样输出的提议者和可以将其结合起来生成高质量响应的聚合器。
多阶段方法可能会增加“首次令牌时间”TTFT因此需要开发缓解方法使其适用于广泛的应用。
MOE 和 MOA 具有相似的基础元素但表现不同。
MOE 基于选择一组专家来完成任务的概念门控网络的任务是选择合适的专家集。
MOA 则依赖于团队在前一团队工作的基础上进行建设并在每个阶段改进结果。
MOE 和 MOA 的创新开辟了一条创新路径在这条路径上专门化的组件或模型的组合通过合作和信息交流能够持续提供更好的结果即使在模型参数和训练数据集的线性扩展不再简单时。
尽管我们只有回顾时才能知道大语言模型LLM创新是否能持久但我一直在关注该领域的研究以获取见解。
从各大高校和研究机构的成果来看我对未来的进展非常看好。
我确实感到我们正处于新能力和新应用的“热身”阶段这些将彻底改变我们的生活。
我们不知道它们是什么但可以相当确定未来的日子不会让我们失望。
“我们往往高估技术在短期内的影响而低估它在长期内的影响。
” - 阿马拉定律参考文献[1] Wang, J., Wang, J., Athiwaratkun, B., Zhang, C., Zou, J. (
. 代理混合体增强大语言模型能力。
arXiv [预印本]。
arxiv.org/abs/
2
04692[2] Shazeer, N., Mirhoseini, A., Maziarz, K., Davis, A., Le, Q., Hinton, G., Dean, J. (
. 极其庞大的神经网络稀疏门控专家混合层。
arXiv 预印本 arXiv:
1701.
06538.