核心内容摘要
8x8x:一场寻觅数字灵魂的东方奇旅
文章系统介绍了大模型领域的核心术语包括LLM(参数规模≥1B的语言模型)、MCP(连接外部数据的标准化协议)、Agent(结合LLM和工具实现任务的智能体)、RAG(减少模型幻觉的检索增强生成)、LangChain(开发框架)、vLLM(通过KV Cache和连续批处理提高效率)等
关键技术概念帮助读者建立大模型知识体系。
写在前面大模型在今年的热度可以说是现象级的。
从年初Deepseek Manus的爆火出圈到日常app中都能看到大模型的身影。
这篇文章我们就来梳理一些关于大模型的术语包括LLM、MCP、RAG、Agent、LangChain、vLLM、蒸馏等等。
LLMLarge Language Model 大模型模型多大才被称为大模型并没有统一硬性标准但行业通常以参数规模和训练数据/算力来衡量语言模型常在≥1B参数开始被称为“大模型”。
比如GPT-2 有
5B早期较大的语言模型GPT-3 有 175B这里1B的B是Billion的意思也就是参数的个数1B10亿一共有10亿个参数的模型就会被称为大模型。
promptprompt 提示词也就是我们输入给大模型的语句。
MCPModel Context Protocol模型上下文协议是一个开放协议目的是为 LLM应用提供一个标准化接口使其能够连接外部数据源和各种工具进行交互。
核心在于建立一个标准化的通信层使得 LLM 能够在处理用户请求或执行任务时如果需要访问外部信息或功能可以通过 MCP Client 向 MCP Server 发送请求。
MCP Server 则负责与相应的外部数据源或工具进行交互获取数据并按照MCP协议规范进行格式化最后将格式化后的数据返回给大型语言模型。
但我们注意一点大模型是不会自己去调用外部数据源或者工具的大模型只会告诉我们需要调用哪些工具而我们需要自己去实现工具的调用。
我们把大模型和MCP融合之后就会出现一个新名字叫智能体 Agent。
AgentAgent智能体我们上面说了大模型只会给我们一个步骤方法不会真正去执行步骤。
比如发邮件大模型只会给出如何发邮件第一步xxx第二步xxx。
并不会实际帮我们去发邮件而我们需要把 LLM 整合上 MCP 工具才会真正实现发邮件。
具体流程给大模型输入提示词“请帮我给xxx发送一封邮件告诉他快点更新视频”并将发邮件的工具 Tool 告诉大模型。
大模型会根据工具 Tool 给出一系列的步骤包括调用什么工具 ToolName以及调用工具的参数 Args。
eg: ToolName ‘email_sender’、Args ‘email:xxx, content:快更视频’。
我们会将这些参数给到 mcp server。
mcp server 再进行发送邮件。
将结果返回告知用户。
RAGRetrieval-augmented generation (RAG)检索增强生成。
在用大模型的时候大家会发现大模型总是一本正经的回答问题但其实是在胡说八道这种现象叫hallucination幻觉。
大模型本质的就是不断的预测下一个生成的文字应该是什么而选择预测概率中最大的一个。
打个比方LLM 在考试的时候面对陌生的领域只会写一个解字因为LLM复习也只是局限于特定的数据集然后就准备放飞自我了而此时RAG给了亿些提示让LLM懂了开始往这个提示的方向做最终考试的正确率从60%到了90%RAG的过程如下之前的文章已经详细介绍RAG了感兴趣可以翻一翻embeddingembedding 向量化在大模型中我们一个词表达意思可能会有区别比如苹果既可以代表水果也可以代表手机所以某个词是什么意思取决于这个词所在的语境是什么。
我们怎么知道词与词之间有没有关联呢我们可以词转化成一连串的浮点型数字去计算词与词之间的距离。
embedding举个例子我们可以看到单词向量化后就变成了浮点型在坐标轴上画上这些坐标我们可以很直观的看到一百和两百的距离近而一百离一千远所以一百相比于一千更接近两百这个语意。
LangChainLangChain 是一个快速实现 agent 的开发框架提供了标准接口用于将不同的LLM连接在一起以及与其他工具和数据源的集成。
vLLMvLLM 是虚拟大语言模型的简称由 vLLM 社区维护的一个开源项目。
为了让大语言模型LLM更高效地大规模执行计算通过更好地利用GPU 内存来加快生成式 AI 应用的输出速度。
最主要是两个模块KV Cache和连续批处理。
KV Cache这里的 K 和 V 是由每个 token 的向量化后通过线性变换得到的两类向量用来做注意力计算。
KV Cache 把这些历史 K/V 保存下来后续步不用重复计算。
但 KV Cache 随上下文长度、层数、头数、维度线性增长也变成推理中的最大显存开销之一。
vLLM 的做法分块用 PagedAttention 将每条序列的 KV Cache 切分为固定大小的块block并用页表式映射管理它们像操作系统的虚拟内存一样灵活调度。
这样避免了按序列分配一大块连续内存导致的碎片化和 OOM同时支持动态并发与复用。
复用与共享在多分支如 beam search和重复前缀场景下可复用相同前缀产生的 KV 块极大减少预填充prefill时间。
分block连续批处理不是攒满一批再跑而是在每个解码步骤按 token 迭代都把活跃请求组装成一个批序列长度不同也能高效合批GPU 基本满负载运转。
减少短任务被长任务阻塞的头阻塞提高并发与公平性基于PagedAttention 的块式内存 步进级调度器无需等待整批结束即可把新的请求插入下一步的批次。
TokenToken 是大模型各种算法的基本输入单元可以认为是一个单词或者一个短语。
一般来说1 个英文字符 ≈
3 个 token。
1 个中文字符 ≈
6 个 token。
token数据蒸馏Data Distillation 数据蒸馏利用一个高性能的大模型生成精简但有价值的数据使得一个小模型可以从中学习并逼近大模型的效果。
AI大模型从0到精通全套学习大礼包我在一线互联网企业工作十余年里指导过不少同行后辈。
帮助很多人得到了学习和成长。
只要你是真心想学AI大模型我这份资料就可以无偿共享给你学习。
大模型行业确实也需要更多的有志之士加入进来我也真心希望帮助大家学好这门技术如果日后有什么学习上的问题欢迎找我交流有技术上面的问题我是很愿意去帮助大家的如果你也想通过学大模型技术去帮助就业和转行可以扫描下方链接大模型重磅福利入门进阶全套104G学习资源包免费分享
从入门到精通的全套视频教程包含提示词工程、RAG、Agent等技术点
AI大模型学习路线图还有视频解说全过程AI大模型学习路线
学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的
大模型面试题目详解
这些资料真的有用吗?这份资料由我和鲁为民博士共同整理鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利同时还斩获了吴文俊人工智能科学技术奖。
目前我正在和鲁博士共同进行人工智能的研究。
所有的视频由智泊AI老师录制且资料与智泊AI共享相互补充。
这份学习大礼包应该算是现在最全面的大模型学习资料了。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。
智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念通过动态追踪大模型开发、数据标注伦理等前沿技术趋势构建起前沿课程智能实训精准就业的高效培养体系。
课堂上不光教理论还带着学员做了十多个真实项目。
学员要亲自上手搞数据清洗、模型调优这些硬核操作把课本知识变成真本事如果说你是以下人群中的其中一类都可以来智泊AI学习人工智能找到高薪工作一次小小的“投资”换来的是终身受益应届毕业生无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。
零基础转型非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界。
业务赋能 突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型。
获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】