首页速度优化GTE-Pro企业知识治理实践：语义聚类发现知识盲区与内容更新建议

网站优化

细胞群体动力学仿真软件：NetLogo_（16）.案例研究：免疫系统模拟

PLSQL连接Oracle报错Initialization error？手把手教你解决OCIDLL加载问题

2026-06-09 15:39:53

阅读时长:4分钟

562次阅读

核心内容摘要

Mapper接口与XML映射文件的绑定机制（Mapper接口的动态代理实现机制）

产品经理的市场变了超级多视线关注在AI方向但我发现很多人分不清最基础的RAG和Agent的区别更别提什么量化、蒸馏这些模型优化技术了。

说实话不懂这些做AI产品就是瞎指挥。

这篇文章我把10个核心概念掰开了揉碎了讲。

每个概念都会告诉你是什么、怎么跑、落地时候要注意啥。

强烈建议收藏常看常新。

另外文末给大家准备了一整套原型库和PRD模板文末有操作流程。

RAG 检索增强生成RAG全称是Retrieval-Augmented Generation检索增强生成。

很多人问大模型不是什么都知道吗为啥还要检索停一下。

大模型确实见多识广但有两个致命硬伤。

第一知识有截止日期。

GPT-4的训练数据到2023年4月你问它2024年的事它只能瞎编。

第二私有知识它压根不知道。

你公司的内部文档、产品手册、客户数据这些从来没喂给过模型。

RAG的核心思路是先搜、再问、后答。

具体怎么跑分三步。

第一步建索引。

把你的文档切成小块每块大概几百字。

然后用Embedding模型把文字变成向量存进向量数据库。

这一步是离线做的提前准备好。

第二步检索。

用户提问的时候先把问题也变成向量然后去向量库里找最相似的几个文档块。

相似度怎么算通常用余弦相似度。

找到的这几块文档就是外部知识。

第三步生成。

把用户问题和检索到的文档拼在一起丢给大模型。

模型基于真实材料生成答案而不是凭空瞎编。

这套机制解决了两个大问题。

一是时效性。

企业可以实时更新知识库不用重新训练模型。

二是可控性。

答案有据可查出了问题能追溯到源文档。

但RAG不是万能的。

检索质量直接决定回答质量。

如果检索出来的文档不相关模型再强也没用。

Agent 智能体Agent这个词用得太滥了。

很多人把能对话的AI都叫Agent这完全搞错了。

Agent的核心特征是自主决策、工具调用、任务分解。

说白了普通聊天机器人是「你问什么我答什么」Agent是「你给个目标我自己想办法搞定」。

传统大模型是个超级大脑但没有手脚。

你让它查天气它只能告诉你「我没法上网」。

Agent给这个大脑装上了手脚让它能调用外部工具搜索引擎、数据库、API、甚至控制浏览器。

Agent的运行逻辑是一个循环感知 - 思考 - 行动 - 观察结果 - 再思考。

这里面有个关键概念叫ReAct框架全称是Reasoning Acting。

核心思想是让模型在采取行动之前先想一想把思考过程也说出来。

Agent的难点在哪规划能力。

复杂任务需要拆成很多步模型容易迷失方向。

错误恢复。

某一步失败了怎么优雅地回退或换个方案成本控制。

每次思考和行动都要调用模型Token成本蹭蹭涨。

Function Calling 函数调用Function Calling是Agent的基础能力之一但很多人分不清两者的关系。

简单说Function Calling是「一次调用一个工具」Agent是「自主规划调用多个工具完成任务」。

Function Calling解决的是让模型能够以结构化的方式调用外部函数。

现在的Function Calling是模型原生支持的能力。

你先告诉模型有哪些函数可以用每个函数的参数是什么。

模型理解用户意图后直接输出JSON格式的函数调用请求。

流程是这样的。

第一步定义函数Schema。

第二步用户提问。

第三步模型决策输出JSON。

第四步后端执行函数。

第五步结果回传给模型生成自然语言回复。

重点来了。

模型并不真的执行函数它只是生成调用请求。

真正执行的是你的后端代码。

Chain of Thought 思维链CoT全称Chain of Thought思维链。

这个概念2022年谷歌提出的直接让大模型的推理能力上了一个台阶。

核心思想极其简单让模型把思考过程说出来。

以前问模型数学题模型直接蹦答案。

用CoT让模型一步步说推理过程。

看起来只是多写几个字不这背后有深刻的道理。

大模型本质上是预测下一个Token。

当它直接预测答案时相当于用一步完成整个推理。

问题一复杂就容易出错。

但如果让它分步推理每一步都是简单预测累计起来就能解决复杂问题。

实际使用的时候有几种触发方式。

Few-shot示例在Prompt里给几个带推理过程的例子。

直接指令加一句「请一步步思考」。

Vector Database 向量数据库向量数据库是RAG的底座也是语义搜索的核心组件。

传统数据库存的是结构化数据查询靠SQL。

向量数据库存的是向量查询靠相似度计算。

什么是向量就是一串数字。

比如[

1, -

3,

8, …]这种。

Embedding模型能把任何东西变成向量文字、图片、音频都行。

关键在于语义相近的东西向量也相近。

这就是向量数据库牛的地方它做的是语义搜索不是关键词匹配。

向量数据库的核心挑战是快。

你存了1亿条向量用户一提问就要在这1亿里找最相似的Top10。

所以向量数据库都会建ANN索引用一些巧妙的数据结构牺牲一点点精度换取百倍千倍的速度。

量化 Quantization量化是模型压缩的核心技术之一。

核心思路极其简单降低数字的精度。

大模型的参数存储用的是浮点数。

常见的是FP16也就是16位浮点数。

一个参数占2字节。

7B模型有70亿参数光存参数就要14GB显存。

量化做的事是把FP16降到INT8甚至INT4。

INT8是8位整数一个参数只占1字节显存直接砍半。

INT4更狠4位整数

5字节显存砍到四分之一。

精度降了性能会不会崩这就是量化技术的精髓用各种技巧把精度损失降到最低。

量化分两大类。

训练后量化PTQ模型训练好之后直接转换精度。

量化感知训练QAT在训练过程中就模拟量化的影响。

蒸馏 Distillation蒸馏是模型压缩的另一个大方向。

核心思路用大模型教小模型。

大模型参数多效果好但跑起来慢、成本高。

小模型参数少快是快了但效果差。

蒸馏的目标是训练一个小模型让它达到大模型的效果。

怎么做传统的训练方式用硬标签Hard Label图片是猫标签是1。

蒸馏用的是软标签Soft Label看大模型输出的概率分布。

比如大模型看一张图输出猫95%、狗3%、其它2%。

这个概率分布本身就包含了丰富的信息。

小模型学的不只是答案还有大模型的判断逻辑。

这里有个关键参数叫温度T。

T越大输出越平滑能放大不同选项之间的差异让小模型学到更细腻的知识。

LoRA 低秩适配LoRA全称Low-Rank Adaptation低秩适配。

这是目前最火的高效微调方法没有之一。

问题背景是什么大模型参数太多了。

7B模型有70亿参数全量微调要更新所有参数显存根本扛不住。

LoRA的核心思想不改原始参数加一个小旁路。

原始模型的权重矩阵是W维度是d×k。

微调时不动W旁边加两个小矩阵A和B。

A的维度是d×rB的维度是r×k。

r叫做秩通常设成

8、

32这种小数字。

全量微调要更新d×k个参数。

LoRA只更新d×r r×k个参数。

如果r远小于d和k参数量能降几十甚至上百倍。

为什么低秩能work研究发现微调时模型的变化主要集中在一个低维子空间里。

剪枝 Pruning剪枝是最直观的模型压缩方法把不重要的参数直接删掉。

核心假设神经网络里有大量冗余参数。

这个假设是有道理的。

训练时为了学到更多模式参数会过量。

训练完之后很多参数的值接近0删了也不影响效果。

剪枝分两大类。

非结构化剪枝逐个参数判断重不重要不重要的置零。

问题是硬件不擅长处理稀疏矩阵。

结构化剪枝整行整列整层地删对硬件友好。

怎么判断参数重不重要最简单的看绝对值大小。

值越接近0越不重要。

进阶一点看敏感度。

剪枝通常不是一次性完成的。

常见流程训练 - 剪枝 - 微调 - 再剪枝 - 再微调。

推理加速推理加速是工程侧的核心议题。

模型再强跑不快就没法上线。

加速手段可以分几个层面。

计算优化FlashAttention重新设计注意力计算的内存访问模式大幅减少显存读写速度能快

倍。

算子融合把多个小操作合成一个大操作。

内存****优化KV Cache缓存历史Token的Key和Value复用。

PagedAttention像操作系统管理内存一样管理KV Cache避免碎片化。

批处理****优化Continuous Batching允许动态加入新请求、移出已完成的请求。

Speculative Decoding用小模型先快速生成草稿大模型负责验证。

并行****化张量并行把大矩阵切分到多张GPU。

流水线并行把不同层放到不同GPU。

学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

细胞群体动力学仿真软件：NetLogo_（16）.案例研究：免疫系统模拟

核心内容摘要

Mapper接口与XML映射文件的绑定机制（Mapper接口的动态代理实现机制）

1, -

3,

8, …]这种。

5字节显存砍到四分之一。

32这种小数字。

倍。

义子们头盔关键词:group:3.5tousin-义子们头盔关键词应用

📑 文章目录

🔥 热门优化文章

🛠️ 实用工具推荐

百度百家号客服电话人工服务

细胞群体动力学仿真软件：NetLogo_（16）.案例研究：免疫系统模拟

核心内容摘要

Mapper接口与XML映射文件的绑定机制（Mapper接口的动态代理实现机制）

1, -

3,

8, …]这种。

5字节显存砍到四分之一。

32这种小数字。

倍。

义子们头盔关键词:group:3.5tousin-义子们头盔关键词应用

📑 文章目录

🔥 热门优化文章

🛠️ 实用工具推荐

相关优化文章 推荐

百度百家号客服电话人工服务

相关优化文章推荐