首页速度优化绝代芳华的秘密：探秘美丽女神的光辉魅力与时空共振

网站优化

葫芦里不卖药，但有你需要的——解锁身心健康的无限可能

千鹤酱开发日记：代码与梦想交织的奇幻之旅

2026-06-08 15:45:48

阅读时长:2分钟

562次阅读

核心内容摘要

每日大赛寸止大赛大赛剧情

近一年来开源大模型快速演进个人用户也能搭建属于自己的本地问答系统RAG。

工具五花八门每一个都声称一键部署但你点进去后往往看到一堆让人头大的名词Qwen

1.

B-Q4_K_M-GGUFbge-m3-int4-awqrerankerembeddinggguffp8别急这篇文章不讲操作步骤只做一件事通俗解释这些你即将遇到的关键术语。

理解它们是你真正开始纯本地RAG的第一步。

搭建 RAG 系统背后是三个模型在配合想让AI读懂你提问、从知识中找出正确内容并用自然语言回答它需要靠三类模型通力合作。

大语言模型LLM负责说人话你看到的回答其实是大语言模型生成的。

它根据问题和检索到的内容用自然语言组织回答。

代表模型Qwen、Gemma、DeepSeek等向量模型Embedding Model负责找内容它把问题和知识库中的文本都变成向量可以理解成数字表示的意思然后通过向量比对来找意思最接近的内容。

代表模型bge-m

Qwen3-Embedding等重排模型Reranker负责挑好内容向量模型找出的内容可能有点乱有些相关、有些不相关。

重排模型会对它们重新打分排序把最靠谱的排在前面。

代表模型bge-reranker-v2-m

Qwen3-Reranker 等你在部署工具里看到的术语都是什么**部署这些模型时无论你使用哪款工具都会遇到一堆术语和格式选项。

以下是最常见术语的解释清单。

模型格式model format格式名简单理解常见在哪些工具GGUF新一代轻量格式支持量化适合本地运行Ollama、LMStudio、llama.cppsafetensors安全模型格式主流模型默认格式vLLM、Xinferencepytorch训练用格式历史悠久Transformers、vLLMawq近年热门的新格式兼容 GPU 加速部署vLLM、OpenVINO没显卡优先GGUF用 GPU 工具选safetensors、awq格式兼容更好

模型量化quantization量化是把原始模型压缩一下让它更省资源运行。

常见标识包括量化方式占用资源精度适合谁Q4_K_M很低一般普通电脑 / CPU 部署Q5_1中等较好中低端 GPU 用户Q8_0高很好高端 GPU 用户显存 ≥16GFP16/FP8很高极佳高性能 GPU24Gint4 / int8低一般嵌入式或极限压缩场景awq中高高GPU 加速专用量化技术没显卡选 Q4_K_M显卡 8G 以上可选 Q5_

Q6_K、awq大显卡24G可以考虑 FP16 模型

模型大小参数规模写法含义对应需求1B10亿参数轻量模型快速测试、嵌入式7B70亿参数主流中文模型大小本地问答足够使用13B更大更精确需要更强硬件高质量问答、复杂逻辑70B超大模型如 LLaMA 2/3 70B仅适合云端或大显卡使用

推理引擎engine这是让模型跑起来的技术引擎不同引擎兼容的格式、运行效率、硬件要求不同。

引擎名特点支持平台llama.cpp可跑在 CPU 上轻量支持 GGUFOllama、LMStudio、Xinferenctransformers最通用但偏慢Xinferencevllm专为 GPU 高并发设计吞吐极高vLLM、XinferenceSGLang不仅是推理引擎更内嵌 DSLXinference

模型类型LLMEmbeddingReranker这个在部署时常见字段是 model_type 或工具中的模型用途之类的。

类型作用代表模型LLM最终生成回答Qwen、GemmaEmbedding将文本转为向量以便检索bge-m

Qwen3-EmbeddingReranker重排序提高答案相关性bge-reranker、Qwen3-Reranker

其他关键词术语通俗解释context window模型能一次读进去的最大文本量token模型处理的语言单位一个词 ≈ 13 tokensystem prompt控制模型性格和输出的隐藏提示语搞懂术语是本地部署AI的入门门槛无论你用哪款工具部署RAG系统都会面临这些术语。

搞懂它们不用全懂原理你也能

看懂模型名后缀的含义

判断模型能不能跑在你设备上

了解部署工具支持了什么模型

为后续部署选型打下基础普通人如何抓住AI大模型的风口领取方式在文末为什么要学习大模型目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用大模型作为其中的重要组成部分正逐渐成为推动人工智能发展的重要引擎。

大模型以其强大的数据处理和模式识别能力广泛应用于自然语言处理、计算机视觉、智能推荐等领域为各行各业带来了革命性的改变和机遇。

目前开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景其中应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过30%。

随着AI大模型技术的迅速发展相关岗位的需求也日益增加。

大模型产业链催生了一批高薪新职业人工智能大潮已来不加入就可能被淘汰。

如果你是技术人尤其是互联网从业者现在就开始学习AI大模型技术真的是给你的人生一个重要建议最后只要你真心想学习AI大模型技术这份精心整理的学习资料我愿意无偿分享给你但是想学技术去乱搞的人别来找我在当前这个人工智能高速发展的时代AI大模型正在深刻改变各行各业。

我国对高水平AI人才的需求也日益增长真正懂技术、能落地的人才依旧紧缺。

我也希望通过这份资料能够帮助更多有志于AI领域的朋友入门并深入学习。

真诚无偿分享vx扫描下方二维码即可加上后会一个个给大家发【附赠一节免费的直播讲座技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等欢迎大家~】大模型全套学习资料展示自我们与MoPaaS魔泊云合作以来我们不断打磨课程体系与技术内容在细节上精益求精同时在技术层面也新增了许多前沿且实用的内容力求为大家带来更系统、更实战、更落地的大模型学习体验。

希望这份系统、实用的大模型学习路径能够帮助你从零入门进阶到实战真正掌握AI时代的核心技能01教学内容从零到精通完整闭环【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块内容比传统教材更贴近企业实战大量真实项目案例带你亲自上手搞数据清洗、模型调优这些硬核操作把课本知识变成真本事‌02适学人群应届毕业生‌无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。

零基础转型‌非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界‌。

业务赋能突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型‌。

vx扫描下方二维码即可【附赠一节免费的直播讲座技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等欢迎大家~】本教程比较珍贵仅限大家自行学习不要传播更严禁商用03入门到进阶学习路线图大模型学习路线图整体分为5个大的阶段04视频和书籍PDF合集从0到掌握主流大模型技术视频教程涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向新手必备的大模型学习PDF书单来了全是硬核知识帮你少走弯路不吹牛真有用05行业报告白皮书合集收集70报告与白皮书了解行业最新动态0690份面试题/经验AI大模型岗位面试经验

总结谁学技术不是为了赚$呢找个好的岗位很重要07 deepseek部署包技巧大全由于篇幅有限只展示部分资料并且还在持续更新中…真诚无偿分享vx扫描下方二维码即可加上后会一个个给大家发【附赠一节免费的直播讲座技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等欢迎大家~】

葫芦里不卖药，但有你需要的——解锁身心健康的无限可能

核心内容摘要

每日大赛寸止大赛大赛剧情

B-Q4_K_M-GGUFbge-m3-int4-awqrerankerembeddinggguffp8别急这篇文章不讲操作步骤只做一件事通俗解释这些你即将遇到的关键术语。

Qwen3-Embedding等重排模型Reranker负责挑好内容向量模型找出的内容可能有点乱有些相关、有些不相关。

Qwen3-Reranker 等你在部署工具里看到的术语都是什么**部署这些模型时无论你使用哪款工具都会遇到一堆术语和格式选项。

模型量化quantization量化是把原始模型压缩一下让它更省资源运行。

Q6_K、awq大显卡24G可以考虑 FP16 模型

模型大小参数规模写法含义对应需求1B10亿参数轻量模型快速测试、嵌入式7B70亿参数主流中文模型大小本地问答足够使用13B更大更精确需要更强硬件高质量问答、复杂逻辑70B超大模型如 LLaMA 2/3 70B仅适合云端或大显卡使用

推理引擎engine这是让模型跑起来的技术引擎不同引擎兼容的格式、运行效率、硬件要求不同。

模型类型LLMEmbeddingReranker这个在部署时常见字段是 model_type 或工具中的模型用途之类的。

Qwen3-EmbeddingReranker重排序提高答案相关性bge-reranker、Qwen3-Reranker

看懂模型名后缀的含义

判断模型能不能跑在你设备上

了解部署工具支持了什么模型

我故意没有穿内裤坐地-我故意没有穿内裤坐地应用

📑 文章目录

🔥 热门优化文章

🛠️ 实用工具推荐

百度百家号客服电话人工服务

葫芦里不卖药，但有你需要的——解锁身心健康的无限可能

核心内容摘要

每日大赛寸止大赛大赛剧情

B-Q4_K_M-GGUFbge-m3-int4-awqrerankerembeddinggguffp8别急这篇文章不讲操作步骤只做一件事通俗解释这些你即将遇到的关键术语。

Qwen3-Embedding等重排模型Reranker负责挑好内容向量模型找出的内容可能有点乱有些相关、有些不相关。

Qwen3-Reranker 等你在部署工具里看到的术语都是什么**部署这些模型时无论你使用哪款工具都会遇到一堆术语和格式选项。

模型量化quantization量化是把原始模型压缩一下让它更省资源运行。

Q6_K、awq大显卡24G可以考虑 FP16 模型

模型大小参数规模写法含义对应需求1B10亿参数轻量模型快速测试、嵌入式7B70亿参数主流中文模型大小本地问答足够使用13B更大更精确需要更强硬件高质量问答、复杂逻辑70B超大模型如 LLaMA 2/3 70B仅适合云端或大显卡使用

推理引擎engine这是让模型跑起来的技术引擎不同引擎兼容的格式、运行效率、硬件要求不同。

模型类型LLMEmbeddingReranker这个在部署时常见字段是 model_type 或工具中的模型用途之类的。

Qwen3-EmbeddingReranker重排序提高答案相关性bge-reranker、Qwen3-Reranker

看懂模型名后缀的含义

判断模型能不能跑在你设备上

了解部署工具支持了什么模型

我故意没有穿内裤坐地-我故意没有穿内裤坐地应用

📑 文章目录

🔥 热门优化文章

🛠️ 实用工具推荐

相关优化文章 推荐

百度百家号客服电话人工服务

相关优化文章推荐