Llama3与Qwen-Image-2512对比评测:多模态生成能力实战分析

核心内容摘要

UDOP-large实战教程:Invoice number提取Prompt工程优化技巧
企业级招聘系统管理系统源码|SpringBoot+Vue+MyBatis架构+MySQL数据库【完整版】

如何通过AI技术实现汽车冲压工艺的精度与效率双重突破?

本文系统梳理了AI从诞生至今的发展历程分为初生期(1956-

、成长期(1990-

和爆发期(2017年至今)三个阶段。

从最初的规则式AI到基于机器学习的统计式AI再到以Transformer架构为基础的大模型AI技术不断演进。

文章详细介绍了大模型、多模态、智能体等核心技术概念并通过实际案例展示了AI应用开发与优化方法最后展望了AI未来的发展方向强调了AI将从工具转变为人类伙伴的趋势。

前世AI出现前

唯一的高等智慧动物-人类人类在地球上最早以人猿的方式出现经历了几百万年的进化和发展人类成为了地球食物链的顶端也成为了唯一的高等智慧动物具备了复杂的多语言、推理和抽象思维、创造、发明以及最重要的多文明体系。

而人类能发展成为这样背后最重要的原因是人类大脑的独特性人类大脑能支撑抽象思维、推理思维、语言创造、知识学习和传承、发明和创造、文明建立和传承等多维度能力而这些正是人类的“智能”能力。

人类大脑的简要结构图-图片来源于AI生成而通过上图我会发现除了左脑、右脑这些分区结构外还有树突、轴突这些专业名词而这些专业名词正是大脑里**“神经元”的一部分而人类大脑拥有将近860亿个“神经元”这些“神经元”承担了所有信息的处理和传递工作所有大脑的活动都依赖其协同工作。

这也很显而易见的让人类具备了感知、思维、情绪、运动控制、语言交流等多维度的智能**能力。

人类大脑“神经元”的工作原理-图片来源于AI生成在人类几百万年的发展过程中人类依靠大脑具备了非常强大的智能能力这是地球上其他动物无法比及的人类也在发展的过程形成了各个地区的语言和文明。

人类用各自的语言交流、建设和发展各自的文明在数百万年中都非常稳定但后来人类发现虽然大脑很强大拥有几百亿的神经元但记性和效率太差了比如正常人背1000个数字会显得非常困难算100遍乘法会懵。

那么人类就在想是不是可以解放大脑、让机器代替人类去打工

第一台计算机诞生第一台计算机诞生-图片来源于AI生成这就催生了第一台计算机的出现第一台计算机在1946年被莫奇利和埃克特发明开创性的解决了“快速算、精准存”的问题但有一个问题是这台计算机只是听话但不会思考比如你让他计算1000遍乘法可以迅速给你算出来但他不会思考这些乘法之间的规则或关联以便下次更好的计算。

直到后来科学家发现人类大脑的厉害之处不在于有860亿个神经元而在于860亿个神经元像“亿级路由器”一样互相联通形成了极其复杂的**“神经网络”而“神经网络”可以让大脑具备自我学习、提炼规律的智能能力于是他们想能不能模仿神经网络造一个“机器神经网络”**这其实就有了AI的雏形我们在下一章节和大家一一道来。

今生AI初生期1956-

AI概念定义在1956年达特茅斯会议上约翰·麦卡锡等科学家首次提出“人工智能Artificial Intelligence 缩写为AI”的专业术语明确提出了“让机器模拟人类智能”的研究目标这是AI成为独立学科的起点。

那么我们可以来看看到底什么是“人工智能AI”这里其实已经有明确定义了人工智能AI是让机器模拟人类智能的技术总称。

那么问题来了到底是什么**“人类智能”我们基于上一章节的内容可以简要概括为“人类智能”即**是让机器具备“感知、思考、决策、执行”的能力。

过马路示意-图片来源于AI生成我们来通过一个“过马路”的例子来解释到底什么是“感知、思考、决策、执行”●“感知”对人类而言有耳朵和眼睛等器官我们在过马路时可以看到红绿灯在变化也可以听到汽车经过时的鸣笛声而这些“看”和“听”其实就是我们的“感知”能力我们可以通过感知能力获取到这些信息。

● **“思考”**当有了“感知”能力获取到信息后我们会用我们的大脑进行分析和推理这其实就是我们的“思考”能力比如我们在过马路时看到红绿灯是红灯后我们会停下来等待变成绿灯后再通过这其实就是一个“思考”的过程● **“决策”**我们还以过马路例子来分析我们遇到红绿灯时我们其实有多个选择比如“闯红灯”亦或者是“等待绿灯再通过”但我们最后选择了后者也是为了我们的安全第一这其实就是“决策”● **“执行”**仍然以过马路这个例子来分析当我们最终“决策”了等待绿灯后再通过的决定后等绿灯亮起时这时我们迈开腿走过人行道到达马路对面这个过程其实就是“执行”人类以上的“感知、思考、决策、执行”构成了“智能”能力但如果要让机器具备这些“智能”能力会有什么难点最大的难点其实首先是机器不懂我们的语言所以就更别谈分析、推理、思考之类的能力了这时候另一个学科就可以很好的结合进来自然语言处理Natural Language Processing 缩写为NLP。

自然语言处理NLP其实“自然语言处理NLP”并不是AI出现后才出来第一台计算机在1946年出现在之后的1950年图灵就提出“如果一台机器能通过文本对话让人类无法分辨它是人还是机器那它就具有了智能”这其实便是“自然语言处理NLP”的目标。

只不过AI诞生后刚好有了这个契机“自然语言处理NLP”也成为了AI早期发展最重要的相辅相成的模块。

那么我们来解释一下到底什么是**“自然语言处理NLP”**首先看什么是“自然语言”“自然语言”是“人类在日常生活中自然而然发展和使用的语言”比如早期的甲骨文、象形文字等以及发展到现在的各种语言包含地方方言等但我们通常涉及的编程语言就不算是“自然语言”。

而**“自然语言处理NLP”就是让计算机能够理解、解释、操纵和生成人类自然语言通俗点讲就是教计算机“听懂人话、说人话、看懂人写的字、写出人能看懂的内容”。

**我们可以来通过例子简单分析下

人与人之间通常是这么语言沟通的图片来源于《深度学习进阶-自然语言处理》

而人和动物之间动物其实是听不懂我们的话的这也是科学难题之一期待未来有所突破图片来源于《深度学习进阶-自然语言处理》

而试想一下有了自然语言处理NLP人类和机器之间就可以沟通了图片来源于《深度学习进阶-自然语言处理》

AI初生期

案例分析在**自然语言处理NLP**的加持下AI初步在一些场景取得了应用比如早期的机器翻译早期机器翻译原理示意-图片来源于AI生成大家可以发现在早期机器翻译中有词典、语法规则库、转换规则等等约定好的规则库而这些规则库决定了翻译功能的具体实现。

下面我们以一个具体的例子来说明The apple is red.这个英文句子相信大家都能翻译出来也比较简单我们看看机器翻译的原理第一步查词典计算机会把句子拆成单词然后去一个巨大的电子词典里查每个词的意思。

英文单词词典里给的主要中文意思The这/这个/那通常放在最前面apple苹果is是red红色的好现在计算机得到了一堆中文词【这】【苹果】【是】【红色的】。

第二步调整顺序计算机会用上一条非常简单的语法规则英语的 **[主词] [is] [形容词]**结构对应中文的[主词] [是] [形容词] 的。

它发现 The apple是主词is是系动词red是形容词。

完美匹配规则所以它把这些词按照规则排列起来。

最终翻译结果这苹果是红色的。

问题暴露哪里不对劲这个翻译对吗其实按字面意思都对了本身语法也都对但有一个地方做的不够好● **不地道的表达**虽然“苹果是红色的”语法正确但在日常口语中我们可能更常说“这个苹果是红的”或者直接说“苹果很红”而机器无法理解这种语言习惯和微妙差别。

这个简单例子揭示的根本缺陷● **缺乏灵活性**机器只会死板地应用规则无法像人一样根据语境或上下文或情感翻译出更合适的内容● **没有“语感”**它不知道什么样的中文听起来更地道和自然所以翻译出来也会比较死板

AI初生期小结通过这个机器翻译的例子我们会发现在AI初生期

虽然有**自然语言处理NLP**的加持但AI基本都是死板的按人类制定的规则去执行比较死板不够灵活。

如果把AI比作一个人类我认为这一阶段他最多算是一个只会死记硬背的小学生不懂变通一旦遇到超出自己死记硬背以外的其他内容就一无所知我们暂且把这一阶段的AI称作**“规则式AI”**。

而这也是AI进一步后续发展很重要的原因我们将在下一章节详细展开。

今生AI成长期

在AI初生期

AI基本都以既定规则去应用这也导致了AI成长期

的进一步发展。

机器学习出现这一阶段一个很重要的概念出现机器学习Machine Learning 缩写为ML。

那么什么是机器学习让机器从数据中自己学习规律而不是仅仅依靠人类为它编写固定的指令。

大家会发现相比之前的“规则式AI”机器学习的方式会让机器不再死板不通过人类给定的既定规则而是通过机器自己学习大量的内容在这些内容中找到规律然后再去应用。

AI成长期

案例分析我们以一个大家日常工作中场景都在用的例子来去说明垃圾邮件过滤系统。

垃圾邮件示意-图片来源于AI生成如果在AI初生期

只能按照既定规则来比如● 如果邮件标题里出现 “免费” 这个词就标记为垃圾邮件● 如果发件人地址包含 “spam” 就标记为垃圾邮件● 等等…这种方法的缺点非常明显● 变种很难防范比如除了“免费”外可能会有“免-费”或“Free”这时你的规则就失效了。

你必须不停地发现新套路然后手动添加新规则● 可能会误杀比如你的好朋友发了一个标题是“有个免费的讲座你想参加吗”的邮件。

那么如果在AI成长期

我们可以怎么做第一步准备“学习资料”你给机器一大堆已经分好类的邮件● 1000封已知的垃圾邮件 标为“垃圾”● 1000封已知的正常邮件 标为“正常”第二步让机器自己“找规律”机器会开始埋头苦读这些邮件并进行统计分析。

他会自动发现● 在“垃圾邮件”里词语“免费”、“优惠”、“发票”出现的概率非常高。

● 在“正常邮件”里词语 “会议”、“项目”、“放假”、“通知” 出现的概率非常高。

最终机器形成了一套自己的判断标准 。

第三步实际运作这时一封新邮件来了标题是 “关于国庆放假的通知” 。

这时机器会分析这封邮件的内容。

他发现“放假”、“通知”这些词在他的记忆里和“正常邮件”的关联度非常高。

而“免费”、“优惠”这些垃圾邮件高频词一个都没出现。

于是机器认为这是一封正常邮件。

垃圾邮件技术原理-图片来源于AI生成通过这个案例我们会发现有了机器学习的加持AI从“规则式”的死板应用加上了“AI模型分析”机器会自己学习、自己

总结规律了。

AI模型出现那么机器通过自己学习自己

总结出的规律这其实就是AI模型Model那么到底什么是AI模型一个通过大量数据训练出来的、能够识别特定模式或规律的数学函数或程序。

通俗点讲就是从数据中提炼出的“规律”或“经验”本身。

AI模型的三大核心要素● 输入接收新的数据如收到一封邮件● 处理运用学到的规律进行计算或判断这个邮件● 输出产生结果判断这个邮件是不是垃圾邮件通过上面的案例我们点出了AI模型这个基础的概念。

机器学习方法监督学习还有一个概念大家可以发现我们给了机器2000个分类好的邮件“正常”或“垃圾”让机器根据我们标注好的结果去学习和

总结规律这其实便是机器学习的方法之一我们把这种方法称为**“监督学习”即给机器学习的训练数据都带有明确的“标签”如标注好“垃圾”还是“正常”。

**那么还有没有其他机器学习的方法当然有这个会在下一章节中和大家逐步介绍。

AI成长期小结**如果还是把AI比作一个人类我认为这一阶段他可以算是一个靠刷题

总结规律的中学生了**比如可能针对中学的生物这门课刷了大量的题包含答案能自己

总结出规律和方法再遇到同样类型题的时候这位中学生能得心应手的回答上来。

而通过统计大量题或内容然后

总结规律我们可以暂且把这阶段的AI称为**“统计式AI”**。

但是有一个很重要的问题这位中学生刷的是某一学科的题虽然很厉害但他可能偏科比如没有去刷物理的题在遇到物理学科一个他从没做过的题他可能还是做不出来。

回到本章节我们讲的AI成长期

这一阶段虽然AI通过机器学习变得强大了当我们给到一定的学习数据的时候能自己学习自己

总结规律了。

但有一个问题一旦超出了我们原来给的那些学习数据AI就不会了。

这也是这阶段AI发展面临最大的问题而这个问题将在接下来的AI发展阶段中得到解决也就是我们接下来要讲的下一章节而这一章节也是我这篇文章要和大家分享的重中之重。

今生AI爆发期2017年至今我们在AI成长期

这一阶段发现AI虽然出现了机器学习的概念并且通过机器学习的方式训练出了AI模型但这个AI模型太“偏科”了一旦涉及到它训练数据以外领域的知识他就可能不知道了。

那么又如何解决这个问题

AI模型架构演进我们还是以上一章节中的“垃圾邮件过滤系统”来整体回顾和延展分析一下如果在AI初生期

按照既定规则来比如如果邮件标题里出现 “免费” 这个词就标记为垃圾邮件。

这种方法非常死板也没有用到模型的概念。

如果在AI成长期

我们通过机器学习监督学习训练出了AI模型通常用**“朴素贝叶斯模型架构”**让模型自己判断收到的邮件是不是垃圾邮件看起来更高效了。

但实际上有个缺点他是个“拆词专家”他会把邮件拆成一堆零散的词不会关心词的顺序和句子意思 比如“钱转给你”和“你把钱转走”对他来说都是一堆含有“钱”、“转”的词意思差不多。

他无法理解前者是正常收款后者可能是诈骗预警。

这时候RNN架构循环神经网络出来了他不再拆散邮件而是尝试逐词阅读整个句子并努力记住前面读过的内容。

他终于有了初步的“上下文”概念能理解一些简单的句子结构了。

但他有个关键的问题他有“健忘症”如果邮件很长他读到结尾时早就忘了开头说了什么。

比如邮件开头说“关于上次开会的项目报告…”结尾说“…请支付费用”他可能就忘了开头是正经事只记得结尾要钱从而误判。

因为有“健忘”的问题所以CNN架构卷积神经网络出来了他每次只关注相邻的几个词。

比如看到“难以置信的”和“优惠”时他能敏锐地感觉到这是个广告短语。

看到“验证您的”和“账户”时他知道这可能是个安全提示。

通过这种方式可以让他的效率变得更高可以同时处理多个相邻词擅长捕捉局部短语特征。

通过这种方式其实可以变相解决“健忘”的问题但有一个关键问题他无法同时看到邮件全文比如一封邮件可能开头很长一段都是正常的商务沟通只在最后一句巧妙植入诈骗链接他可能因为前面都是正常局部信息而放过它。

而这也导致了他难以理解邮件整体的逻辑和核心意图。

我们简单

总结一下以上的AI模型通过架构的优化和演进能力在逐步提升但他们也有明显的缺陷● “不懂语法”只看零散关键词。

● “认真但健忘”处理长文效率低。

● “眼光狭隘”缺乏全局观。

Transformer架构出现而因为有了这些缺陷2017年Google的研究团队发表了一篇名为《Attention Is All You Need》的论文正式提出了Transformer架构。

Transformer架构因此诞生我们来看看Transformer架构到底是怎么工作的我们还是以邮件垃圾过滤为例假设有一封可疑邮件内容是“尊敬的客户恭喜您获得10W奖金请点击唯一链接 http://xxx.com领取”第一步同时查看所有关键信息并行处理以前的RNN架构要一个字一个字读而Transformer架构可以一瞬间看到所有词第二步划重点并分析自注意力机制他会给词与词之间画上“关联线”比如 “奖金”和哪个词关联最强他发现“奖金”和 “链接” 、“领取” 关联非常紧密。

这种“中奖-链接-领取”的模式经典得就像它的办案手册里写的“诈骗三件套”。

第三步全局推理看穿意图他看清了整封邮件的逻辑 “这是一封群发邮件尊敬的客户用虚假的好消息巨额奖金作为诱饵其最终意图是诱导收件人点击一个可疑链接http://xxx.com。

”它理解的是邮件的整体意图而不是机械的匹配关键词。

第四步做出最终决定他非常有把握地得出结论 “这是一封钓鱼诈骗邮件” 然后将它扔进垃圾箱。

通过这个例子我们看到用了Transformer架构的垃圾邮件过滤器通过**“自注意力机制”**可以做出精准的判断那么什么是“自注意力机制”通俗点理解即是模型在处理一句话时能瞬间看到所有的词并智能地判断出哪些词之间关系更重要。

正是Transformer架构的革命性突破成为了引爆AI爆发期最关键的技术基石。

AI大模型出现有了Transformer架构那么AI模型就可以得到革命性的改进和优化基于这个契机OpenAI在2018年推出了生成式模型GPT-1GPT-1拥有

17亿参数那这里的“参数”是指什么大家还是否记得本文的

节介绍了人类大脑的强大之处在于有数百亿个“神经元”构成了“神经网络”而AI模型这里的“参数”就类似大脑神经网络里的“神经元”。

在诸如之后快速发展OpenAI相继在2019年推出了GPT-2参数扩大到15亿、在2020年推出了GPT-3参数规模达到1750亿 。

随着参数规模不断扩大的AI模型出现这也正是为了解决AI成长期

AI模型“偏科”的问题让AI模型具备更通用更强大的知识储备可以覆盖多个领域。

**基于此大模型 Large Model 缩写为****LM**由此而生那么什么叫大模型基础定义为大规模人工智能模型。

那么这里的**“大规模”具体是什么即泛指参数规模巨大的模型。

通常我们把参数规模在10亿以上的可以算是入门级的大模型**但发展到今天2025我们通常把**参数规模在100亿以上算作大模型**类如混元大模型旗下的TurboS大模型参数量为5600亿。

大模型、中模型、小模型那么既然有了大模型是否有小模型中模型答案是当然有我在下表会简要比较一下大模型、中模型和小模型的差异大家其实发现中小模型在特定场景也有非常高效但对于大部分正在读这篇文章的大家而言无论是工作还是生活场景大模型的应用是最多的所以我们还是回到大模型本身继续探讨。

大语言模型在AI初生期

大家发现AI和“自然语言处理NLP”相辅相成发展那是因为人类在AI的探索上最初都是以自然语言处理为切入我们和机器沟通、让机器理解我们的语言都算是在语言层面最直接的应用那在大模型出来后最初的形式就是大语言模型 Large Language Model 缩写为LLM ● Large大指参数数量巨大另外还指训练的数据量巨大● Language语言自然语言。

● Model模型 能识别特定模式或规律的计算模型而我们之前提到的在2020年推出的GPT-3可谓是实实在在的大语言模型拥有1750亿参数再到后来继续演进OpenAI在2023年正式推出了GPT-4参数量相比GPT-3更大而且更强大的是GPT-3只能处理文本而GPT-4既可以处理文本也可以处理图像。

类似的大语言模型还有我们鹅厂的Turbos、Deepseek等等。

除了大语言模型还有哪些模型上面提到了大语言模型的具体定义和介绍大语言模型作为AI大模型最早期也是最核心和基础的形式在后面的内容我们还会提到文生图、图生视频等大模型从类别上来看现在已经远远不止是大语言模型的应用了整体大模型宇宙我会在下图和大家分享大模型宇宙

机器学习方法无监督学习大家是否还记得在AI成长期

“机器学习”的概念开始出现通过机器学习当时用了监督学习的方法可以让机器自己学习和

总结规律来得到我们的AI模型。

那么GPT之类的AI大模型是怎么训练这阶段通常称为“预训练”出来的呢其实同样也是用了机器学习但可能会更“深度”这里的“深度”主要指在机器学习的过程中分很多步骤每一步骤学到一些不同的规律从简单到复杂逐步深入。

因为大模型的参数量非常大给到模型训练的数据量也巨大我们不能再通过只给模型2000个数据标注的方式让他自己学习和

总结规律。

GPT之类的通用大模型基本要吃掉互联网当下存在的所有知识人工不可能给某一条知识都去做标记告诉模型哪些是对的哪些是错的只能塞给机器无数的知识但要让机器自己去

总结规律得出相应的“正确”或“错误”在监督学习下原来应该是人工标注的工作。

那么这种机器学习的方法我们称之为“无监督学习”。

深度神经网络、深度机器学习和传统机器学习而因为由于大模型巨大的参数量和训练量需要更复杂的网络结构。

之前提到的RNN、CNN、Transformer等都属于“**深度神经网络”**的范畴。

有了“深度神经网络”的支撑我们通常把对大模型预训练时的机器学习范式称为“深度机器学习”也可以简称为“深度学习”那么再回到AI成长期

当时其实也用了机器学习我们把这阶段的机器学习范式称之为“传统机器学习”。

以ChatGPT、SD等

案例分析OK聊到这里其实大模型已经比较完善了不仅仅是GPT系列还有诸如Google的Gemini 、百度的文心一言、阿里的通义千问以及腾讯的混元等等但光有这些大模型好像和我们普通互联网从业者没有啥关系直到2023年ChatGPT正式问世ChatGPT聊天界面-图片来源于AI生成大家可以通过ChatGPT去和AI聊天感受AI的渊博和强大同时又不乏趣味大家也第一次真正意义在应用层感受到了大模型带来的帮助和作用大家可以用ChatGPT去问任何自己感兴趣的未知领域的话题也可以让他帮我们工作做一定提效。

而这也奠定了近几年AI爆发的切入点近几年大部分基于大模型的AI应用基本都以对话形式出现如ChatGPT、豆包、元宝等等很重要的原因在于对话体验是最直接也是最简单的方式。

而大家对话体验聊多了之后是不是觉得AI大模型能力可能就这样了归根到底也始终只是在对话几乎在ChatGPT出来的同一时期Stable Diffusion缩写为SD面世而SD是一个文生图大模型已经不再是传统的对话生成文本的体验SD已经可以根据输入的文本生成图。

同时期还有Midjourney不过前者是开源后者是闭源Stable Diffusion界面-图片来源于AI生成而类似SD、Midjourney这些文生图大模型我们需要输入一段文本来让AI生成图这个文本其实就是提示词Prompt我们以一个例子来看看Prompt一只猫在吃饼干-图片来源于AI生成Prompt写实风格在一个阳光明媚的早晨一只金渐层猫在草地上用爪子拿着一块饼干往嘴里吃-图片来源于AI生成

提示词工程提示词工程是一门与AI有效沟通的链接方式通过以上例子我们可以稍微

总结下整体原则你给AI的提示词越清晰、越具体你得到的结果就越好。

掌握这项技能你将能真正释放大模型的巨大潜力。

通过文生图体验大家可以发现我们基于AI大模型不再是只能生成文本也能生成图片了但是有一个很关键的问题只能输入文本我怎么得到一定是我想要的图片呢比如我希望上面例子里的猫和我家的猫长一样但光通过提示词文本描述很难做到生成的猫和我家的猫一样…那么有没有解决办法当然有我们来直接看例子这是我家的猫一只美短名叫“小白”我把“小白”这张照片发给了AI大模型同时写了一段提示词生成出相关图片Prompt写实风格在一个阳光明媚的早晨“小白”在草地上用爪子拿着一块饼干往嘴里吃-图片来源于AI生成可以看出生成的图片更符合预期但大家有没有发现一点我们向AI既输入了文本又输入了图片小白的照片而AI给我们输出了一个最终的图片这和之前的ChatGPT体验可完全不一样啊笔者注其实最新的ChatGPT已经支持既输入文本又输入图片基于GPT-4o大模型我们甚至可以既输入图片又输入文字然后来让AI生成视频0832d0136be5b18281f3779ba9f

mov

多模态、单模态而这种既能输入文本又能输入图片的方式其实就是AI大模型的多模态Multimodal那么到底什么是多模态我们先来回忆一下AI模型的三要素● 输入接收数据● 处理运用学到的规律进行思考、推理● 输出产生结果我们关注到AI模型有很重要的输入、输出两个环节我们可以把多模态这么定义**输入或输出端能同时处理、理解和关联多种不同类型信息。

**像我们刚刚的例子其实就是大模型在输入端同时接受到了文本和图像的信息然后去理解、推理在输出端生成了一张新的图片或一个新的视频。

那其实讲了多模态对应的还有**单模态Unimodal**对应多模态的定义其实我们就比较好理解单模态了即**在输入和输出端分别专注于一种类型的信息处理。

**像我们之前提到的GPT-3 GPT-4以及腾讯的混元Turbos等都是单模态大模型因为他们不论在输入端还是输出端都只能处理文本。

我们下面用一张图来简单解释“单模态”和“多模态”“单模态”和“多模态”对比

开源、闭源大模型除了“单模态”和“多模态”的区分外还有个很重要的维度区分即是“开源”还是“闭源”如之前同时期的文生图大模型既有SD又有Midjourney前者是开源后者是闭源那么我们来看看开源和闭源到底有什么区别其实“开源”或“闭源”并非谁对谁错也并非谁更好谁更差都是共同推动了整个AI领域的飞速发展。

开源是创新的源泉闭源是商业化应用的标杆。

如果大家个人要去尝试到底用什么模型来练手最重要的是根据自身的需求、技术能力和资源做出最合适的选择。

智能体的出现看完大模型整体的介绍其实我们发现不管是用单模态的ChatGPT基于GPT-4对话还是用多模态的ChatGPT基于GPT-4o去“文图”生成图都已经算是在应用层使用上AI大模型了。

那么我们是否可以用ChatGPT去策划一次旅行并做好预算呢你“帮我策划一次三亚旅行”ChatGPT“好的为您规划一个三亚5日游的行程框架供参考…”它可能会输出一个非常笼统的模板式行程● Day 1: 抵达三亚入住酒店附近海滩漫步。

● Day 2…**你发现的问题**这太泛泛而谈了完全没有考虑你的预算、偏好比如是否喜欢潜水、是穷游还是舒适游而且信息是静态的没有实时价格。

你“这个行程太简单了。

我需要一个更详细的计划包括具体的航班时间、酒店名称和价格参考。

我的预算人均是8000元。

”ChatGPT“好的基于人均8000元的预算这是一个更详细的计划示例…”● “航班可选择北京-三亚的XX航空参考价格1500元往返。

”● “酒店可入住XX酒店海景房参考价格600元/晚。

”● “…”**你发现的问题**价格是过时的它无法联网获取真实实时价格这些价格毫无意义。

**需要你验证**你得自己打开携程或航司官网去逐个查询这些航班和酒店的真实价格。

决策点又抛回给你“XX酒店”真的好吗它看不到真实用户的评价。

你“现在帮我查一下下个月从上海出发到三亚最便宜的非红眼航班是哪天列出时间和价格。

”你“等等把预算表单独做出来分机票、酒店、餐饮、门票、市内交通几项。

”你…你会发现所有的规划先查什么、后查什么、如何取舍都需要你来思考你不断在发出“下一步做什么”的指令。

那么是否存在一种AI你只需要告诉它一个目标它就能自己规划、执行直到把结果呈现在你面前当然有这时候就不得不提到“**智能体Agent”**这个概念了其实“智能体”的概念出现不是这几年才有在AI成长期

前已经有了基础的定义来源于学者伍尔德里奇和詹宁斯智能体是一个位于特定环境中的计算机系统它能够自主的行动以实现其设计目标。

“智能体”演进还有一个更好理解的定义是能够感知环境、进行决策并自主采取行动以实现某种目标的系统或程序。

我们发现**“智能体”的几个关键因素**是**“感知”、“决策”、“目标”、“自主行动”**而大家可以思考一下之前我们用ChatGPT输入一个提示词来生成了一张图那么这阶段的ChatGPT是智能体吗我们可以来简单分析一下显而易见如果仅仅是通过“文生图”的ChatGPT并不算是一个“智能体”我们最多算它是“智能体雏形”或者可以称作是一个“应用”或“工具”。

“智能体”的“自主行动”通常不太好理解我们再通过一个生活化的例子来帮助大家更好的理解场景一指挥一个“听话的助手”这是非自主的你对他说“小C打开冰箱。

”“拿出西红柿和鸡蛋。

”“打开燃气灶。

”“把锅烧热倒油。

”“先把鸡蛋炒熟盛出来。

”“再炒一下西红柿。

”“最后把鸡蛋倒回去放盐翻炒几下出锅。

”你会发现每一步具体的动作都需要你精确地下达指令。

这个助手很能干但他没有自己的主意完全依赖你的指挥。

这就是“自动化”缺乏自主行动。

场景二交给一个“靠谱的私人助理”这是有“自主行动”的智能体你对他说“小王我有点饿了帮我做顿饭吃吧。

然后你就可以去忙别的事了。

这个“小王”智能体会展现出真正的“自主行动”● 他内心会盘算“老板饿了。

我得先看看冰箱里有什么然后决定做什么再动手。

”● 他自己决定打开冰箱看看有什么食材。

感知● 他发现有意面、西红柿和牛肉自己决定做番茄肉酱意面。

决策● 他自己决定先后顺序先烧水、同时切西红柿、再炒肉酱……规划● 发现盐用完了他不会卡住而是自己决定用酱油代替。

动态调整● 发现意面煮多了他会自己决定先盛出一部分作为明天的午餐。

灵活处理● 最终交付过了一会他端上一盘香喷喷的意面并告诉你“老板饭做好了。

盐用完了我用了点酱油调味你看合口味吗”我们可以简要

总结下“自主行动”即是“扔给它一个目标它自己能变出一套计划、搞定过程、应对变化最终给你结果”的能力。

那我们可以试想一下如果ChatGPT同样你给了他一段提示词“生成一张猫吃饼干的图片”这时他经过思考“猫是什么猫比较好饼干是什么饼干应该在什么场景更好”然后通过各种工具或方法生成了多张猫吃饼干的图片然后让我们选择并且选择后可以让他继续优化。

如果是这样的方式是“智能体”吗**答案是当然是**完美满足了“智能体”的“目标”、“感知”、“决策”、“自主行动”几个关键维度的定义。

请参阅最新豆包的文生图的体验所以我们可以暂且把豆包当作是一个智能体聊了这么多智能体的基础定义还是为了大家能清晰的了解到什么是智能体。

而我们再看本文之前提了大量关于大模型的基础知识那么“大模型”和“智能体”到底有什么关系呢通俗点讲大模型就像一个无所不知、超级博学的大脑而智能体则是拥有这个大脑后还拥有了手和脚能通过感官获取到信息进行思考决策后主动去完成一个复杂任务的**“全能机器人”**。

简要

总结●大模型是智能体的 “能力基础”没有大模型智能体就不会理解和思考只能机械执行固定指令。

●智能体是大模型的 “落地延伸”光有大模型只能 “纸上谈兵”智能体通过搭配工具、设定目标、让大模型的能力从 “说” 变成 “做”。

●两者是 “分工协作”大模型负责 “想清楚”智能体负责 “做到位”。

如何开发一个智能体应用那么如果我们自己想做一个智能体应用该怎么做呢以及在过程中是否会遇到一些问题下面我以今年参与的三个AI项目来简要分享分别是瓦手AI放号官、瓦手AI抢ID、英雄联盟AI赛事助手。

而今天我会主要分享在之前文章没有提及的一些内容以我负责的三个项目为例如果要开发一个智能体应用大概可以是以下流程

**需求确认及策划 **明确项目到底要做什么想通过AI解决什么问题或者提升什么体验

**技术选型及架构设计 **用什么大模型是智能体的大脑智能体平台/框架选择用什么工具链

**核心开发 **核心开发过程

**智能体调优及测试 **智能体调优的方式

**项目上线运营与迭代**持续运营及优化迭代我们将我负责的三个案例按以上流程简要分析大家会发现整体开发一个智能体项目最关键的就在于需求确认及策划、技术选型及智能体调优三个环节而智能体调优又是我们三个环节中最重要的环节。

为什么说“智能体调优”这个环节最重要是因为我们做一个AI智能体应用AI效果有没有达到我们的预期智能体调优有没有做到最好是最关键的而在上面三个项目的智能体调优方法基本一致这也说明对于大部分智能体应用调优的方法是具备一定通用性的这里面的提示词工程在前面已经提到过我们不再赘述。

我们会重点关注在新出现的两个专业术语“RAG”和“微调”我们在下面慢慢来探讨。

检索增强生成RAG**检索增强生成Retrieval-Augmented Generation 缩写为RAG**拆分一下解释即是● **检索**从外部知识库中查找与问题相关的信息。

● **增强**用检索到的信息来“增强”或“补充”大模型的知识。

● **生成**大模型基于这些补充的信息生成更准确、更可靠的答案。

**通俗易懂的一句话解释就是**智能体的大脑大模型进行输出内容之前先让它主动去一个庞大的知识库如文档、数据库、互联网中“查阅资料”然后根据查到的资料来组织和生成答案。

如果一个智能体没有RAG就有点像一个闭卷考试的学生他只能依靠记忆预训练阶段学到的知识来答题。

如果问题超出了他的记忆范围他就可能答错或“胡编乱造”。

如果给一个智能体加上RAG就有点像一个开卷考试的学生当遇到问题时他可以先去翻阅指定的教科书和笔记检索外部知识库然后结合自己的理解模型的推理能力写出一个有据可查、内容准确的答案。

瓦手AI项目建立的知识库-小部分示意

微调基于监督学习和强化学习我们在智能体调优的过程中提示词工程、RAG等方式其实都只是改变的是模型的输入阶段让输入更有效而想更好的去优化智能体的输出还要用到**微调。

**提示词、RAG等改变了输入环节而微调本质上则改变了AI模型对于开源大模型而言是模型副本对于闭源大模型而言是“适配层”。

瓦手AI项目基于人工反馈的监督学习而强化学习则是让智能体通过试错自己学会一整套“决策链”或“策略”以最大化长期奖励。

我们以一个生活中训练狗狗的例子来告诉大家什么是强化学习小狗听到到主人的指令“坐下”。

它尝试趴下动作。

驯兽师没有给零食没有奖励。

小狗又尝试坐下新动作。

驯兽师立刻给予零食给了奖励。

通过无数次尝试小狗学会了策略当听到“坐下”指令时执行“坐下”动作能最大化获得零食的长期收益。

监督学习是给了模型标准的答案比如我们告诉模型是goodcase还是badcase但大家试想一下如果这个数据量特别巨大每次让人工去标注所有的将非常不现实。

而基于人工反馈的强化学习RLHF则是更高效的方法用一个评分奖励模型我们让AI学习这个评分标准然后通过一次又一次的学习生成高分从而达到我们想要的效果。

而通过以上的智能体调优方法目的就是为了让我们做出来的这个AI应用更符合我们的预期比如AI回答的更准确、更趣味。

大模型的幻觉问题但其实我们在项目过程中有时还是会发现AI回答的不是100%正确而这正是大模型的“幻觉”问题**大模型生成看似合理但事实上错误、荒谬或虚构信息的行为**简单来说就是AI在一本正经地胡说八道。

而我们上面用到了一些智能体调优的方法一定程度上本质就是为了解决“幻觉”问题而“幻觉”问题产生的原因主要就是我们期待AI去输出一些内容但这些内容又超出了AI的认知时他可能就会乱说或说错。

除了通过RAG、提示词工程、微调等方法调优智能体提升我们AI输出的准确性外我们还可以比如● 答案溯源让模型增加二次校验要求模型在生成答案时注明引用的源文● 自我批判让模型对自己生成的答案进行一次自我审查● 高准确性信息采用固定信源比如我们的AI赛事助手的赛程、赛事等信息让AI去查固定的接口而不是走联网搜索● 等等简要

总结幻觉是当前大模型的通用问题包括我们之前谈到的GPT系列以及现在所有的通用大模型都会有“幻觉”问题而我们当前所有的调优手段如RAG、提示词工程、SFT、RLHF等其重要目标之一就是最大限度地管理和减少幻觉但其实并不能完全消除它。

因此我们除了做好AI输入阶段的优化外对AI的输出阶段同样应该保持谨慎这也是每个AI从业者应有的重要意识。

AI爆发期小结AI爆发期从2017年到现在短短的几年时间AI经历了飞速的发展大模型百花齐放相关的智能体应用也层出不穷。

这阶段也是我们正在经历的的AI我认为他已经是一个读遍天下书的大学生拥有了丰富的知识积累加上了一定量的实习经验下一阶段就是未来他应该会走上社会成为一个职场上的专业人员把多年积累下来的知识和实习期积累的经验更好的应用在职场上同样的我们可以把这阶段的AI称为“深度学习/大模型AI”。

未来不知道大家有没有去看2025英伟达GTC大会这个大会点出了很多未来和AI更有想象空间的模块如AGI、具身智能、量子计算、6G、人机协同等感兴趣的同学可以去详细了解。

而我也聊聊我个人的AI观AI从历史时间线的发展来看已经有几十年但真正爆发的也就这几年这背后原因其实是数据、算力、算法三个模块的逐渐成熟● “数据”即是我们这几十年所有的生活方式、工作方式等都向数字化转变积累了大量的数据● “算力”即是云计算、GPU等不断迭代和革新为AI提供了有效基础支撑● “算法”即是以Transformer架构为代表的深度学习给大模型提供了无限可能而在这三个模块加持下AI从最初的自然语言处理发展到了多维度物理世界图像、视频、音频等等的处理在具体应用形态上也从最初的内容生成AIGC到辅助办公编码提效、美术生产提效、产研提效等再到各个垂直行业如医疗、教育等的初步探索在这整个发展过程中AI从最初的“规则式AI”发展到“统计式AI”再到今天的“深度学习/大模型AI”如果把AI想象成一个人类他也从最初的小学生成长成了现在的大学生而大部分互联网从业者可能还只是停留在AI的应用阶段上或者看到AI出来立马就想去用但很多时候更需要我们思考的是为什么要用AIAI现在能做什么以及未来能做什么用了AI后可以改变什么如果不用AI会怎么样在未来AI不再是一个工具更是我们重要的“伙伴”。

如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。

但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。

这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。

我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。

那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。

我们整理出这套AI 大模型突围资料包✅ 从零到一的 AI 学习路径图✅ 大模型调优实战手册附医疗/金融等大厂真实案例✅ 百度/阿里专家闭门录播课✅ 大模型当下最新行业报告✅ 真实大厂面试真题✅ 2025 最新岗位需求图谱所有资料 ⚡️ 朋友们如果有需要《AI大模型入门进阶学习资源包》下方扫码获取~① 全套AI大模型应用开发视频教程包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点② 大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。

正确的学习路线可以为你节省时间少走弯路方向不对努力白费。

这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通③ 大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。

④ AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。

⑤ 大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。

⑥ 大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。

在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。

以上资料如何领取为什么大家都在学大模型最近科技巨头英特尔宣布裁员2万人传统岗位不断缩减但AI相关技术岗疯狂扩招有

年经验大厂薪资就能给到50K*20薪不出1年“有AI项目经验”将成为投递简历的门槛。

风口之下与其像“温水煮青蛙”一样坐等被行业淘汰不如先人一步掌握AI大模型原理应用技术项目实操经验“顺风”翻盘这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。

本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。

以上全套大模型资料如何领取

96精品㊙️无码一区二区动漫-96精品㊙️无码一区二区动漫应用

百度百家号客服电话人工服务

123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123