首页速度优化散华礼与弥漫的秘密：于繁花落尽处，寻回灵魂的幽香

网站优化

那些照片背后的秘密：当“她”选择隐瞒，你看到了真实的她吗？

炮兵社区一二三

2026-06-08 16:50:50

阅读时长:7分钟

562次阅读

核心内容摘要

纲手179902与152379：当传奇跨越时空，见证不朽的羁绊

本文详细拆解Transformer模型的结构演进与核心分类涵盖GPT、BERT等主流模型的区别与应用场景深入探讨LLM大语言模型在自然语言处理、机器视觉、软件交互三大领域的核心优势与现实局限拆解视频处理的技术难点及世界模型的核心概念最后详解AI Agent与MCP协议的作用重点强调LLM对计算机交互方式的革命性变革帮小白程序员快速搭建大模型知识框架是入门大模型的必备学习指南。

Transformer模型

1 起源与发展2017 年 Google 在《Attention Is All You Need》中提出了 Transformer 结构用于序列标注在翻译任务上超过了之前最优秀的循环神经网络模型与此同时Fast AI 在《Universal Language Model Fine-tuning for Text Classification》中提出了一种名为 ULMFiT 的迁移学习方法将在大规模数据上预训练好的 LSTM 模型迁移用于文本分类只用很少的标注数据就达到了最佳性能。

这些具有开创性的工作促成了两个著名 Transformer 模型的出现GPT (the Generative Pretrained Transformer)BERT (Bidirectional Encoder Representations from Transformers)。

通过将 Transformer 结构与无监督学习相结合我们不再需要对每一个任务都从头开始训练模型并且几乎在所有 NLP 任务上都远远超过先前的最强基准。

GPT 和 BERT 被提出之后NLP 领域出现了越来越多基于 Transformer 结构的模型其中比较有名有虽然新的 Transformer 模型层出不穷它们采用不同的预训练目标在不同的数据集上进行训练但是依然可以按模型结构将它们大致分为三类纯 Encoder 模型例如 BERT又称自编码 (auto-encoding) Transformer 模型纯 Decoder 模型例如 GPT又称自回归 (auto-regressive) Transformer 模型Encoder-Decoder 模型例如 BART、T5又称 Seq2Seq (sequence-to-sequence) Transformer 模型。

Transformer 模型本质上都是预训练语言模型大都采用自监督学习 (Self-supervised learning) 的方式在大量生语料上进行训练也就是说训练这些 Transformer 模型完全不需要人工标注数据。

2 Transformer 的结构标准的 Transformer 模型主要由两个模块构成Encoder左边负责理解输入文本为每个输入构造对应的语义表示语义特征Decoder右边负责生成输出使用 Encoder 输出的语义表示结合其他输入来生成目标序列。

这两个模块可以根据任务的需求而单独使用纯 Encoder 模型适用于只需要理解输入语义的任务例如句子分类、命名实体识别纯 Decoder 模型适用于生成式任务例如文本生成Encoder-Decoder 模型或 Seq2Seq 模型适用于需要基于输入的生成式任务例如翻译、摘要。

原始的 Transformer 模型结构如下图所示Encoder 在左Decoder 在右

3 Transformer 家族虽然新的 Transformer 模型层出不穷但是它们依然可以被归纳到以下三种结构中

4 Transformers 库Transformers 库将目前的 NLP 任务归纳为几下几类文本分类例如情感分析、句子对关系判断等对文本中的词语进行分类例如词性标注 (POS)、命名实体识别 (NER) 等文本生成例如填充预设的模板 (prompt)、预测文本中被遮掩掉 (masked) 的词语从文本中抽取答案例如根据给定的问题从一段文本中抽取出对应的答案根据输入文本生成新的句子例如文本翻译、自动摘要等。

Transformers 库最基础的对象就是pipeline()函数它封装了预训练模型和对应的前处理和后处理环节。

我们只需输入文本就能得到预期的答案。

目前常用的 pipelines 有feature-extraction获得文本的向量化表示fill-mask填充被遮盖的词、片段ner命名实体识别question-answering自动问答sentiment-analysis情感分析summarization自动摘要text-generation文本生成translation机器翻译zero-shot-classification零训练样本分类

语音模型

1 语音转文本Speech2TextSpeech2Text 模型由 Changhan Wang、Yun Tang、Xutai Ma、Anne Wu、Dmytro Okhonko、Juan Pino 在 fairseq S2T使用 fairseq 进行快速语音到文本建模中提出。

它是一个基于 Transformer 的 seq2seq编码器-解码器模型专为端到端自动语音识别ASR和语音翻译ST设计。

它使用一个卷积下采样器将语音输入的长度减少 3/4然后将其送入编码器。

该模型通过标准自回归交叉熵损失进行训练并自回归地生成文本/翻译。

视频处理

1 什么是视频处理在计算机视觉CV和人工智能AI的研究领域视频处理涉及自动分析视频数据以理解和解释时间与空间特征。

视频数据是随时间变化的图像序列其中的信息在空间和时间上都已数字化。

这使我们能够对视频中每一帧的内容进行详细的分析和操作。

得益于深度学习DL和人工智能的飞速发展视频处理在当今技术驱动的世界中变得越来越重要。

传统上深度学习研究主要集中在图像、语音和文本上但视频数据由于其庞大的规模和复杂性为研究提供了独特而宝贵的机会。

YouTube等平台上每天上传数百万视频使得视频数据成为一个丰富的资源推动了人工智能研究并促成了突破性的应用。

2 视频处理的应用监控系统视频处理在公共安全、犯罪预防和交通监控中扮演着关键角色。

它能够自动检测可疑活动帮助识别个人并提高监控系统的效率。

自动驾驶在自动驾驶领域视频处理对于导航、障碍物检测和决策过程至关重要。

它使自动驾驶汽车能够理解周围环境识别路标并对不断变化的环境做出反应从而确保安全高效的运输。

医疗保健视频处理在医疗保健领域具有重要应用包括医学诊断、手术和患者监测。

它有助于分析医学图像在外科手术过程中提供实时反馈并持续监测患者以检测任何异常或紧急情况。

3 视频处理中的挑战计算需求实时视频分析需要大量的处理能力这在开发和部署高效视频处理系统时构成了重大挑战。

高性能计算资源对于满足这些需求至关重要。

存储要求高分辨率视频会产生大量数据导致存储挑战。

高效的数据压缩和管理技术对于处理海量视频数据是必需的。

隐私和伦理问题视频处理尤其是在监控和医疗保健领域涉及处理敏感信息。

确保隐私和解决与视频数据滥用相关的伦理问题是必须仔细管理的CROCIAL考虑因素。

4 视频处理任务视频处理是人工智能和计算机视觉中一个动态且至关重要的领域它提供了众多应用并带来了独特的挑战。

随着深度学习的进步和视频数据可用性的增加其在现代技术中的重要性持续增长。

在接下来的部分中我们将更深入地探讨深度学习在视频处理中的应用。

你将探索最先进的模型包括3D CNNs和Transformer。

此外我们将涵盖各种任务如对象跟踪、动作识别、视频稳定、字幕生成、摘要和背景减除。

这些主题将使你全面了解深度学习模型如何应用于不同的视频处理挑战和应用程序。

5 视频 Vision Transformer (ViViT)摘自论文的摘要如下我们提出了纯 Transformer 视频分类模型借鉴了此类模型在图像分类中的最新成功经验。

我们的模型从输入视频中提取时空标记然后通过一系列 Transformer 层进行编码。

为了处理视频中遇到的长序列标记我们提出了几种高效的模型变体它们分解了输入的空间和时间维度。

尽管基于 Transformer 的模型只有在可用大量训练数据集时才有效但我们展示了如何在训练过程中有效正则化模型并利用预训练图像模型从而能够在相对较小的数据集上进行训练。

我们进行了彻底的消融研究并在 Kinetics 400 和

Epic Kitchens、Something-Something v2 和 Moments in Time 等多个视频分类基准测试中取得了最先进的结果超越了基于深度 3D 卷积网络的现有方法。

为了促进进一步研究我们在 https://github.com/google-research/scenic 发布了代码。

LLM大语言模型的短板

1 大语言模型除了优化模型结构研究者发现扩大模型规模也可以提高性能。

在保持模型结构以及预训练任务基本不变的情况下仅仅通过扩大模型规模就可以显著增强模型能力尤其当规模达到一定程度时模型甚至展现出了能够解决未见过复杂问题的涌现Emergent Abilities能力。

例如 175B 规模的 GPT-3 模型只需要在输入中给出几个示例就能通过上下文学习In-context Learning完成各种小样本Few-Shot任务而这是

5B 规模的 GPT-2 模型无法做到的。

近年来发布的一些大语言模型10B 规模以上在规模扩展定律Scaling Laws被证明对语言模型有效之后研究者基于 Transformer 结构不断加深模型深度构建出了许多大语言模型如图所示。

一个标志性的事件是 2022 年 11 月 30 日 OpenAI 公司发布了面向普通消费者的 ChatGPT 模型Chat Generative Pre-trained Transformer它能够记住先前的聊天内容真正像人类一样交流甚至能撰写诗歌、论文、文案、代码等。

发布后ChatGPT 模型引起了巨大轰动上线短短 5 天注册用户数就超过 100 万。

2023 年一月末ChatGPT 活跃用户数量已经突破 1 亿成为史上增长最快的消费者应用。

2 为什么视频模型没有相同的效果语音与文字都属于自然语言的的范畴都符合统计学原理并遵循一定的概率分布。

通过学习这个概率分布计算机就算没有理解文字或音频的含义但是还是可以精准地预测下一个词是什么。

但是视频的处理要比语音和文字复杂的多虽然深度学习可以精确的标记出画面的哪些区域是花草树木行人道路等等但是它因为不了解物理世界的运行逻辑无法真正理解画面的含义所以AI生成的视频会有众多的瑕疵比如手臂会穿越身体人会漂浮在草丛中等等。

世界本身是不可预测的模型却试图填补每一块缺失的信息。

3 世界模型强化学习之父Richard Sutton老爷子加入了Yann LeCun行列认为当前的LLM路线行不通不可能通向AGI图灵奖获得者Richard Sutton强化学习之父最新采访认为当前热门的大语言模型是一条死胡同。

他的核心观点是LLMs 的架构从根本上缺乏从实际互动on-the-job中持续学习的能力。

无论我们如何扩大其规模它们本质上仍然是在模仿人类数据而不是通过与世界直接互动来理解世界并实现目标Sutton 预言未来将出现一种新的 AI 架构它能够像人类和所有动物一样在与环境的持续互动中实时学习无需经历独立的“训练阶段”。

这种基于经验的、持续学习的新范式一旦实现将使我们当前依赖大规模静态数据集训练 LLMs 的方法变得过时权力向更高级智能形式的转移是必然趋势。

世界模型与传统AI范式如监督学习、强化学习的根本区别在于其从被动响应到主动预测的转变。

传统的监督学习模型其核心任务是学习一个从输入到输出的映射函数例如图像分类或语音识别。

这些模型在处理一个输入时并不会考虑这个输入在时间序列上的前后关系也不会预测未来的状态。

它们只是根据训练数据中学到的模式对当前的输入做出一个判断。

而世界模型则不同它关注的是时间序列上的动态变化致力于理解“世界为什么会这样变化”。

AI Agent

1 人类与AI协同的三种模式

2 MCP协议MCP 可以看作是 AI 应用程序的 “USB-C端口”。

就像 USB-C 为连接设备与各种外设提供了标准化方式MCP为 AI 模型连接不同数据源和工具提供了标准化方法。

通俗来讲MCP让AI不再局限于“聊天“而是长出“手”和“脚”真正具备动手查询汇报执行等能力。

彻底改变人与软件的交互方式不用学习应用软件的复杂操作一个简单的指令就可以让计算机完成指定的工作。

6、

总结经过上述知识我们可以了解到LLM大语言模型在以下方面可以达到甚至超越人类

自然语言处理大模型在文本分类词性标注命名实体识别文本生成抽取答案文本翻译、自动摘要等文本或语音处理或文本或语音生成任务具有卓越表现例如聊天数学代码文档分析风险评估报告生成等等

机器视觉如物体识别对象跟踪、动作识别、图像分析视频稳定、字幕生成、摘要和背景减除等视频或图片处理有超越人类的表现但是在视频生成有明显的瑕疵。

软件交互使用自然语言去操作软件无需复杂操作。

如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。

但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。

这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。

我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。

那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。

我们整理出这套AI 大模型突围资料包✅ 从零到一的 AI 学习路径图✅ 大模型调优实战手册附医疗/金融等大厂真实案例✅ 百度/阿里专家闭门录播课✅ 大模型当下最新行业报告✅ 真实大厂面试真题✅ 2025 最新岗位需求图谱所有资料 ⚡️ 朋友们如果有需要《AI大模型入门进阶学习资源包》下方扫码获取~① 全套AI大模型应用开发视频教程包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点② 大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。

正确的学习路线可以为你节省时间少走弯路方向不对努力白费。

这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通③ 大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。

④ AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。

⑤ 大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。

⑥ 大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。

在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。

以上资料如何领取为什么大家都在学大模型最近科技巨头英特尔宣布裁员2万人传统岗位不断缩减但AI相关技术岗疯狂扩招有

年经验大厂薪资就能给到50K*20薪不出1年“有AI项目经验”将成为投递简历的门槛。

风口之下与其像“温水煮青蛙”一样坐等被行业淘汰不如先人一步掌握AI大模型原理应用技术项目实操经验“顺风”翻盘这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。

本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。

以上全套大模型资料如何领取

那些照片背后的秘密：当“她”选择隐瞒，你看到了真实的她吗？

核心内容摘要

纲手179902与152379：当传奇跨越时空，见证不朽的羁绊

Transformer模型

2 Transformer 的结构标准的 Transformer 模型主要由两个模块构成Encoder左边负责理解输入文本为每个输入构造对应的语义表示语义特征Decoder右边负责生成输出使用 Encoder 输出的语义表示结合其他输入来生成目标序列。

3 Transformer 家族虽然新的 Transformer 模型层出不穷但是它们依然可以被归纳到以下三种结构中

语音模型

1 语音转文本Speech2TextSpeech2Text 模型由 Changhan Wang、Yun Tang、Xutai Ma、Anne Wu、Dmytro Okhonko、Juan Pino 在 fairseq S2T使用 fairseq 进行快速语音到文本建模中提出。

视频处理

1 什么是视频处理在计算机视觉CV和人工智能AI的研究领域视频处理涉及自动分析视频数据以理解和解释时间与空间特征。

2 视频处理的应用监控系统视频处理在公共安全、犯罪预防和交通监控中扮演着关键角色。

3 视频处理中的挑战计算需求实时视频分析需要大量的处理能力这在开发和部署高效视频处理系统时构成了重大挑战。

4 视频处理任务视频处理是人工智能和计算机视觉中一个动态且至关重要的领域它提供了众多应用并带来了独特的挑战。

5 视频 Vision Transformer (ViViT)摘自论文的摘要如下我们提出了纯 Transformer 视频分类模型借鉴了此类模型在图像分类中的最新成功经验。

Epic Kitchens、Something-Something v2 和 Moments in Time 等多个视频分类基准测试中取得了最先进的结果超越了基于深度 3D 卷积网络的现有方法。

LLM大语言模型的短板

1 大语言模型除了优化模型结构研究者发现扩大模型规模也可以提高性能。

5B 规模的 GPT-2 模型无法做到的。

2 为什么视频模型没有相同的效果语音与文字都属于自然语言的的范畴都符合统计学原理并遵循一定的概率分布。

3 世界模型强化学习之父Richard Sutton老爷子加入了Yann LeCun行列认为当前的LLM路线行不通不可能通向AGI图灵奖获得者Richard Sutton强化学习之父最新采访认为当前热门的大语言模型是一条死胡同。

AI Agent

1 人类与AI协同的三种模式

2 MCP协议MCP 可以看作是 AI 应用程序的 “USB-C端口”。

总结经过上述知识我们可以了解到LLM大语言模型在以下方面可以达到甚至超越人类

自然语言处理大模型在文本分类词性标注命名实体识别文本生成抽取答案文本翻译、自动摘要等文本或语音处理或文本或语音生成任务具有卓越表现例如聊天数学代码文档分析风险评估报告生成等等

机器视觉如物体识别对象跟踪、动作识别、图像分析视频稳定、字幕生成、摘要和背景减除等视频或图片处理有超越人类的表现但是在视频生成有明显的瑕疵。

软件交互使用自然语言去操作软件无需复杂操作。

年经验大厂薪资就能给到50K*20薪不出1年“有AI项目经验”将成为投递简历的门槛。

三叶草Clover动画片免费观看-三叶草Clover动画片免费观看应用

📑 文章目录

🔥 热门优化文章

🛠️ 实用工具推荐

百度百家号客服电话人工服务

那些照片背后的秘密：当“她”选择隐瞒，你看到了真实的她吗？

核心内容摘要

纲手179902与152379：当传奇跨越时空，见证不朽的羁绊

Transformer模型

2 Transformer 的结构标准的 Transformer 模型主要由两个模块构成Encoder左边负责理解输入文本为每个输入构造对应的语义表示语义特征Decoder右边负责生成输出使用 Encoder 输出的语义表示结合其他输入来生成目标序列。

3 Transformer 家族虽然新的 Transformer 模型层出不穷但是它们依然可以被归纳到以下三种结构中

语音模型

1 语音转文本Speech2TextSpeech2Text 模型由 Changhan Wang、Yun Tang、Xutai Ma、Anne Wu、Dmytro Okhonko、Juan Pino 在 fairseq S2T使用 fairseq 进行快速语音到文本建模 中提出。

视频处理

1 什么是视频处理在计算机视觉CV和人工智能AI的研究领域视频处理涉及自动分析视频数据以理解和解释时间与空间特征。

2 视频处理的应用监控系统 视频处理在公共安全、犯罪预防和交通监控中扮演着关键角色。

3 视频处理中的挑战计算需求 实时视频分析需要大量的处理能力这在开发和部署高效视频处理系统时构成了重大挑战。

4 视频处理任务视频处理是人工智能和计算机视觉中一个动态且至关重要的领域它提供了众多应用并带来了独特的挑战。

5 视频 Vision Transformer (ViViT)摘自论文的摘要如下我们提出了纯 Transformer 视频分类模型借鉴了此类模型在图像分类中的最新成功经验。

Epic Kitchens、Something-Something v2 和 Moments in Time 等多个视频分类基准测试中取得了最先进的结果超越了基于深度 3D 卷积网络的现有方法。

LLM大语言模型的短板

1 大语言模型除了优化模型结构研究者发现扩大模型规模也可以提高性能。

5B 规模的 GPT-2 模型无法做到的。

2 为什么视频模型没有相同的效果语音与文字都属于自然语言的的范畴都符合统计学原理并遵循一定的概率分布。

3 世界模型强化学习之父Richard Sutton老爷子加入了Yann LeCun行列认为当前的LLM路线行不通不可能通向AGI图灵奖获得者Richard Sutton强化学习之父最新采访认为当前热门的大语言模型是一条死胡同。

AI Agent

1 人类与AI协同的三种模式

2 MCP协议MCP 可以看作是 AI 应用程序的 “USB-C端口”。

总结经过上述知识我们可以了解到LLM大语言模型在以下方面可以达到甚至超越人类

自然语言处理大模型在文本分类词性标注命名实体识别文本生成抽取答案文本翻译、自动摘要等文本或语音处理或文本或语音生成任务具有卓越表现例如聊天数学代码文档分析风险评估报告生成等等

机器视觉如物体识别对象跟踪、动作识别、图像分析视频稳定、字幕生成、摘要和背景减除等视频或图片处理有超越人类的表现但是在视频生成有明显的瑕疵。

软件交互使用自然语言去操作软件无需复杂操作。

年经验大厂薪资就能给到50K*20薪不出1年“有AI项目经验”将成为投递简历的门槛。

三叶草Clover动画片免费观看-三叶草Clover动画片免费观看应用

📑 文章目录

🔥 热门优化文章

🛠️ 实用工具推荐

相关优化文章 推荐

百度百家号客服电话人工服务

1 语音转文本Speech2TextSpeech2Text 模型由 Changhan Wang、Yun Tang、Xutai Ma、Anne Wu、Dmytro Okhonko、Juan Pino 在 fairseq S2T使用 fairseq 进行快速语音到文本建模中提出。

2 视频处理的应用监控系统视频处理在公共安全、犯罪预防和交通监控中扮演着关键角色。

3 视频处理中的挑战计算需求实时视频分析需要大量的处理能力这在开发和部署高效视频处理系统时构成了重大挑战。

相关优化文章推荐