首页速度优化2026年最新：Kimi智能助手下载安装全攻略（详细步骤+常见问题解读）

网站优化

蓝桥杯真题训练（0子2023）

如何在 CANN 推理引擎中实现毫秒级请求取消（Request Cancellation）机制

每日一题：什么是限流？.NET 中如何实现？

2026-06-08 15:02:46

阅读时长:1分钟

562次阅读

核心内容摘要

资源获取效率优化：智能工具如何重构信息获取模式

querys 是2*6*2keys也是2*6*2attn_scoresquerys keys.transpose(1,

attn_scores 最终维度是 2×6×6数值上是两个矩阵的批量矩阵乘法结果每个样本对应一个 6×6 的注意力分数矩阵transpose(1,

交换 keys 的第 1 维和第 2 维keys 原始维度[2, 6, 2] → 交换后[2, 2, 6]第一个位置批维度不变PyTorch 中是批量矩阵乘法规则对于维度为 [B, M, N] 的张量 A 和 [B, N, P] 的张量 BAB 的结果维度是 [B, M, P]B 是批次保持不变M×N 乘 N×P 得到 M×Pimporttorch#

构造querys和keys维度2×6×2用简单数值方便计算querystorch.tensor([# 第0个样本6个token每个token2维[[1,0],[2,1],[0,1],[3,2],[1,1],[0,0]],# 第1个样本6个token每个token2维[[0,1],[1,0],[2,2],[1,2],[0,2],[2,1]]],dtypetorch.float

# shape(2,6,

keystorch.tensor([# 第0个样本的keys和querys结构一致[[1,2],[0,1],[1,0],[2,1],[0,2],[1,1]],# 第1个样本的keys[[2,0],[1,1],[0,2],[2,1],[1,0],[0,2]]],dtypetorch.float

# shape(2,6,

#

执行transpose和矩阵乘法keys_Tkeys.transpose(1,

# shape(2,2,

attn_scoresquerys keys_T# shape(2,6,

#

输出结果print(attn_scores维度,attn_scores.shape)# 输出torch.Size([2, 6, 6])print(\n第0个样本的注意力分数矩阵6×

print(attn_scores[0].numpy())# 每个值是query token和key token的点积输出结果解读attn_scores维度 torch.Size([2, 6, 6])第0个样本的注意力分数矩阵6×6[[

1.

0.

1.

2.

0.

] # 第0个query token对6个key token的分数 [

4.

1.

2.

5.

2.

] # 第1个query token对6个key token的分数 [

2.

1.

0.

1.

2.

] [

7.

2.

3.

8.

4.

] [

3.

1.

3.

2.

] [

0.

]]数值计算验证以第 0 个样本的第 0 个 query token 为例querys[0,0] [1, 0]keys [0,:, :] 6 个 key token 的 2 维向量和第 0 个 key token [1,2] 的点积1×1 0×2 1 → 对应矩阵 [0,0] 位置的 1和第 1 个 key token [0,1] 的点积1×0 0×1 0 → 对应矩阵 [0,1] 位置的 0… …最终得到 6×6 矩阵每个位置的值是「query 的第 i 个 token」和「key 的第 j 个 token」的点积即注意力分数核心意义大模型注意力机制中的关注程度6×6 的矩阵就是注意力分数矩阵含义是每个样本有 6 个 token矩阵中 attn_scores[b, i, j] 代表「第 b 个样本中第 i 个 token 对第 j 个 token 的关注程度」后续会对这个矩阵做dropout、softmax归一化得到和为 1 的注意力权重再和 values 相乘实现 “每个 token 融合其他 token 的信息”维度结论attn_scores 2×6×6batch2每个样本对应 6×6 的注意力分数矩阵计算逻辑批量矩阵乘法[2,6,2][2,2,6] → [2,6,6]数值意义每个元素是 query token 和 key token 的点积代表二者的相似度注意力分数dropout训练过程中随机忽略一些隐藏层单元来有效“丢弃”它们减少模型对特定隐藏层单元的依赖避免过拟合同时dropout仅在训练期间使用nn.Dropout对输入张量的每个元素以概率p默认

5随机设置为0同时将未被设置0的元素乘以 1/(1-p) 进行缩放保证输入的期望均值不变importtorchimporttorch.nnasnn#

定义Dropout层p

5dropoutnn.Dropout(p

0.

#

构造输入张量值全为10方便计算均值xtorch.ones(

*10# 1万个元素每个都是10print(原始输入均值,x.mean().item())# 输出

1

0#

训练模式下执行Dropout默认trainTruetorch.manual_seed(

# 固定随机种子结果可复现x_dropdropout(x)#

计算Dropout后的均值print(Dropout后均值,x_drop.mean().item())# 输出≈

1

0因随机采样略有浮动print(Dropout后非零元素值,x_drop[x_drop!0][0].item())# 输出

2

010×2#

验证模式下evalDropout不生效dropout.eval()x_drop_evaldropout(x)print(验证模式下均值,x_drop_eval.mean().item())# 输出

1

0无任何变化Dropout 是大模型GPT/BERT/LLaMA中防止过拟合的核心手段主要用在这些位置全连接层FeedForward大模型的 FFN 层如 GPT 的 MLP会在激活函数后加 Dropoutp

1~

3注意力层Attention部分模型会在注意力权重计算后加 Dropout防止对个别 token 过度关注嵌入层Embedding少量模型会在词嵌入后加 Dropout降低高频词的过拟合风险大模型中的FFN 层是Feed-Forward Network前馈网络的缩写也常被称作Position-wise Feed-Forward Network逐位置前馈网络是 Transformer 架构GPT/BERT/LLaMA 等大模型的核心骨架中编码器 / 解码器层的核心组件之一和多头注意力层Multi-Head Attention并列成为 Transformer 的两大核心模块

8x8x海外华为免费版最新版本更新内容-8x8x海外华为免费版最新版本更新内容应用

相关标签

4个维度解析text2image：从文字图像转换到多领域应用价值 Ostrakon-VL-8B与YOLOv11协同应用：实时监控餐饮后厨安全与效率开源工具WeMod-Patcher功能解锁技术解析与实战指南一键部署浦语灵笔2.5-7B：视觉问答模型快速上手突破显卡性能瓶颈：NVIDIA Profile Inspector深度优化指南小白救星！降AI率平台千笔·降AI率助手 VS PaperRed MBA专属更高效 DC-1靶机渗透测试全解析：从入门实战到安全攻防思维进阶 Bidili Generator开源镜像解析：为何SDXL 1.0原生适配是关键突破？用VibeThinker-1.5B做教学演示，老师都说好用 905-文件重命名复合工具从入门到精通：Kirki自定义器扩展开发完全手册 Claude Opus 4.6 全面解析：100万token上下文+一步API实战教程（附国内稳定接入方案）智能日志分析：从混沌数据到决策洞察的技术革命 Kylin V10优盘实战：从FAT32到NTFS的兼容性配置与虚拟机挂载

Qwen3-VL-30B电商应用：商品图文匹配系统部署实战

2026-06-08 15:02:46 1分钟阅读

芯片设计中的隐藏角色：揭秘Synopsys工具里那些不起眼却关键的设计对象

2026-06-08 15:02:46 1分钟阅读

如何确保邮件模板跨客户端完美兼容？Transactional-email-templates终极测试指南

彻底修复MetaTube插件FC2影片元数据刮削失效问题的终极解决方案

2026-06-08 15:02:46 8分钟阅读

蓝桥杯真题训练（0子2023）

核心内容摘要

资源获取效率优化：智能工具如何重构信息获取模式

attn_scores 最终维度是 2×6×6数值上是两个矩阵的批量矩阵乘法结果每个样本对应一个 6×6 的注意力分数矩阵transpose(1,

构造querys和keys维度2×6×2用简单数值方便计算querystorch.tensor([# 第0个样本6个token每个token2维[[1,0],[2,1],[0,1],[3,2],[1,1],[0,0]],# 第1个样本6个token每个token2维[[0,1],[1,0],[2,2],[1,2],[0,2],[2,1]]],dtypetorch.float

# shape(2,6,

keystorch.tensor([# 第0个样本的keys和querys结构一致[[1,2],[0,1],[1,0],[2,1],[0,2],[1,1]],# 第1个样本的keys[[2,0],[1,1],[0,2],[2,1],[1,0],[0,2]]],dtypetorch.float

# shape(2,6,

#

执行transpose和矩阵乘法keys_Tkeys.transpose(1,

# shape(2,2,

attn_scoresquerys keys_T# shape(2,6,

#

输出结果print(attn_scores维度,attn_scores.shape)# 输出torch.Size([2, 6, 6])print(\n第0个样本的注意力分数矩阵6×

print(attn_scores[0].numpy())# 每个值是query token和key token的点积输出结果解读attn_scores维度 torch.Size([2, 6, 6])第0个样本的注意力分数矩阵6×6[[

] # 第0个query token对6个key token的分数 [

] # 第1个query token对6个key token的分数 [

] [

] [

] [

5随机设置为0同时将未被设置0的元素乘以 1/(1-p) 进行缩放保证输入的期望均值不变importtorchimporttorch.nnasnn#

定义Dropout层p

5dropoutnn.Dropout(p

#

构造输入张量值全为10方便计算均值xtorch.ones(

*10# 1万个元素每个都是10print(原始输入均值,x.mean().item())# 输出

0#

训练模式下执行Dropout默认trainTruetorch.manual_seed(

# 固定随机种子结果可复现x_dropdropout(x)#

计算Dropout后的均值print(Dropout后均值,x_drop.mean().item())# 输出≈

0因随机采样略有浮动print(Dropout后非零元素值,x_drop[x_drop!0][0].item())# 输出

010×2#

验证模式下evalDropout不生效dropout.eval()x_drop_evaldropout(x)print(验证模式下均值,x_drop_eval.mean().item())# 输出

0无任何变化Dropout 是大模型GPT/BERT/LLaMA中防止过拟合的核心手段主要用在这些位置全连接层FeedForward大模型的 FFN 层如 GPT 的 MLP会在激活函数后加 Dropoutp

1~

8x8x海外华为免费版最新版本更新内容-8x8x海外华为免费版最新版本更新内容应用

📑 文章目录

🔥 热门优化文章

🛠️ 实用工具推荐

百度百家号客服电话人工服务

蓝桥杯真题训练（0子2023）

核心内容摘要

资源获取效率优化：智能工具如何重构信息获取模式

attn_scores 最终维度是 2×6×6数值上是两个矩阵的批量矩阵乘法结果每个样本对应一个 6×6 的注意力分数矩阵transpose(1,

构造querys和keys维度2×6×2用简单数值方便计算querystorch.tensor([# 第0个样本6个token每个token2维[[1,0],[2,1],[0,1],[3,2],[1,1],[0,0]],# 第1个样本6个token每个token2维[[0,1],[1,0],[2,2],[1,2],[0,2],[2,1]]],dtypetorch.float

# shape(2,6,

keystorch.tensor([# 第0个样本的keys和querys结构一致[[1,2],[0,1],[1,0],[2,1],[0,2],[1,1]],# 第1个样本的keys[[2,0],[1,1],[0,2],[2,1],[1,0],[0,2]]],dtypetorch.float

# shape(2,6,

#

执行transpose和矩阵乘法keys_Tkeys.transpose(1,

# shape(2,2,

attn_scoresquerys keys_T# shape(2,6,

#

输出结果print(attn_scores维度,attn_scores.shape)# 输出torch.Size([2, 6, 6])print(\n第0个样本的注意力分数矩阵6×

print(attn_scores[0].numpy())# 每个值是query token和key token的点积输出结果解读attn_scores维度 torch.Size([2, 6, 6])第0个样本的注意力分数矩阵6×6[[

] # 第0个query token对6个key token的分数 [

] # 第1个query token对6个key token的分数 [

] [

] [

] [

5随机设置为0同时将未被设置0的元素乘以 1/(1-p) 进行缩放保证输入的期望均值不变importtorchimporttorch.nnasnn#

定义Dropout层p

5dropoutnn.Dropout(p

#

构造输入张量值全为10方便计算均值xtorch.ones(

*10# 1万个元素每个都是10print(原始输入均值,x.mean().item())# 输出

0#

训练模式下执行Dropout默认trainTruetorch.manual_seed(

# 固定随机种子结果可复现x_dropdropout(x)#

计算Dropout后的均值print(Dropout后均值,x_drop.mean().item())# 输出≈

0因随机采样略有浮动print(Dropout后非零元素值,x_drop[x_drop!0][0].item())# 输出

010×2#

验证模式下evalDropout不生效dropout.eval()x_drop_evaldropout(x)print(验证模式下均值,x_drop_eval.mean().item())# 输出

0无任何变化Dropout 是大模型GPT/BERT/LLaMA中防止过拟合的核心手段主要用在这些位置全连接层FeedForward大模型的 FFN 层如 GPT 的 MLP会在激活函数后加 Dropoutp

1~

8x8x海外华为免费版最新版本更新内容-8x8x海外华为免费版最新版本更新内容应用

📑 文章目录

🔥 热门优化文章

🛠️ 实用工具推荐

相关优化文章 推荐

百度百家号客服电话人工服务

相关优化文章推荐