首页速度优化岁月留声：久草久热，情深意长的时光画卷

网站优化

舌尖上的川渝，一场不容错过的感官盛宴

云缨永强：点亮心中之火，铸就人生闪耀

2026-06-12 06:06:39

阅读时长:4分钟

562次阅读

核心内容摘要

破局：男生和女生在一起，谁“对”谁“错”？一段关系的真相探寻

这项由百川公司Baichuan Inc.联合北京大学第一医院皮肤科、清华大学生物医学工程学院和香港大学共同完成的突破性研究于2026年1月发表在计算机视觉领域顶级会议论文集中论文编号为arXiv:

2

09136v1。

有兴趣深入了解的读者可以通过该编号查询完整论文。

这项研究成果颠覆了人们对AI模型越大越好的传统认知证明了巧妙的设计比单纯的参数堆叠更为重要。

想象你去看皮肤科医生医生需要仔细观察你皮肤上的每一个细节——颜色、形状、纹理、边界等等然后结合这些视觉线索做出准确诊断。

传统的AI模型就像一个注意力不集中的实习医生虽然看了很多资料拥有海量参数但在观察皮肤病变时总是被无关的背景信息分散注意力无法准确识别关键的病理特征。

百川公司的研究团队发现了一个令人震惊的现象那些参数高达数千亿的超大型AI模型在皮肤病诊断任务上的表现竟然还不如他们精心设计的70亿参数小模型。

这就好比一个记忆力超强但不会重点观察的学生反而输给了一个善于抓重点的聪明学生。

这种现象的根本原因在于传统AI模型存在弥散注意力问题——它们无法有效区分关键的病理特征和无关的背景噪音。

更令人惊喜的是研究团队不仅让他们的小模型在Fitzpatrick17k这个权威皮肤病诊断基准测试中创造了新纪录Top-1准确率提升了

1

06%Top-6准确率更是暴涨

2

57%超越了包括GPT-

2在内的所有竞争对手。

这意味着当医生需要从AI推荐的前6个诊断候选中选择时百川的模型能提供更准确、更有价值的诊断建议。

信息传输的艺术将诊断过程重新定义百川研究团队提出了一个全新的视角来理解AI皮肤病诊断将整个过程看作一个信息压缩和解码系统。

这个比喻非常形象——就像我们用压缩软件处理照片一样AI模型需要将皮肤病图像中的海量像素信息压缩成高质量的特征表示然后再将这些特征解码成准确的诊断结果。

在这个信息传输过程中研究团队识别出两种不同类型的视觉信息。

第一种是可描述特征比如红斑的颜色、皮疹的形状、病变的大小等这些都是医生可以用语言清楚描述的临床征象。

第二种是不可描述特征指那些微妙的病理纹理和视觉模式虽然人眼能够感知但很难用准确的语言表达出来。

传统AI模型的问题在于无法有效平衡这两种信息的处理。

它们要么过度依赖可描述的表面特征而忽略了深层的病理模式要么在处理复杂视觉信息时产生信息瓶颈导致关键诊断线索的丢失。

百川团队的解决方案是设计一个两阶段的训练策略分别优化这两种信息的传输效率。

这种信息传输的观点带来了一个重要启示AI模型的诊断能力不仅取决于它记住了多少医学知识参数数量更关键的是它能否高效地从医学图像中提取和传输有价值的视觉信息。

这就解释了为什么百川的70亿参数模型能够击败那些参数量超过200亿的巨型模型——不是因为它知道得更多而是因为它看得更准。

虚拟宽度动态视觉编码器让AI拥有火眼金睛百川研究团队的核心创新是一个叫做虚拟宽度动态视觉编码器DVE的技术。

为了理解这项技术的巧妙之处我们可以用照相机的比喻来解释。

传统的AI视觉系统就像一台固定焦距的老式相机无论拍摄什么场景都使用相同的参数设置。

当这种相机观察皮肤病变时它无法根据不同病变的特点调整自己的拍摄参数因此经常出现重点不突出、背景干扰严重的问题。

而百川团队设计的DVE技术则像一台智能的自动对焦相机能够根据观察对象的不同特点动态调整自己的镜头参数。

当它检测到皮肤上的红斑时会自动优化颜色感知能力当它发现可疑的边界时会增强边缘检测敏感度当它遇到复杂的纹理模式时会调用专门的纹理分析镜头。

这种动态调整能力的实现基于一个叫做FDLinear频率动态线性层的创新技术。

研究团队将传统的静态权重矩阵转换为多个频率域的动态基础矩阵。

简单来说就是将一个万能工具分解为多个专用工具然后根据具体任务的需要动态组合这些专用工具。

这种设计的巧妙之处在于实现了虚拟扩容。

虽然物理参数没有增加多少额外开销不到5%但模型的几何表征能力却获得了指数级的提升。

这就像一个魔术师的工具箱看起来很小但通过巧妙的组合可以变出无数种不同的道具。

为了验证这种虚拟扩容的效果研究团队在经典的非线性可分问题如螺旋线、同心圆等上进行了测试。

结果显示传统的静态层只能实现约50%的准确率基本等同于随机猜测而DVE技术能够完美地解决这些复杂的几何分离问题。

这证明了DVE确实能够展开复杂的视觉流形让原本纠缠在一起的特征变得线性可分。

两阶段强化学习先学描述再学诊断百川团队采用了一个类似医学院学生培养的两阶段训练策略。

就像医学生需要先学会准确描述病理现象再学会综合分析做出诊断一样AI模型也需要分步骤掌握这两种不同的技能。

第一阶段被称为语义对齐与压缩阶段。

在这个阶段模型的任务是学会用标准的医学语言准确描述皮肤病变的各种特征。

研究团队收集了约5000张皮肤病图像并为每张图像制作了结构化的医学描述标签。

这些标签包括颜色、位置、形状、病变类型、数量、大小、质地、边界特征、表面特征、分布特征和周围特征等12个关键维度。

模型在这个阶段的训练目标是将复杂的视觉信息压缩成这些可以用语言表达的医学特征。

这个过程就像训练一个医学生学会用专业术语准确描述看到的症状。

为了确保描述质量研究团队设计了一个基于大语言模型的奖励机制对每个描述维度进行

分的评分只有达到6分以上才被认为是合格的描述。

第二阶段被称为诊断细化与解码阶段。

在掌握了准确描述的基础上模型开始学习将这些显性特征与隐性的病理纹理相结合做出最终的诊断判断。

这个阶段的训练不再使用传统的监督学习方法而是采用强化学习技术。

强化学习的优势在于能够处理医学诊断中的一个重要现实同一种疾病往往有多个不同的医学名称或表达方式。

传统的监督学习需要标签完全匹配才认为是正确答案但强化学习可以通过奖励函数灵活地评估语义等价的不同表达。

这就像考试时不仅认可标准答案也承认其他合理的表达方式。

在诊断阶段的奖励设计中研究团队采用了位置权重策略。

模型需要输出Top-K个最可能的诊断候选如果正确答案出现在第一位获得最高奖励出现在第二位获得稍低奖励以此类推。

这种设计鼓励模型不仅要找到正确答案还要将最可能的答案排在最前面这对临床实践具有重要意义。

注意力机制的华丽转身从全局扫描到精准定位研究团队通过详细的注意力可视化分析揭示了他们的方法如何根本改变AI模型的观察方式。

这种分析就像给AI模型装上了眼球追踪器让我们能够清楚地看到模型在诊断时到底在关注什么。

传统大型语言视觉模型的注意力模式就像一个缺乏经验的医学生面对皮肤病变时目光游移不定既看病变本身也大量关注周围的健康皮肤和背景信息。

在研究团队的可视化结果中这些模型的注意力热力图呈现出明显的弥散特征注意力权重广泛分布在整个图像区域没有明确的重点。

相比之下经过百川团队优化的模型展现出截然不同的注意力模式。

它们的注意力就像经验丰富的皮肤科专家能够精准锁定关键的病理区域对无关背景几乎视而不见。

在注意力热力图中这表现为高度集中的热点精确覆盖皮肤病变区域而周围区域则保持冷静。

更令人印象深刻的是注意力权重分布的统计分析。

研究团队统计了500个测试样本中所有注意力权重的分布情况发现了一个显著的右移现象。

传统模型的注意力权重主要集中在

00到

01的低值区间这意味着模型对大部分区域都只是随便看看没有强烈的关注重点。

而百川团队的模型则表现出完全不同的分布模式低权重区间的频次大幅减少高权重区间大于

06的频次显著增加。

这种分布变化反映了一个质的转变——从不确定的全局扫描转向高置信度的精准诊断推理。

这种注意力模式的改变不仅仅是技术指标的提升更代表了AI诊断思维方式的根本性进步。

传统模型的弥散注意力类似于撒网式观察希望通过覆盖更多信息来弥补判断力的不足。

而优化后的模型则采用聚焦式观察能够迅速识别并专注于最关键的诊断证据。

临床导向的评估体系让AI评估更贴近医疗现实百川研究团队在评估方法上也进行了重要创新提出了一套更符合临床实践的评价标准。

传统的AI评估方法采用严格的标签匹配原则就像考试中的标准答案一样只有完全一致才算正确任何偏差都被视为错误。

但这种评估方式在医学领域存在明显缺陷。

在真实的医疗环境中疾病诊断往往具有层次性和相关性。

比如如果正确诊断是特应性皮炎而AI模型给出湿疹的诊断从传统评估角度这是错误答案但从临床角度这是完全可以接受的因为特应性皮炎本身就是湿疹的一种亚型在治疗方向上是一致的。

研究团队设计的新评估体系考虑了疾病的分层结构和临床意义。

正确的诊断不仅包括完全匹配的情况还包括医学上等价的同义词、缩写形式以及临床上有效的子类或父类诊断。

这就像考试评分时不仅认可标准答案也承认其他医学上正确的表达方式。

这套评估体系特别重视诊断安全性。

如果AI模型的预测跨越了关键的临床边界——比如将恶性肿瘤误诊为良性病变或将传染性疾病误判为非传染性疾病——这种错误会被严格惩罚体现了医学首先不伤害的基本原则。

通过这种更加贴近临床实践的评估方法百川团队证明了他们的模型不仅在技术指标上表现优异更重要的是在临床实用性方面具有显著优势。

这种评估思路的创新为医疗AI的发展提供了新的标准和方向。

实验结果小模型的大胜利百川团队在两个重要数据集上进行了全面的性能测试结果令人震撼。

第一个是公开的Fitzpatrick17k数据集这是皮肤病AI诊断领域的权威测试基准包含了广泛的皮肤病类型。

第二个是他们自建的专家验证数据集由三甲医院具有五年以上临床经验的皮肤科医生独立审核和标注。

在Fitzpatrick17k数据集上百川的70亿参数模型取得了

2

19%的Top-1准确率相比最强的对比模型GPT-

2提升了

1

95%相比参数量达2350亿的Qwen3VL模型提升了

1

06%。

更令人印象深刻的是Top-6准确率的表现达到了

7

16%比Qwen3VL模型高出

2

57%。

这意味着在临床最常用的候选诊断列表中百川模型能提供更加准确和有价值的建议。

在专家验证的内部数据集上百川模型同样表现出色。

虽然GPT-

2在Top-1准确率上略有优势

3

11% vs

3

63%但百川模型在Top-2到Top-6的所有指标上都显著超越了GPT-

2。

特别是Top-6准确率达到了

7

21%远超GPT-

2的

6

81%和Qwen3VL的

6

00%。

这种性能差异的意义远超数字本身。

在真实的临床场景中医生很少会只依据AI的第一个诊断建议做决定更多时候会参考AI提供的多个候选诊断进行综合判断。

百川模型在Top-2到Top-6指标上的全面领先意味着它能为医生提供更全面、更可靠的诊断参考这对减少误诊和漏诊具有重要价值。

值得注意的是百川模型的参数效率极高。

它用仅仅70亿个参数就击败了那些参数量超过200亿甚至2000多亿的巨型模型这充分证明了精巧设计胜过暴力堆叠的技术理念。

这种高效性不仅降低了计算成本也为模型在实际医疗环境中的部署创造了更好的条件。

技术细节的精妙之处百川团队在技术实现上的每一个细节都体现了深思熟虑的设计。

他们选择Qwen

5-VL-Instruct-7B作为基础模型这本身就是一个经过大规模预训练的优秀多模态模型。

在此基础上他们在视觉Transformer的第8层、第16层、第24层和第32层的多层感知机中用FDLinear算子替换了传统的静态线性层。

FDLinear算子的设计巧妙地平衡了性能提升和计算成本。

研究团队将频谱基的数量设定为输入维度的一半这样既能提供足够的表征能力又避免了过度的参数膨胀。

整个动态视觉编码器的额外参数开销控制在原始视觉编码器的5%以内这种高效性为技术的实际应用奠定了基础。

在训练策略上两个阶段使用了不同的学习率设置。

第一阶段采用1×10??的学习率进行医学描述学习使用余弦预热策略确保训练稳定。

第二阶段从第一阶段的检查点继续训练使用更小的学习率5×10??进行强化学习优化。

这种渐进式的训练策略确保了模型能够逐步掌握从描述到诊断的复杂映射关系。

整个强化学习流程基于VERL框架实现采用GRPO群组相对政策优化算法。

这种算法的优势在于不需要单独的评价网络通过在候选输出组内进行相对比较来稳定训练过程。

这种设计既提高了训练效率又保证了优化过程的稳定性。

局限性与未来展望百川团队在论文中坦诚地讨论了他们研究的局限性这种学术诚实值得赞赏。

首先他们承认模型可解释性方面还有待进一步改进。

在第二阶段训练后模型倾向于生成更简洁的诊断说明这虽然提高了效率但可能影响医生理解模型的推理过程。

未来他们计划与皮肤科医生合作设计更系统的可解释性评估指标。

其次研究中使用的图像主要是在相对简单的背景条件下拍摄的这可能限制了模型在复杂真实环境中的表现。

在实际的医疗场景中患者可能在各种光照条件、背景环境下拍摄皮肤照片模型需要具备更强的环境适应能力。

研究团队表示将扩展数据集包含更多样化的拍摄环境以提高模型的鲁棒性和泛化能力。

尽管存在这些局限性这项研究为医疗AI领域开辟了新的技术路径。

它证明了通过优化信息传输效率和几何表征能力小参数模型能够在专业医疗任务上超越大参数通用模型。

这种专精胜过泛化的理念不仅在皮肤科诊断中得到验证也可能为其他视觉密集型医疗专科如病理学、放射学的AI应用提供借鉴。

研究团队表示他们正在探索将这种压缩-解码框架推广到更多医学影像诊断任务中。

未来可能会看到基于类似原理的AI系统在肺部CT诊断、眼底疾病筛查、皮肤镜检查等领域发挥作用为更多患者提供准确、及时的诊断辅助。

说到底百川公司的这项研究告诉我们一个重要道理在AI发展的道路上智慧的设计往往比蛮力的堆叠更有效。

他们用70亿参数的小模型击败了2350亿参数的巨无霸不是因为奇迹而是因为他们找到了问题的本质——如何让AI真正看懂医学影像中的关键信息。

这种突破不仅推动了皮肤病AI诊断技术的发展更为整个医疗AI领域提供了新的思路和方向。

对于普通人来说这项研究意味着什么呢它意味着未来我们可能拥有更准确、更高效、成本更低的AI医疗助手。

当你怀疑皮肤上的某个变化可能有问题时只需要拍一张照片就能获得专业水平的初步诊断建议。

更重要的是这种技术的高效性使得它有望在基层医疗机构和偏远地区得到普及让更多人能够享受到高质量的医疗服务。

这不是遥不可及的科幻场景而是正在变为现实的技术进步。

QAQ1百川公司的SkinFlow模型为什么只用70亿参数就能击败2350亿参数的大模型A关键在于百川团队重新定义了问题本质。

他们发现皮肤病诊断的关键不在于记住更多知识参数数量而在于能否高效提取和传输关键视觉信息。

他们的虚拟宽度动态视觉编码器能根据不同病变特点动态调整观察参数就像智能相机能自动对焦一样实现了从不确定的全局扫描到高置信度精准诊断的转变。

Q2两阶段强化学习训练是如何工作的A类似医学生的培养过程先学描述再学诊断。

第一阶段让模型学会用标准医学语言准确描述皮肤病变的颜色、形状、位置等12个关键特征相当于压缩显性信息。

第二阶段在此基础上学习结合隐性病理纹理做出诊断判断采用强化学习处理医学术语的多样性表达比传统监督学习更灵活。

Q3这项技术什么时候能在实际医疗中使用A从技术成熟度看已经具备应用基础模型在权威测试中表现优异参数效率高便于部署。

但研究团队提到还需要改进模型可解释性并扩展训练数据以适应更复杂的拍摄环境。

预计经过进一步优化后这种技术有望在基层医疗机构和远程医疗场景中率先应用为皮肤病初步筛查提供辅助。

舌尖上的川渝，一场不容错过的感官盛宴

核心内容摘要

破局：男生和女生在一起，谁“对”谁“错”？一段关系的真相探寻

09136v1。

06%Top-6准确率更是暴涨

57%超越了包括GPT-

2在内的所有竞争对手。

信息传输的艺术将诊断过程重新定义百川研究团队提出了一个全新的视角来理解AI皮肤病诊断将整个过程看作一个信息压缩和解码系统。

虚拟宽度动态视觉编码器让AI拥有火眼金睛百川研究团队的核心创新是一个叫做虚拟宽度动态视觉编码器DVE的技术。

两阶段强化学习先学描述再学诊断百川团队采用了一个类似医学院学生培养的两阶段训练策略。

分的评分只有达到6分以上才被认为是合格的描述。

注意力机制的华丽转身从全局扫描到精准定位研究团队通过详细的注意力可视化分析揭示了他们的方法如何根本改变AI模型的观察方式。

00到

01的低值区间这意味着模型对大部分区域都只是随便看看没有强烈的关注重点。

06的频次显著增加。

临床导向的评估体系让AI评估更贴近医疗现实百川研究团队在评估方法上也进行了重要创新提出了一套更符合临床实践的评价标准。

实验结果小模型的大胜利百川团队在两个重要数据集上进行了全面的性能测试结果令人震撼。

19%的Top-1准确率相比最强的对比模型GPT-

2提升了

95%相比参数量达2350亿的Qwen3VL模型提升了

06%。

16%比Qwen3VL模型高出

57%。

2在Top-1准确率上略有优势

11% vs

63%但百川模型在Top-2到Top-6的所有指标上都显著超越了GPT-

2。

21%远超GPT-

2的

81%和Qwen3VL的

00%。

技术细节的精妙之处百川团队在技术实现上的每一个细节都体现了深思熟虑的设计。

5-VL-Instruct-7B作为基础模型这本身就是一个经过大规模预训练的优秀多模态模型。

局限性与未来展望百川团队在论文中坦诚地讨论了他们研究的局限性这种学术诚实值得赞赏。

4480影院在线观看免费播放电视剧-4480影院在线观看免费播放电视剧应用

📑 文章目录

🔥 热门优化文章

🛠️ 实用工具推荐

百度百家号客服电话人工服务

舌尖上的川渝，一场不容错过的感官盛宴

核心内容摘要

破局：男生和女生在一起，谁“对”谁“错”？一段关系的真相探寻

09136v1。

06%Top-6准确率更是暴涨

57%超越了包括GPT-

2在内的所有竞争对手。

信息传输的艺术将诊断过程重新定义百川研究团队提出了一个全新的视角来理解AI皮肤病诊断将整个过程看作一个信息压缩和解码系统。

虚拟宽度动态视觉编码器让AI拥有火眼金睛百川研究团队的核心创新是一个叫做虚拟宽度动态视觉编码器DVE的技术。

两阶段强化学习先学描述再学诊断百川团队采用了一个类似医学院学生培养的两阶段训练策略。

分的评分只有达到6分以上才被认为是合格的描述。

注意力机制的华丽转身从全局扫描到精准定位研究团队通过详细的注意力可视化分析揭示了他们的方法如何根本改变AI模型的观察方式。

00到

01的低值区间这意味着模型对大部分区域都只是随便看看没有强烈的关注重点。

06的频次显著增加。

临床导向的评估体系让AI评估更贴近医疗现实百川研究团队在评估方法上也进行了重要创新提出了一套更符合临床实践的评价标准。

实验结果小模型的大胜利百川团队在两个重要数据集上进行了全面的性能测试结果令人震撼。

19%的Top-1准确率相比最强的对比模型GPT-

2提升了

95%相比参数量达2350亿的Qwen3VL模型提升了

06%。

16%比Qwen3VL模型高出

57%。

2在Top-1准确率上略有优势

11% vs

63%但百川模型在Top-2到Top-6的所有指标上都显著超越了GPT-

2。

21%远超GPT-

2的

81%和Qwen3VL的

00%。

技术细节的精妙之处百川团队在技术实现上的每一个细节都体现了深思熟虑的设计。

5-VL-Instruct-7B作为基础模型这本身就是一个经过大规模预训练的优秀多模态模型。

局限性与未来展望百川团队在论文中坦诚地讨论了他们研究的局限性这种学术诚实值得赞赏。

4480影院在线观看免费播放电视剧-4480影院在线观看免费播放电视剧应用

📑 文章目录

🔥 热门优化文章

🛠️ 实用工具推荐

相关优化文章 推荐

百度百家号客服电话人工服务

相关优化文章推荐