Qwen3-Reranker-0.6B保姆级教程:CI/CD流水线中自动化模型更新与服务滚动发布

核心内容摘要

指纹浏览器的 “反风控” 密码:从内核定制到场景落地
EVA-01保姆级教程:Qwen2.5-VL-7B视觉token序列长度优化与EVA-01长图截断策略

微服务架构:Python 开发者的实践指南

这项由无穷实验室Shanda Group与南洋理工大学联合开展的研究于2025年发表研究团队开发了一套名为DeepResearchEval的自动化评测框架。

有兴趣深入了解的读者可以通过arXiv:

2

09688v1查询完整论文。

在我们生活的这个信息时代AI助手已经能帮我们做很多事情了——写邮件、翻译文档、回答问题。

但是现在AI又学会了一个新本领写研究报告。

就像一个超级助手它能在网上搜索大量资料分析各种信息然后写出一份详细的研究报告。

听起来很厉害对吧不过这里有个问题。

当AI写出一份几万字的研究报告时我们怎么知道这份报告质量如何呢是否准确可靠是否遗漏了重要信息这就像你请了一个新厨师做了一桌菜但你怎么判断这些菜做得好不好呢传统的方法就像请一群美食专家来品尝每一道菜然后给出评价。

但这样做有几个明显的问题首先请专家很贵而且很费时间其次每个专家的口味不同评判标准也不一样最后如果菜里有些食材专家没尝出来或者有些调料的真假难辨专家也可能判断不准。

研究团队意识到现有的AI研究报告评测方法存在三个主要困难。

第一个困难就像餐厅只能依靠少数几个固定的美食评论家来评判所有菜品一样成本高昂且效率低下。

第二个困难好比用同一套标准去评判川菜和粤菜显然不够合理因为不同类型的研究报告应该有不同的评判标准。

第三个困难则像是评论家只关注菜品的摆盘和味道却忽略了食材是否新鲜、是否安全同样现有方法只检查报告中有引用来源的内容是否正确却忽略了那些没有标注来源的事实陈述。

为了解决这些问题研究团队开发了一套全新的自动化评测系统DeepResearchEval。

这套系统就像是为餐厅配备了一个超级智能的品鉴机器人它不仅能自动生成各种类型的菜品研究任务还能针对每道菜的特点制定专门的评判标准甚至能自己去验证食材的真假。

智能任务生成器会出题的AI老师传统的研究报告评测就像学校考试老师需要花费大量时间来出题而且题目往往比较固定。

研究团队设计的第一个创新就是开发了一个会自动出题的AI系统。

这个系统的工作原理很有趣。

首先它会创造出各种各样的人物角色就像编剧为电影设计角色一样。

比如说系统可能会创造一个在大型制药公司工作的政策分析师这个分析师需要了解最新的药品监管政策变化或者创造一个专门研究清洁能源的工程师他需要分析不同国家的太阳能发电技术发展趋势。

系统总共设计了十个不同的研究领域包括交通运输、政治、金融商业、历史、软件开发、工业、体育健身、健康、科学技术以及教育就业。

在每个领域中系统都会创造出五个不同背景的角色每个角色都有自己独特的专业背景、工作经历和研究需求。

有了这些角色之后系统就开始为每个角色量身定制研究任务。

这些任务必须满足几个条件需要多轮网络搜索才能完成需要整合来自不同来源的信息需要进行深入的分析和比较而且必须有具体的时间要求和明确的交付成果。

比如说系统可能会给那个制药公司的政策分析师安排这样一个任务分析2024年1月到2025年8月期间美国、欧盟和中国在半导体出口管制方面的政策变化以及中国的反制措施如何影响了工业物联网硬件供应链、价格变化和供应商集中度最后还要提供定量的情景分析、供应商风险排名和缓解措施路线图。

这样的任务显然不是简单的问答就能解决的需要AI助手像一个真正的研究员一样去搜索大量资料分析各种数据最后综合得出结论。

为了确保生成的任务质量足够高系统还设置了两道过滤器。

第一道过滤器叫任务资格筛选器它会检查这个任务是否真的需要最新信息、是否需要多个来源的证据、是否需要多层次的深入调研以及是否与角色的专业背景匹配。

只有通过这些检验的任务才能进入下一轮。

第二道过滤器叫搜索必要性筛选器它会让另一个AI助手仅凭已有的知识来尝试完成这个任务然后评估完成的质量如何。

如果发现这个任务仅凭现有知识就能很好地完成那就说明这个任务对于测试AI的网络搜索和信息整合能力来说太简单了需要被筛除。

经过这两道过滤后系统从最初生成的200个候选任务中保留了155个高质量任务。

为了验证这套自动生成系统的效果研究团队还邀请了七位拥有博士学位的领域专家来评估这些任务。

结果显示80%的任务被至少四位专家认为是合格的深度研究任务这证明了自动生成系统的可靠性。

最终研究团队从这155个任务中精心挑选出100个最优质的任务作为评测基准。

这些任务涵盖了不同的研究领域具有不同的复杂度和挑战性能够全面测试AI系统的深度研究能力。

智能评分系统因材施教的评判标准如果说任务生成器是一个会出题的老师那么智能评分系统就是一个会因材施教的阅卷老师。

传统的评测方法就像用同一张标准答案来批改所有不同类型的试卷显然不够合理。

研究团队开发的智能评分系统则能够针对每一份报告的特点制定专门的评判标准。

这个评分系统的工作原理就像一个经验丰富的老师。

当它拿到一份研究报告时首先会仔细阅读研究任务的要求然后思考这份报告应该从哪些角度来评判每个角度应该占多少分具体应该看哪些细节指标系统首先设定了四个通用的评判维度就像评判任何一篇文章都要看的基本要素一样。

第一个维度是覆盖性看报告是否全面覆盖了任务要求的各个方面信息是否充分详实。

第二个维度是洞察力评估报告的分析是否深入是否有独到的见解和逻辑性强的推理。

第三个维度是指令遵循检查报告是否准确按照任务要求的格式、结构和具体要求来完成。

第四个维度是清晰度评判报告的语言是否流畅结构是否清晰是否容易理解。

但是智能评分系统的真正创新在于它能够为每个具体任务生成专门的评判维度。

就像评判一道川菜和一道粤菜需要不同的标准一样不同类型的研究报告也需要不同的评判重点。

比如说对于前面提到的那个关于半导体政策分析的任务系统可能会生成三个特殊的评判维度。

第一个叫政策实用性专门评估报告中提出的政策建议是否具有现实可操作性是否考虑了美国、欧盟和中国不同的政治、经济和文化背景。

第二个叫比较综合性评估报告在跨地区分析方面的质量看它是否能够有效整合不同地区的政策框架和安全数据形成连贯统一的分析而不是简单地并列不同地区的

总结。

第三个叫指标实用性评估报告提出的安全指标质量如何这些指标是否真正具有可比性、可测量性并且能够在美国、欧盟和中国这些不同的数据收集体系中实际应用。

系统不仅会生成这些特殊维度还会为每个维度分配权重决定它们在最终评分中的重要性。

对于政策分析类的任务政策实用性可能会被赋予较高的权重因为政策建议的可操作性是这类报告成功与否的关键。

而对于技术分析类的任务技术准确性和创新性可能会获得更高的权重。

更进一步系统还会为每个评判维度制定具体的评分细则。

就像一个详细的评分量表明确规定在每个维度下应该关注哪些具体方面每个方面应该如何打分。

比如在洞察力维度下系统可能会设定这样的细则分析的原创性占40%的权重逻辑推理的严密性占35%的权重结论的价值和实用性占25%的权重。

这样的评分系统能够确保每份报告都得到公平而准确的评判。

它不会因为报告类型不同而给出不合理的分数也不会忽略某种类型报告的特殊优势。

这就像是给每道菜都配备了最合适的评判专家川菜有川菜专家来评粤菜有粤菜专家来评每个专家都用最合适的标准来判断。

事实核查机器人真假难辨的侦探在研究报告的评测中有一个特别重要但也特别困难的方面就是验证报告中陈述的事实是否准确。

这就像是在品尝一道菜时不仅要看味道如何还要确认食材是否新鲜、是否安全。

传统的方法就像只检查菜单上标注了来源的食材却忽略了那些没有标注的配菜和调料。

研究团队开发的事实核查系统就像一个专业的食品安全侦探它不仅会检查所有标注了来源的内容还会主动搜寻和验证那些没有标注来源的事实陈述。

这个事实核查系统的工作过程颇为有趣。

首先它会把一份长达几万字的研究报告分成若干个小段落就像把一本厚书拆分成一页页来仔细审查。

然后对于每个段落它会像一个经验丰富的侦探一样仔细寻找其中可以核实的事实陈述比如具体的数字、新闻事件、日期、地点或人物等。

找到这些可核实的陈述后系统就开始了它的侦探工作。

它会主动在网上搜索相关信息查找权威来源收集证据。

这个过程不是简单的关键词搜索而是像真正的调查员一样会从多个角度、多个来源来验证同一个事实。

比如说如果报告中提到DeepSeek V3模型的训练使用了大约560万美元耗费了2788百万小时的H800 GPU时间事实核查系统就会去搜索DeepSeek V3的相关论文和官方发布信息。

通过搜索它发现原始论文中提到的是

788百万小时而不是2788百万小时这是一个三个数量级的错误。

系统会详细记录这个发现解释为什么这个陈述是错误的并提供正确的信息来源。

在完成调查后系统会给每个事实陈述打上三种标签之一。

正确标签表示这个陈述得到了可靠公开信息的支持。

错误标签表示这个陈述与可靠来源的信息相矛盾。

未知标签表示缺乏足够的相关信息来验证这个陈述或者包含一些正确的细节但其他部分无法验证。

这种三分法的设计很巧妙因为它明确区分了无法验证和明确错误两种情况。

在现实世界中有些信息可能确实难以找到权威来源来验证这并不意味着它们一定是错误的。

通过使用未知标签系统避免了简单的二元判断提供了更准确的评估。

系统的最终输出是一个详细的JSON格式报告其中包含每个被检查陈述的验证结果、支持或反驳的证据来源、具体的证据摘录以及详细的推理过程解释。

这就像侦探在结案时提供的详细调查报告不仅告诉你结论是什么还详细说明了是如何得出这个结论的。

最后系统会计算一个准确率指标即正确陈述在所有陈述中的比例。

这为报告的整体可信度提供了一个量化的评估标准。

通过这种方式读者不仅能知道报告的分析质量如何还能了解报告中的事实陈述有多少是可靠的。

实战测试九大AI系统的终极对决为了验证这套评测系统的有效性研究团队组织了一场规模空前的AI系统对决。

他们邀请了九个目前市面上最先进的深度研究AI系统来参加这场考试包括一些大家熟悉的名字比如OpenAI的深度研究系统、谷歌的Gemini深度研究系统以及一些专门的研究型AI助手。

这场对决的规模相当庞大。

每个AI系统都需要完成相同的100个研究任务总共产生了900份研究报告。

这些报告的长度差别很大有些只有几千字有些则长达几万字。

研究团队用他们开发的评测系统对每一份报告都进行了详细的质量评估和事实核查。

测试结果揭示了一些非常有趣的发现。

在报告质量方面Gemini-

5-Pro深度研究系统表现最为出色获得了

51分满分10分的高分在覆盖性、洞察力和指令遵循等各个维度都表现优异。

这就像是一个全面发展的优秀学生不管是文科还是理科都能考出好成绩。

紧随其后的是Claude-Sonnet-

5深度研究系统得分

53分。

这个系统的特点是各个维度都比较均衡没有明显的短板。

OpenAI深度研究系统得分

28分同样表现出了较为均衡的能力。

有趣的是研究团队发现了一个普遍现象所有AI系统在任务特定评判维度上的表现都明显低于通用维度。

这个发现很有启发性说明现在的AI系统虽然能够完成基本的信息搜集和整理工作但在满足特定任务的专业要求方面还有很大改进空间。

就像一个学生能写出通顺的文章但要写出符合特定学科要求的专业论文还有困难。

在事实准确性方面测试结果同样引人深思。

Manus系统表现最佳

8

3%的事实陈述被验证为正确错误率很低。

Gemini深度研究系统和DeepSeek系统也表现良好准确率都超过了76%。

这些结果表明顶尖的AI系统已经能够在大部分情况下提供可靠的事实信息但仍然存在一定比例的错误或无法验证的内容。

特别值得注意的是研究团队发现错误陈述相对较少更常见的问题是未知类陈述即那些缺乏充分证据支持的声明。

这说明AI系统的主要问题不是故意编造虚假信息而是有时会提出一些难以验证或支撑不足的观点。

另一个有趣的发现是不同系统在报告长度上有很大差异。

Gemini-

5-Pro和Doubao系统倾向于生成非常详细的报告平均长度达到数万字而DeepSeek系统则采用了更为简洁的策略。

这种差异反映了不同设计理念有些系统优先考虑信息的全面性有些则更注重信息的精炼度。

测试还发现了质量和准确性之间可能存在的权衡关系。

一些生成较长报告、包含更多信息的系统虽然在覆盖性方面得分较高但在事实准确性方面可能面临更大挑战。

这提醒我们在追求信息全面性的同时也需要关注信息的可靠性。

系统可靠性验证多重检验保证公正为了确保这套评测系统本身的可靠性和公正性研究团队进行了多重验证测试就像对一台新的测量仪器进行校准一样。

首先他们测试了评分系统的一致性。

研究团队让不同的AI评判员对同样的报告进行评分发现评分结果高度一致。

即使使用不同的AI模型作为评判员排名结果也基本保持不变这说明评测标准是客观可靠的而不是依赖于特定评判员的主观倾向。

其次他们验证了评分的稳定性。

同一个评测系统在不同时间对同样报告进行评分结果几乎完全一致分数的标准差非常小。

这证明了系统的稳定性不会因为随机因素而给出差别很大的评分。

最重要的是研究团队还进行了人工验证。

他们邀请了多位专业人士对事实核查系统的结果进行人工审核。

结果显示AI事实核查系统与人类专家的判断一致率达到73%这是一个相当不错的成绩。

更有意思的是在那些AI系统和人类专家判断不一致的案例中研究团队又请了其他专家进行重新评判。

结果发现在70%的不一致案例中AI系统的判断实际上是正确的而人类专家的判断有误。

这主要是因为AI系统能够进行更加全面和深入的信息搜索有时能找到人类专家遗漏的关键证据。

这个结果很有启发意义。

它不仅验证了AI事实核查系统的可靠性也说明了AI在某些方面确实能够超越人类的能力特别是在需要大量信息搜集和交叉验证的任务中。

通过这些多重验证研究团队证明了他们开发的评测系统是可靠、公正、稳定的。

这为这套系统的实际应用奠定了坚实的基础。

影响与展望改变AI评测的游戏规则这项研究的意义远远超出了技术层面的创新。

它实际上为整个AI研究评估领域建立了一个新的标准和范式。

从实际应用角度来看这套评测系统解决了一个日益紧迫的现实问题。

随着AI系统越来越多地被用于生成长篇研究报告、市场分析、政策建议等重要文档如何快速而准确地评估这些文档的质量变得至关重要。

传统的人工评估方法成本高昂、效率低下而这套自动化评测系统提供了一个可扩展的解决方案。

对于企业和组织来说这意味着他们可以更好地评估和选择AI工具。

不同的AI系统在不同类型的任务上可能有不同的表现通过这种系统性的评测用户可以根据自己的具体需求选择最合适的AI助手。

从研究角度来看这套评测系统为AI研究人员提供了一个标准化的测试平台。

就像计算机性能测试中的基准测试一样这套系统可以帮助研究人员客观地比较不同AI系统的能力识别改进方向。

更重要的是这项研究揭示了当前AI系统的一些普遍局限性。

比如所有测试的AI系统在任务特定要求方面都表现不佳这提示了一个重要的改进方向AI系统需要更好地理解和适应不同类型任务的特殊要求。

事实核查方面的发现也很有价值。

虽然顶尖AI系统的事实准确率已经相当不错但仍然存在

%的错误或无法验证的内容。

这提醒我们在将AI生成的报告用于重要决策之前仍然需要适当的人工审核。

研究团队也坦诚地指出了他们系统的局限性。

目前这套系统主要针对英文内容设计在多语言环境下的表现还有待验证。

同时运行这套评测系统需要大量的计算资源和API调用费用这可能限制了它的普及应用。

展望未来这套评测系统有很大的扩展潜力。

研究团队设计的任务自动生成机制意味着这可以成为一个活的基准测试随时生成新的测试任务来评估AI系统的能力。

这对于快速发展的AI技术来说特别重要因为静态的测试集很容易变得过时。

此外这套系统的设计理念也可以应用到其他类型的AI评测中。

无论是创意写作、技术文档还是其他专业领域的内容生成都可以采用类似的任务特定评测维度和主动事实核查的方法。

归根结底这项研究代表了AI评测技术的一个重要进步。

它不仅提供了一套实用的工具更重要的是提出了一种新的评测理念评测应该是动态的、适应性的、全面的。

这种理念将推动整个AI评测领域向更加科学、更加实用的方向发展。

说到底随着AI系统变得越来越强大我们也需要越来越智能的方法来评估和理解它们的能力。

这项研究就是朝这个方向迈出的重要一步它不仅告诉我们现在的AI系统能做什么、做得如何更重要的是为未来AI系统的改进指明了方向。

对于普通用户来说这意味着未来我们将能够更加信任和有效地使用AI助手来帮助我们完成复杂的研究和分析工作。

QAQ1DeepResearchEval系统是什么ADeepResearchEval是由无穷实验室和南洋理工大学联合开发的AI研究报告自动化评测框架。

它能够自动生成研究任务然后对AI系统生成的深度研究报告进行质量评估和事实核查就像一个智能的评判系统。

Q2这套评测系统和传统评测方法有什么区别A传统方法依靠人工专家评测成本高且标准固定。

DeepResearchEval能自动生成个性化的评测任务针对每个任务制定专门的评判标准还能主动搜索网络验证报告中的所有事实陈述不仅仅是有引用的内容。

Q3测试结果显示哪个AI系统表现最好A在报告质量方面Gemini-

5-Pro深度研究系统表现最佳得分

51分在事实准确性方面Manus系统表现最好

8

3%的陈述被验证为正确。

不过不同系统各有特点用户可根据具体需求选择。

粉色苏州晶体应用安装教程-粉色苏州晶体应用安装教程应用

百度百家号客服电话人工服务

123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123