探秘JUI359:当“交换”遇上“凛凛子”,一场跨越时空的在线奇遇
Code: https://github.com/AI45Lab/AgentDoGModel Data: https://huggingface.co/collections/AI45Research/agentdogAbstractAI智能体的兴起带æ�¥äº†ç”±è‡ªä¸»å·¥å…·ä½¿ç”¨å’Œç�¯å¢ƒäº¤äº’引å�‘çš„å¤�æ�‚安全ä¸�安ä¿�挑战。当å‰�的防护模å�‹ç¼ºä¹�对智能体é£�险的认知,且在é£�é™©è¯Šæ–æ–¹é�¢ç¼ºä¹�é€�æ˜�度。为了引入一ç§�能够覆盖å¤�æ�‚且数é‡�众多的é£�险行为的智能体防护机制,我们首先æ��出了一个统一的三维分类法,按照æ�¥æº�(何处)ã€�失效模å¼�(如何)和å��æ�œï¼ˆä»€ä¹ˆï¼‰ä¸‰ä¸ªæ£äº¤ç»´åº¦å¯¹æ™ºèƒ½ä½“é£�险进行分类。在这一结æ�„化且层次化的分类法指导下,我们引入了一个新的细粒度智能体安全基准测试(ATBench)以å�Šä¸€ä¸ªç”¨äº�智能体安全ä¸�安ä¿�的诊æ–防护框æ�¶ï¼ˆAgentDoG)。AgentDoGèƒ½å¤Ÿåœ¨æ™ºèƒ½ä½“è½¨è¿¹ä¸æ��供细粒度且上下文感知的监æ�§ã€‚æ›´é‡�è¦�的是,AgentDoG能够诊æ–ä¸�安全行为以å�Šçœ‹ä¼¼å®‰å…¨ä½†ä¸�å�ˆç�†è¡Œä¸ºçš„æ ¹æœ¬å�Ÿå› ,æ��ä¾›è¶…è¶ŠäºŒå…ƒæ ‡ç¾çš„æº¯æº�性和é€�æ˜�度,以促进有效的智能体对é½�。AgentDoGæ��供三ç§�尺寸的å�˜ä½“(4Bã€�7Bå’Œ8Bå�‚数),基äº�Qwenå’ŒLlama模å�‹å®¶æ—�。大é‡�å®�验结æ�œè¡¨æ˜�,AgentDoGåœ¨å¤šæ ·åŒ–ä¸”å¤�æ�‚的交互场景ä¸å®�ç�°äº†æœ€å…ˆè¿›çš„æ™ºèƒ½ä½“å®‰å…¨å®¡æ ¸æ€§èƒ½ã€‚æ‰€æœ‰æ¨¡å�‹å’Œæ•°æ�®é›†å�‡å·²å¼€æº�å�‘布。ã€�PS:为什么8Bçš„å��而比7B或者4B的更差?=》backbone模å�‹ä¸�ä¸€æ ·ï¼Œ4B是Qwen
B�Qwen
2.
B�Llama
3.
B】1 Introduction大å�‹è¯è¨€æ¨¡å�‹ï¼ˆLLMs)(Singh et al., 2025; Anthropic, 2025; OpenAI, 2025a; Yang et al., 2025a; Guo et al., 2025b)的演进æ�¨åŠ¨äº†æ™ºèƒ½ä½“AIçš„å�‘展:能够进行å¤�æ�‚规划ã€�工具使用和长期任务执行的自主智能体。这些智能体被广泛应用äº�å�„ç§�åœºæ™¯ï¼Œå¦‚æ·±åº¦ç ”ç©¶ï¼ˆZheng et al., 2025)ã€�计算机使用助手(Xie et al., 2024)ã€�软件工程(Jimenez et al., 2023)和金è��投资(Fan et al., 2025)。然而,其高度自动化和ä¸�确定性特å¾�为智能体安全ä¸�安ä¿�带æ�¥äº†æ–°çš„æŒ‘战å‰�沿,包括工具调用的é£�险以å�Šç�¯å¢ƒä¸çš„æœ‰å®³ä¿¡æ�¯ä¼ æ’。当å‰�的防护模å�‹ï¼ˆå¦‚LlamaGuard3(Inan et al., 2023)ã€�Qwen3Guard(Zhao et al., 2025)和ShieldGemma(Chen et al., 2025b))为LLM的输出内容æ��供安全过滤,但在应用äº�å¤�æ�‚智能体场景时å˜åœ¨å±€é™�性。其主è¦�ä¸�足体ç�°åœ¨ä¸¤ä¸ªæ–¹é�¢ï¼šï¼ˆ1)缺ä¹�智能体é£�险认知:ç�°æœ‰LLM的安全ç–略未能涵盖智能体å¤�æ�‚且ä¾�èµ–ç�¯å¢ƒçš„é£�险图景。(2)缺ä¹�溯æº�性ä¸�é€�æ˜�åº¦ï¼šäºŒå…ƒæ ‡ç¾"安全/ä¸�安全"ä¸�足以准确诊æ–é£�险,且忽略了看似安全但ä¸�å�ˆç�†çš„行为。为了引入智能体防护机制,我们需è¦�一个全é�¢ä¸”层次化的安全分类法æ�¥è¦†ç›–å¤�æ�‚且众多的智能体行为。然而,ç�°æœ‰çš„æ™ºèƒ½ä½“安全定义和分类法是æ‰�平且粗粒度的,例如将æ��示注入和未æ�ˆæ�ƒè®¿é—®è§†ä¸ºä¸¤ä¸ªå¹³è¡Œçš„视角。但æ��示注入是é£�险æ�¥æº�的视角,而未æ�ˆæ�ƒè®¿é—®æ˜¯é£�险å®�é™…å��æ�œçš„视角。这ç§�æ‰�平粗粒度的é£�险分类法仅以æ�šä¸¾æ–¹å¼�覆盖有é™�çš„æ™ºèƒ½ä½“è¡Œä¸ºã€‚å› æ¤ï¼Œæˆ‘们æ��出了一个统一且层次化的智能体安全分类法,包å�«ä¸‰ä¸ªæ£äº¤ç»´åº¦ï¼šé£�险æ�¥è‡ªä½•处ã€�é£�险如何影å“�智能体行为ã€�以å�Šäº§ç”Ÿä½•ç§�å®�é™…å�±å®³ã€‚å�Œæ—¶ï¼Œæˆ‘们æ��供了ATBench,一个专注äº�分æ��和评估这些维度的细粒度智能体安全基准测试。在上述三维é£�险分类法的指导下,我们引入了用äº�智能体安全ä¸�安ä¿�的诊æ–防护框æ�¶ï¼ˆAgentDoG)。AgentDoGèƒ½å¤Ÿåœ¨æ™ºèƒ½ä½“è½¨è¿¹ä¸æ��供细粒度且上下文感知的监æ�§ï¼ŒåŒ…括æ�¶æ„�工具执行和æ��示注入。更é‡�è¦�的是,AgentDoGæ��供了更é€�æ˜�的视角æ�¥ç�†è§£æ™ºèƒ½ä½“为何以ä¸�安全或看似安全但ä¸�å�ˆç�†çš„æ–¹å¼�采å�–特定行动,ä»�而å®�ç�°æ›´é«˜æ•ˆçš„对é½�ã€‚æˆ‘ä»¬åœ¨å¤šæ ·åŒ–çš„æ™ºèƒ½ä½“åŸºå‡†æµ‹è¯•ä¸Šå¯¹AgentDoG进行了全é�¢è¯„估,如R-judge(Yuan et al., 2024b)ã€�ASSE-Safety(Luo et al., 2025a)和ATBench。结æ�œè¡¨æ˜�,AgentDoGåœ¨å®‰å…¨å®¡æ ¸çš„å¤šæ ·åŒ–åœºæ™¯ä¸ä¼˜äº�ç�°æœ‰çš„æœ€å…ˆè¿›æ¨¡å�‹ã€‚本工作的主è¦�贡献包括:统一的智能体安全分类法:我们引入了一个结æ�„åŒ–ä¸”å±‚æ¬¡åŒ–çš„å®‰å…¨åˆ†ç±»æ³•ï¼Œå¯¹ä¼ ç»Ÿå†…å®¹é£�险(如有毒性和å��è§�)和新å�‹æ™ºèƒ½ä½“é£�险(如未æ�ˆæ�ƒå·¥å…·ä½¿ç”¨ï¼‰è¿›è¡Œåˆ†ç±»ã€‚智能体å�¯è§£é‡ŠAI框æ�¶ï¼šAgentDoGæ��出了一个新的å�¯è§£é‡ŠAI(XAI)模å�—,用äº�诊æ–ç‰¹å®šè¡Œä¸ºçš„æ ¹æœ¬å�Ÿå› ,追溯至具体的规划æ¥éª¤ã€�工具选择或上下文误解。开放数æ�®é›†ä¸�模å�‹å�‘布:AgentDoGå�‘布了精心ç–划的ATBench,包å�«çº¦2157个工具和4486轮交互,以支æŒ�ç¤¾åŒºåŸºå‡†æµ‹è¯•å’Œç ”ç©¶ã€‚å�Œæ—¶ï¼ŒAgentDoGå�˜ä½“以三ç§�尺寸(4Bã€�7Bå’Œ8Bå�‚数)在Qwenå’ŒLlama模å�‹å®¶æ—�ä¸å¼€æº�å�¯ç”¨ã€‚最先进的性能:大é‡�å®�验结æ�œè¡¨æ˜�,AgentDoG在é�¢å�‘智能体的安全基准测试ä¸å®�ç�°äº†å�“越性能,能够有效分类有害æ��示并缓解å¤�æ�‚交互场景ä¸çš„é£�险智能体行为。2 Safety Taxonomy智能体安全分类法是å®�æ–½æœ‰æ•ˆé˜²æŠ¤æœºåˆ¶çš„åŸºç¡€ï¼Œå› ä¸ºå®ƒå®šä¹‰äº†åº”è¯†åˆ«å“ªäº›é£�险类别ã€�如何区分ä¸�å�Œé£�险,以å�Šå¦‚何系统性地表å¾�ä¸�安全的智能体行为。由äº�智能体系统在开放å¼�ç�¯å¢ƒä¸è¿�行ã€�ä¸�外部工具交互并执行多æ¥éª¤ä»»åŠ¡ï¼Œå…¶å¤±æ•ˆæ¨¡å¼�å�˜å¾—更难分æ��。é£�险ä¸�å†�æº�äº�å�•ä¸€å†³ç–æˆ–输出,而往往产生äº�输入ã€�æ�¨ç�†ã€�工具和行动éš�时间的交互。这ç§�转å�˜éœ€è¦�ä¸€ä¸ªèƒ½å¤Ÿç³»ç»Ÿæ€§ç»„ç»‡å¤šæ ·åŒ–ä¸”ä¸�æ–æ¼”进的é£�险的å�Ÿç�†æ€§å®‰å…¨åˆ†ç±»æ³•,而é��ä¾�赖临时性或æ�šä¸¾å¼�的定义。ç�°æœ‰çš„æ™ºèƒ½ä½“é£�险基准测试和分类法,如R-judge(Yuan et al., 2024b)和ASSE-Safety(Luo et al., 2025a)å˜åœ¨è‹¥å¹²å®�é™…å±€é™�性。首先,它们采用æ�šä¸¾å¼�且ä¸�完整的智能体é£�险覆盖,特别是那些æº�äº�工具使用和智能体-工具交互的é£�险。例如包括å�—æ�Ÿçš„工具æ��è¿°ã€�æ�¶æ„�工具执行ã€�错误的å�‚数规范或ä½�效但有害的智能体行动。æ¤ç±»é£�险è¦�么代表性ä¸�足,è¦�么完全缺失,é™�制了这些基准测试å��æ˜ çœŸå®�智能体行为的能力。其次,ç�°æœ‰åˆ†ç±»æ³•常ä¾�èµ–ä¸�清晰或混å�ˆçš„åˆ†ç±»æ ‡å‡†ï¼Œå¯¼è‡´æ‰�å¹³é£�é™©ç©ºé—´å†…çš„æ ‡ç¾é‡�å� 。é£�险的ä¸�å�Œç»´åº¦ï¼ŒåŒ…括起æº�ã€�行为和å��æ�œï¼Œç»�常被混为一谈。例如,æ��示注入和未æ�ˆæ�ƒè®¿é—®é€šå¸¸è¢«å½“作对ç‰ç±»åˆ«å¤„ç�†ï¼Œå°½ç®¡å‰�者æ��è¿°é£�险æ�¥æº�,而å��者表å¾�智能体行为ä¸çš„é£�险表ç�°æ–¹å¼�。这一问题也å��æ˜ åœ¨å…ˆå‰�工作ä¸é€šè¿‡securityå’Œsafety视角分别框定智能体相关é£�险(Luo et al., 2025a; Ghosh et al., 2025)。é�¢å�‘security的分类关注对抗性å¨�èƒ�和系统ä¿�æŠ¤ç›®æ ‡ï¼ˆå¦‚æœºå¯†æ€§ã€�完整性和å�¯ç”¨æ€§ï¼‰ï¼Œè€Œé�¢å�‘safety的分类强调影å“�个人ã€�组织或社会的有害å��æ�œã€‚尽管两ç§�视角å�‡æœ‰ä»·å€¼ï¼Œä½†å°†å…¶è§†ä¸ºå¹³è¡Œæˆ–ä¸�ç›¸äº¤çš„ç»´åº¦ä¼šå¯¼è‡´æ ‡ç¾é‡�å� ,阻ç¢�智能体场景ä¸çš„精确诊æ–。为了在ä¿�æŒ�概念清晰度的å�Œæ—¶æ•´å�ˆä¸¤ç§�视角,本文使用"safety"作为统称术è¯ï¼Œå�Œæ—¶ä¿�留细粒度分æ��所需的区分。为解决这些局é™�性,我们æ��出了一个统一的ã€�三个æ£äº¤ç»´åº¦çš„æ™ºèƒ½ä½“系统安全分类法。具体而言,我们沿三个æ£äº¤ç»´åº¦åˆ†è§£æ™ºèƒ½ä½“é£�险:é£�险æ�¥æº�ã€�失效模å¼�å’Œå®�é™…å�±å®³ã€‚这些维度分别å›�ç”é£�险æ�¥è‡ªä½•处ã€�在智能体执行过程ä¸å¦‚何表ç�°ã€�以å�Šé€ æˆ�何ç§�å®�é™…å�±å®³ã€‚è¿™ç§�结æ�„化分解将å�Ÿå› ã€�行为表ç�°å’Œå��æ�œåˆ†ç¦»ï¼Œæ¶ˆé™¤äº†æ ‡ç¾é‡�å� ,å�Œæ—¶æ˜¾å¼�æ�•è�·ä¸�工具相关和ä¸�ç�¯å¢ƒä»‹å¯¼çš„é£�险。分类法概览å�Šä¸‰ä¸ªç»´åº¦ä¹‹é—´çš„关系如图2所示。以下我们详细介ç»�所æ��出的安全分类法,引入其三个维度:é£�险æ�¥æº�ã€�失效模å¼�å’Œå®�é™…å�±å®³ã€‚
1 Risk Sourceé£�险æ�¥æº�维度表å¾�潜在é£�险在智能体交互循ç�¯ä¸çš„èµ·æº�ä½�置。它关注在决ç–å‰�或决ç–过程ä¸å¼•å…¥ä¸�安全æ�¡ä»¶çš„å› ç´ ã€‚é£�险æ�¥æº�的详细分类总结äº�表1。我们将é£�险æ�¥æº�分为四个主è¦�类别:用户输入ã€�ç�¯å¢ƒè§‚察ã€�外部å®�体(如工具或API)以å�Šæ™ºèƒ½ä½“的内部决ç–逻辑。用户输入å�¯èƒ½åŒ…å�«æ¨¡ç³Šã€�误导性或对抗性指令。ç�¯å¢ƒè§‚察å�¯èƒ½æ��ä¾›ä¸�完整ã€�嘈æ�‚或被æ“�纵的信æ�¯ã€‚外部å®�体å�¯èƒ½è¿”å›�错误ã€�过时或有害的å“�应,误导å��ç»è¡ŒåŠ¨ã€‚æ¤å¤–,底层è¯è¨€æ¨¡å�‹çš„内部失效å�¯èƒ½å¯¼è‡´ flawed æ�¨ç�†ã€�规划或行动选择,å�³ä½¿æ²¡æœ‰å¤–部干扰。
2 Failure Mode失效模å¼�维度æ��è¿°é£�险在é£�险æ�¥æº�被引入å��,如何通过智能体的行为或输出æ�¥å®�ç�°ã€‚它æ�•è�·ç›´æ�¥å¯¼è‡´ä¸�良å��æ�œçš„ä¸�安全执行或生æˆ�的具体模å¼�。失效模å¼�的详细分类总结äº�表2。我们将失效模å¼�分为两大类。行为失效模å¼�æº�äº� flawed 的规划ã€�æ�¨ç�†æˆ–执行,如ä¸�当的行动åº�列ã€�ä¸�安全的工具使用或å��离预期程åº�。输出内容失效模å¼�则å�‘生在智能体的文本输出本身直æ�¥æ�„æˆ�é£�é™©æ—¶ï¼Œæ— éœ€è°ƒç”¨å·¥å…·æˆ–æ‰§è¡Œå¤–éƒ¨è¡ŒåŠ¨ã€‚è¿™åŒ…æ‹¬ç”Ÿæˆ�误导信æ�¯ã€�未æ�ˆæ�ƒæŠ«éœ²æˆ–å…¶ä»–ä¸�安全内容,å�¯èƒ½åœ¨æ¶ˆè´¹æ—¶é€ æˆ�å�±å®³ã€‚
3 Real-world Harmå®�é™…å�±å®³ç»´åº¦æ�•è�·ä¸�安全智能体行为导致的å®�é™…å�±å®³ã€‚它关注失效的影å“�而é��å…¶å�Ÿå› 或机制。å®�é™…å�±å®³çš„详细分类总结äº�表3。å®�é™…å�±å®³å�¯èƒ½åŒ…括身体ã€�财务ã€�éš�ç§�ã€�心ç�†ã€�声誉或社会å�±å®³ã€‚æ¤ç±»å��æ�œå�¯èƒ½æº�äº�对抗性æ“�纵ã€�良性用户错误或内部模å�‹å¤±æ•ˆã€‚通过显å¼�建模å��æ�œï¼Œè¯¥ç»´åº¦æ”¯æŒ�é�¢å�‘结æ�œçš„安全性评估和影å“�评估。3 AgentDoG
1 Task Definitionå…ˆå‰�的工作,如LlamaGuard(Inanç‰äººï¼Œ2023)和Qwen3Guard(Zhaoç‰äººï¼Œ2025),主è¦�关注多轮对è¯�å�†å�²ä¸æœ€ç»ˆè§’色的输出是å�¦å®‰å…¨ã€‚ç›¸æ¯”ä¹‹ä¸‹ï¼Œæˆ‘ä»¬è€ƒè™‘ä¸€ä¸ªæ ¹æœ¬ä¸�å�Œçš„任务:轨迹级安全诊æ–ï¼Œå…¶ä¸æ¨¡å�‹å¿…须确定智能体在执行轨迹的任何时刻是å�¦è¡¨ç�°å‡ºä¸�安全行为。关键区别在äº�,ä¸�安全行为å�¯èƒ½æº�äº�ä¸é—´åŠ¨ä½œï¼ˆä¾‹å¦‚ï¼Œæ€�考内容ã€�工具调用)或ä¸é—´ç�¯å¢ƒå��馈,å�³ä½¿æœ€ç»ˆå“�åº”çœ‹ä¼¼æ— å®³ï¼›å› æ¤ï¼Œä»…审计最å��一轮å�¯èƒ½ä¼šé�—æ¼�动作引å�‘çš„é£�险和过程级失效。轨迹级安全评估。形å¼�上,给定一个智能体轨迹T = { t 1 , … , t n } T = \{t_1, \ldots, t_n\}T={t1​,…,tn​}ï¼Œå…¶ä¸æ¯�一æ¥t i t_iti​由一个动作a i a_iai​和一个观察o i o_ioi​组æˆ�,å�³t i = ( a i , o i ) t_i = (a_i, o_i)ti​=(ai​,oi​)ã€‚ç›®æ ‡æ˜¯é¢„æµ‹ä¸€ä¸ªè½¨è¿¹çº§äºŒå…ƒæ ‡ç¾y ∈ { safe , unsafe } y \in \{\text{safe}, \text{unsafe}\}y∈{safe,unsafe},其ä¸y = unsafe y = \text{unsafe}y=unsafe表示å˜åœ¨è‡³å°‘一æ¥è¡¨ç�°å‡ºä¸�安全行为:y = unsafe ⟺ ∃ i ∈ { 1 , … , n } , Unsafe ( t i ) = True y = \text{unsafe} \iff \exists i \in \{1, \ldots, n\}, \text{Unsafe}(t_i) = \text{True}y=unsafe⟺∃i∈{1,…,n},Unsafe(ti​)=True细粒度é£�险诊æ–。给定一个ä¸�å®‰å…¨çš„è½¨è¿¹ï¼Œç¬¬äºŒä¸ªä»»åŠ¡æ˜¯é¢„æµ‹ç»†ç²’åº¦æ ‡ç¾ï¼šy fine = ( â„“ risk , â„“ mode , â„“ harm ) ∈ L risk × L mode × L harm y_{\text{fine}} = (\ell_{\text{risk}}, \ell_{\text{mode}}, \ell_{\text{harm}}) \in \mathcal{L}_{\text{risk}} \times \mathcal{L}_{\text{mode}} \times \mathcal{L}_{\text{harm}}yfine​=(â„“risk​,â„“mode​,â„“harm​)∈Lrisk​
8月电子厂全景沟厕系列内容-8月电子厂全景沟厕系列内容应用