SUNFLOWER MATCH LAB硬件指南:STM32F103C8T6最小系统板上的轻量化部署尝试

核心内容摘要

Java Web 船舶维保管理系统系统源码-SpringBoot2+Vue3+MyBatis-Plus+MySQL8.0【含文档】
这次终于选对10个AI论文写作软件!本科生毕业论文+开题报告高效写作工具测评

[Python]String Methods 字符串方法

Code: https://github.com/AI45Lab/AgentDoGModel Data: https://huggingface.co/collections/AI45Research/agentdogAbstractAI智能体的兴起带æ�¥äº†ç”±è‡ªä¸»å·¥å…·ä½¿ç”¨å’Œç�¯å¢ƒäº¤äº’引å�‘çš„å¤�æ�‚安全ä¸�安ä¿�挑战。当å‰�的防护模å�‹ç¼ºä¹�对智能体é£�险的认知,且在é£�险诊断方é�¢ç¼ºä¹�é€�æ˜�度。为了引入一ç§�能够覆盖å¤�æ�‚且数é‡�众多的é£�险行为的智能体防护机制,我们首先æ��出了一个统一的三维分类法,按照æ�¥æº�(何处)ã€�失效模å¼�(如何)和å��æ�œï¼ˆä»€ä¹ˆï¼‰ä¸‰ä¸ªæ­£äº¤ç»´åº¦å¯¹æ™ºèƒ½ä½“é£�险进行分类。在这一结æ�„化且层次化的分类法指导下,我们引入了一个新的细粒度智能体安全基准测试(ATBench)以å�Šä¸€ä¸ªç”¨äº�智能体安全ä¸�安ä¿�的诊断防护框æ�¶ï¼ˆAgentDoG)。AgentDoG能够在智能体轨迹中æ��供细粒度且上下文感知的监æ�§ã€‚æ›´é‡�è¦�的是,AgentDoG能够诊断ä¸�安全行为以å�Šçœ‹ä¼¼å®‰å…¨ä½†ä¸�å�ˆç�†è¡Œä¸ºçš„æ ¹æœ¬å�Ÿå› ,æ��ä¾›è¶…è¶ŠäºŒå…ƒæ ‡ç­¾çš„æº¯æº�性和é€�æ˜�度,以促进有效的智能体对é½�。AgentDoGæ��供三ç§�尺寸的å�˜ä½“(4Bã€�7Bå’Œ8Bå�‚数),基äº�Qwenå’ŒLlama模å�‹å®¶æ—�。大é‡�å®�验结æ�œè¡¨æ˜�,AgentDoGåœ¨å¤šæ ·åŒ–ä¸”å¤�æ�‚的交互场景中å®�ç�°äº†æœ€å…ˆè¿›çš„æ™ºèƒ½ä½“å®‰å…¨å®¡æ ¸æ€§èƒ½ã€‚æ‰€æœ‰æ¨¡å�‹å’Œæ•°æ�®é›†å�‡å·²å¼€æº�å�‘布。ã€�PS:为什么8Bçš„å��而比7B或者4B的更差?=》backbone模å�‹ä¸�ä¸€æ ·ï¼Œ4B是Qwen

B�Qwen

2.

B�Llama

3.

B】1 Introduction大å�‹è¯­è¨€æ¨¡å�‹ï¼ˆLLMs)(Singh et al., 2025; Anthropic, 2025; OpenAI, 2025a; Yang et al., 2025a; Guo et al., 2025b)的演进æ�¨åŠ¨äº†æ™ºèƒ½ä½“AIçš„å�‘展:能够进行å¤�æ�‚规划ã€�工具使用和长期任务执行的自主智能体。这些智能体被广泛应用äº�å�„ç§�åœºæ™¯ï¼Œå¦‚æ·±åº¦ç ”ç©¶ï¼ˆZheng et al., 2025)ã€�计算机使用助手(Xie et al., 2024)ã€�软件工程(Jimenez et al., 2023)和金è��投资(Fan et al., 2025)。然而,其高度自动化和ä¸�确定性特å¾�为智能体安全ä¸�安ä¿�带æ�¥äº†æ–°çš„æŒ‘战å‰�沿,包括工具调用的é£�险以å�Šç�¯å¢ƒä¸­çš„æœ‰å®³ä¿¡æ�¯ä¼ 播。当å‰�的防护模å�‹ï¼ˆå¦‚LlamaGuard3(Inan et al., 2023)ã€�Qwen3Guard(Zhao et al., 2025)和ShieldGemma(Chen et al., 2025b))为LLM的输出内容æ��供安全过滤,但在应用äº�å¤�æ�‚智能体场景时存在局é™�性。其主è¦�ä¸�足体ç�°åœ¨ä¸¤ä¸ªæ–¹é�¢ï¼šï¼ˆ1)缺ä¹�智能体é£�险认知:ç�°æœ‰LLM的安全策略未能涵盖智能体å¤�æ�‚且ä¾�èµ–ç�¯å¢ƒçš„é£�险图景。(2)缺ä¹�溯æº�性ä¸�é€�æ˜�åº¦ï¼šäºŒå…ƒæ ‡ç­¾"安全/ä¸�安全"ä¸�足以准确诊断é£�险,且忽略了看似安全但ä¸�å�ˆç�†çš„行为。为了引入智能体防护机制,我们需è¦�一个全é�¢ä¸”层次化的安全分类法æ�¥è¦†ç›–å¤�æ�‚且众多的智能体行为。然而,ç�°æœ‰çš„æ™ºèƒ½ä½“安全定义和分类法是æ‰�平且粗粒度的,例如将æ��示注入和未æ�ˆæ�ƒè®¿é—®è§†ä¸ºä¸¤ä¸ªå¹³è¡Œçš„视角。但æ��示注入是é£�险æ�¥æº�的视角,而未æ�ˆæ�ƒè®¿é—®æ˜¯é£�险å®�é™…å��æ�œçš„视角。这ç§�æ‰�平粗粒度的é£�险分类法仅以æ�šä¸¾æ–¹å¼�覆盖有é™�çš„æ™ºèƒ½ä½“è¡Œä¸ºã€‚å› æ­¤ï¼Œæˆ‘ä»¬æ��出了一个统一且层次化的智能体安全分类法,包å�«ä¸‰ä¸ªæ­£äº¤ç»´åº¦ï¼šé£�险æ�¥è‡ªä½•处ã€�é£�险如何影å“�智能体行为ã€�以å�Šäº§ç”Ÿä½•ç§�å®�é™…å�±å®³ã€‚å�Œæ—¶ï¼Œæˆ‘们æ��供了ATBench,一个专注äº�分æ��和评估这些维度的细粒度智能体安全基准测试。在上述三维é£�险分类法的指导下,我们引入了用äº�智能体安全ä¸�安ä¿�的诊断防护框æ�¶ï¼ˆAgentDoG)。AgentDoG能够在智能体轨迹中æ��供细粒度且上下文感知的监æ�§ï¼ŒåŒ…括æ�¶æ„�工具执行和æ��示注入。更é‡�è¦�的是,AgentDoGæ��供了更é€�æ˜�的视角æ�¥ç�†è§£æ™ºèƒ½ä½“为何以ä¸�安全或看似安全但ä¸�å�ˆç�†çš„æ–¹å¼�采å�–特定行动,ä»�而å®�ç�°æ›´é«˜æ•ˆçš„对é½�ã€‚æˆ‘ä»¬åœ¨å¤šæ ·åŒ–çš„æ™ºèƒ½ä½“åŸºå‡†æµ‹è¯•ä¸Šå¯¹AgentDoG进行了全é�¢è¯„估,如R-judge(Yuan et al., 2024b)ã€�ASSE-Safety(Luo et al., 2025a)和ATBench。结æ�œè¡¨æ˜�,AgentDoGåœ¨å®‰å…¨å®¡æ ¸çš„å¤šæ ·åŒ–åœºæ™¯ä¸­ä¼˜äº�ç�°æœ‰çš„æœ€å…ˆè¿›æ¨¡å�‹ã€‚本工作的主è¦�贡献包括:统一的智能体安全分类法:我们引入了一个结æ�„åŒ–ä¸”å±‚æ¬¡åŒ–çš„å®‰å…¨åˆ†ç±»æ³•ï¼Œå¯¹ä¼ ç»Ÿå†…å®¹é£�险(如有毒性和å��è§�)和新å�‹æ™ºèƒ½ä½“é£�险(如未æ�ˆæ�ƒå·¥å…·ä½¿ç”¨ï¼‰è¿›è¡Œåˆ†ç±»ã€‚智能体å�¯è§£é‡ŠAI框æ�¶ï¼šAgentDoGæ��出了一个新的å�¯è§£é‡ŠAI(XAI)模å�—,用äº�è¯Šæ–­ç‰¹å®šè¡Œä¸ºçš„æ ¹æœ¬å�Ÿå› ,追溯至具体的规划步骤ã€�工具选择或上下文误解。开放数æ�®é›†ä¸�模å�‹å�‘布:AgentDoGå�‘布了精心策划的ATBench,包å�«çº¦2157个工具和4486轮交互,以支æŒ�ç¤¾åŒºåŸºå‡†æµ‹è¯•å’Œç ”ç©¶ã€‚å�Œæ—¶ï¼ŒAgentDoGå�˜ä½“以三ç§�尺寸(4Bã€�7Bå’Œ8Bå�‚数)在Qwenå’ŒLlama模å�‹å®¶æ—�中开æº�å�¯ç”¨ã€‚最先进的性能:大é‡�å®�验结æ�œè¡¨æ˜�,AgentDoG在é�¢å�‘智能体的安全基准测试中å®�ç�°äº†å�“越性能,能够有效分类有害æ��示并缓解å¤�æ�‚交互场景中的é£�险智能体行为。2 Safety Taxonomy智能体安全分类法是å®�æ–½æœ‰æ•ˆé˜²æŠ¤æœºåˆ¶çš„åŸºç¡€ï¼Œå› ä¸ºå®ƒå®šä¹‰äº†åº”è¯†åˆ«å“ªäº›é£�险类别ã€�如何区分ä¸�å�Œé£�险,以å�Šå¦‚何系统性地表å¾�ä¸�安全的智能体行为。由äº�智能体系统在开放å¼�ç�¯å¢ƒä¸­è¿�行ã€�ä¸�外部工具交互并执行多步骤任务,其失效模å¼�å�˜å¾—更难分æ��。é£�险ä¸�å†�æº�äº�å�•一决策或输出,而往往产生äº�输入ã€�æ�¨ç�†ã€�工具和行动éš�时间的交互。这ç§�转å�˜éœ€è¦�ä¸€ä¸ªèƒ½å¤Ÿç³»ç»Ÿæ€§ç»„ç»‡å¤šæ ·åŒ–ä¸”ä¸�断演进的é£�险的å�Ÿç�†æ€§å®‰å…¨åˆ†ç±»æ³•,而é��ä¾�赖临时性或æ�šä¸¾å¼�的定义。ç�°æœ‰çš„æ™ºèƒ½ä½“é£�险基准测试和分类法,如R-judge(Yuan et al., 2024b)和ASSE-Safety(Luo et al., 2025a)存在若干å®�é™…å±€é™�性。首先,它们采用æ�šä¸¾å¼�且ä¸�完整的智能体é£�险覆盖,特别是那些æº�äº�工具使用和智能体-工具交互的é£�险。例如包括å�—æ�Ÿçš„工具æ��è¿°ã€�æ�¶æ„�工具执行ã€�错误的å�‚数规范或ä½�效但有害的智能体行动。此类é£�险è¦�么代表性ä¸�足,è¦�么完全缺失,é™�制了这些基准测试å��æ˜ çœŸå®�智能体行为的能力。其次,ç�°æœ‰åˆ†ç±»æ³•常ä¾�èµ–ä¸�清晰或混å�ˆçš„åˆ†ç±»æ ‡å‡†ï¼Œå¯¼è‡´æ‰�å¹³é£�é™©ç©ºé—´å†…çš„æ ‡ç­¾é‡�å� 。é£�险的ä¸�å�Œç»´åº¦ï¼ŒåŒ…括起æº�ã€�行为和å��æ�œï¼Œç»�常被混为一谈。例如,æ��示注入和未æ�ˆæ�ƒè®¿é—®é€šå¸¸è¢«å½“作对等类别处ç�†ï¼Œå°½ç®¡å‰�者æ��è¿°é£�险æ�¥æº�,而å��者表å¾�智能体行为中的é£�险表ç�°æ–¹å¼�。这一问题也å��æ˜ åœ¨å…ˆå‰�工作中通过securityå’Œsafety视角分别框定智能体相关é£�险(Luo et al., 2025a; Ghosh et al., 2025)。é�¢å�‘security的分类关注对抗性å¨�èƒ�和系统ä¿�æŠ¤ç›®æ ‡ï¼ˆå¦‚æœºå¯†æ€§ã€�完整性和å�¯ç”¨æ€§ï¼‰ï¼Œè€Œé�¢å�‘safety的分类强调影å“�个人ã€�组织或社会的有害å��æ�œã€‚尽管两ç§�视角å�‡æœ‰ä»·å€¼ï¼Œä½†å°†å…¶è§†ä¸ºå¹³è¡Œæˆ–ä¸�ç›¸äº¤çš„ç»´åº¦ä¼šå¯¼è‡´æ ‡ç­¾é‡�å� ,阻ç¢�智能体场景中的精确诊断。为了在ä¿�æŒ�概念清晰度的å�Œæ—¶æ•´å�ˆä¸¤ç§�视角,本文使用"safety"作为统称术语,å�Œæ—¶ä¿�留细粒度分æ��所需的区分。为解决这些局é™�性,我们æ��出了一个统一的ã€�三个正交维度的智能体系统安全分类法。具体而言,我们沿三个正交维度分解智能体é£�险:é£�险æ�¥æº�ã€�失效模å¼�å’Œå®�é™…å�±å®³ã€‚这些维度分别å›�ç­”é£�险æ�¥è‡ªä½•处ã€�在智能体执行过程中如何表ç�°ã€�以å�Šé€ æˆ�何ç§�å®�é™…å�±å®³ã€‚è¿™ç§�结æ�„化分解将å�Ÿå› ã€�行为表ç�°å’Œå��æ�œåˆ†ç¦»ï¼Œæ¶ˆé™¤äº†æ ‡ç­¾é‡�å� ,å�Œæ—¶æ˜¾å¼�æ�•è�·ä¸�工具相关和ä¸�ç�¯å¢ƒä»‹å¯¼çš„é£�险。分类法概览å�Šä¸‰ä¸ªç»´åº¦ä¹‹é—´çš„关系如图2所示。以下我们详细介ç»�所æ��出的安全分类法,引入其三个维度:é£�险æ�¥æº�ã€�失效模å¼�å’Œå®�é™…å�±å®³ã€‚

1 Risk Sourceé£�险æ�¥æº�维度表å¾�潜在é£�险在智能体交互循ç�¯ä¸­çš„èµ·æº�ä½�置。它关注在决策å‰�或决策过程中引入ä¸�安全æ�¡ä»¶çš„å› ç´ ã€‚é£�险æ�¥æº�的详细分类总结äº�表1。我们将é£�险æ�¥æº�分为四个主è¦�类别:用户输入ã€�ç�¯å¢ƒè§‚察ã€�外部å®�体(如工具或API)以å�Šæ™ºèƒ½ä½“的内部决策逻辑。用户输入å�¯èƒ½åŒ…å�«æ¨¡ç³Šã€�误导性或对抗性指令。ç�¯å¢ƒè§‚察å�¯èƒ½æ��ä¾›ä¸�完整ã€�嘈æ�‚或被æ“�纵的信æ�¯ã€‚外部å®�体å�¯èƒ½è¿”å›�错误ã€�过时或有害的å“�应,误导å��续行动。此外,底层语言模å�‹çš„内部失效å�¯èƒ½å¯¼è‡´ flawed æ�¨ç�†ã€�规划或行动选择,å�³ä½¿æ²¡æœ‰å¤–部干扰。

2 Failure Mode失效模å¼�维度æ��è¿°é£�险在é£�险æ�¥æº�被引入å��,如何通过智能体的行为或输出æ�¥å®�ç�°ã€‚它æ�•è�·ç›´æ�¥å¯¼è‡´ä¸�良å��æ�œçš„ä¸�安全执行或生æˆ�的具体模å¼�。失效模å¼�的详细分类总结äº�表2。我们将失效模å¼�分为两大类。行为失效模å¼�æº�äº� flawed 的规划ã€�æ�¨ç�†æˆ–执行,如ä¸�当的行动åº�列ã€�ä¸�安全的工具使用或å��离预期程åº�。输出内容失效模å¼�则å�‘生在智能体的文本输出本身直æ�¥æ�„æˆ�é£�é™©æ—¶ï¼Œæ— éœ€è°ƒç”¨å·¥å…·æˆ–æ‰§è¡Œå¤–éƒ¨è¡ŒåŠ¨ã€‚è¿™åŒ…æ‹¬ç”Ÿæˆ�误导信æ�¯ã€�未æ�ˆæ�ƒæŠ«éœ²æˆ–å…¶ä»–ä¸�安全内容,å�¯èƒ½åœ¨æ¶ˆè´¹æ—¶é€ æˆ�å�±å®³ã€‚

3 Real-world Harmå®�é™…å�±å®³ç»´åº¦æ�•è�·ä¸�安全智能体行为导致的å®�é™…å�±å®³ã€‚它关注失效的影å“�而é��å…¶å�Ÿå› 或机制。å®�é™…å�±å®³çš„详细分类总结äº�表3。å®�é™…å�±å®³å�¯èƒ½åŒ…括身体ã€�财务ã€�éš�ç§�ã€�心ç�†ã€�声誉或社会å�±å®³ã€‚此类å��æ�œå�¯èƒ½æº�äº�对抗性æ“�纵ã€�良性用户错误或内部模å�‹å¤±æ•ˆã€‚通过显å¼�建模å��æ�œï¼Œè¯¥ç»´åº¦æ”¯æŒ�é�¢å�‘结æ�œçš„安全性评估和影å“�评估。3 AgentDoG

1 Task Definitionå…ˆå‰�的工作,如LlamaGuard(Inan等人,2023)和Qwen3Guard(Zhao等人,2025),主è¦�关注多轮对è¯�å�†å�²ä¸­æœ€ç»ˆè§’色的输出是å�¦å®‰å…¨ã€‚ç›¸æ¯”ä¹‹ä¸‹ï¼Œæˆ‘ä»¬è€ƒè™‘ä¸€ä¸ªæ ¹æœ¬ä¸�å�Œçš„任务:轨迹级安全诊断,其中模å�‹å¿…须确定智能体在执行轨迹的任何时刻是å�¦è¡¨ç�°å‡ºä¸�安全行为。关键区别在äº�,ä¸�安全行为å�¯èƒ½æº�äº�中间动作(例如,æ€�考内容ã€�工具调用)或中间ç�¯å¢ƒå��馈,å�³ä½¿æœ€ç»ˆå“�åº”çœ‹ä¼¼æ— å®³ï¼›å› æ­¤ï¼Œä»…å®¡è®¡æœ€å��一轮å�¯èƒ½ä¼šé�—æ¼�动作引å�‘çš„é£�险和过程级失效。轨迹级安全评估。形å¼�上,给定一个智能体轨迹T = { t 1 , … , t n } T = \{t_1, \ldots, t_n\}T={t1​,…,tn​},其中æ¯�一步t i t_iti​由一个动作a i a_iai​和一个观察o i o_ioi​组æˆ�,å�³t i = ( a i , o i ) t_i = (a_i, o_i)ti​=(ai​,oi​)ã€‚ç›®æ ‡æ˜¯é¢„æµ‹ä¸€ä¸ªè½¨è¿¹çº§äºŒå…ƒæ ‡ç­¾y ∈ { safe , unsafe } y \in \{\text{safe}, \text{unsafe}\}y∈{safe,unsafe},其中y = unsafe y = \text{unsafe}y=unsafe表示存在至少一步表ç�°å‡ºä¸�安全行为:y = unsafe ⟺ ∃ i ∈ { 1 , … , n } , Unsafe ( t i ) = True y = \text{unsafe} \iff \exists i \in \{1, \ldots, n\}, \text{Unsafe}(t_i) = \text{True}y=unsafe⟺∃i∈{1,…,n},Unsafe(ti​)=True细粒度é£�险诊断。给定一个ä¸�å®‰å…¨çš„è½¨è¿¹ï¼Œç¬¬äºŒä¸ªä»»åŠ¡æ˜¯é¢„æµ‹ç»†ç²’åº¦æ ‡ç­¾ï¼šy fine = ( â„“ risk , â„“ mode , â„“ harm ) ∈ L risk × L mode × L harm y_{\text{fine}} = (\ell_{\text{risk}}, \ell_{\text{mode}}, \ell_{\text{harm}}) \in \mathcal{L}_{\text{risk}} \times \mathcal{L}_{\text{mode}} \times \mathcal{L}_{\text{harm}}yfine​=(â„“risk​,â„“mode​,â„“harm​)∈Lrisk​

GTV一同看gtv蓝颜轻量版下载-GTV一同看gtv蓝颜轻量版下载应用

百度百家号客服电话人工服务

123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123