首页速度优化探索性爱网站wryifh的隐秘世界

网站优化

“汤姆叔叔”的奇妙世界：地域网名的创意之旅

触碰的温度，连接的温度——“人人看人人摸”的生活美学

2026-06-12 20:22:23

阅读时长:6分钟

562次阅读

核心内容摘要

探秘JUI359：当“交换”遇上“凛凛子”，一场跨越时空的在线奇遇

Code: https://github.com/AI45Lab/AgentDoGModel Data: https://huggingface.co/collections/AI45Research/agentdogAbstractAIæ™ºèƒ½ä½“çš„å…´èµ·å¸¦æ�¥äº†ç”±è‡ªä¸»å·¥å…·ä½¿ç”¨å’Œç�¯å¢ƒäº¤äº’å¼•å�‘çš„å¤�æ�‚å®‰å…¨ä¸�å®‰ä¿�æŒ‘æˆ˜ã€‚å½“å‰�çš„é˜²æŠ¤æ¨¡å�‹ç¼ºä¹�å¯¹æ™ºèƒ½ä½“é£�é™©çš„è®¤çŸ¥ï¼Œä¸”åœ¨é£�é™©è¯Šæ–æ–¹é�¢ç¼ºä¹�é€�æ˜�åº¦ã€‚ä¸ºäº†å¼•å…¥ä¸€ç§�èƒ½å¤Ÿè¦†ç›–å¤�æ�‚ä¸”æ•°é‡�ä¼—å¤šçš„é£�é™©è¡Œä¸ºçš„æ™ºèƒ½ä½“é˜²æŠ¤æœºåˆ¶ï¼Œæˆ‘ä»¬é¦–å…ˆæ��å‡ºäº†ä¸€ä¸ªç»Ÿä¸€çš„ä¸‰ç»´åˆ†ç±»æ³•ï¼ŒæŒ‰ç…§æ�¥æº�ï¼ˆä½•å¤„ï¼‰ã€�å¤±æ•ˆæ¨¡å¼�ï¼ˆå¦‚ä½•ï¼‰å’Œå��æ�œï¼ˆä»€ä¹ˆï¼‰ä¸‰ä¸ªæ£äº¤ç»´åº¦å¯¹æ™ºèƒ½ä½“é£�é™©è¿›è¡Œåˆ†ç±»ã€‚åœ¨è¿™ä¸€ç»“æ�„åŒ–ä¸”å±‚æ¬¡åŒ–çš„åˆ†ç±»æ³•æŒ‡å¯¼ä¸‹ï¼Œæˆ‘ä»¬å¼•å…¥äº†ä¸€ä¸ªæ–°çš„ç»†ç²’åº¦æ™ºèƒ½ä½“å®‰å…¨åŸºå‡†æµ‹è¯•ï¼ˆATBenchï¼‰ä»¥å�Šä¸€ä¸ªç”¨äº�æ™ºèƒ½ä½“å®‰å…¨ä¸�å®‰ä¿�çš„è¯Šæ–é˜²æŠ¤æ¡†æ�¶ï¼ˆAgentDoGï¼‰ã€‚AgentDoGèƒ½å¤Ÿåœ¨æ™ºèƒ½ä½“è½¨è¿¹ä¸æ��ä¾›ç»†ç²’åº¦ä¸”ä¸Šä¸‹æ–‡æ„ŸçŸ¥çš„ç›‘æ�§ã€‚æ›´é‡�è¦�çš„æ˜¯ï¼ŒAgentDoGèƒ½å¤Ÿè¯Šæ–ä¸�å®‰å…¨è¡Œä¸ºä»¥å�Šçœ‹ä¼¼å®‰å…¨ä½†ä¸�å�ˆç�†è¡Œä¸ºçš„æ ¹æœ¬å�Ÿå› ï¼Œæ��ä¾›è¶…è¶ŠäºŒå…ƒæ ‡ç¾çš„æº¯æº�æ€§å’Œé€�æ˜�åº¦ï¼Œä»¥ä¿ƒè¿›æœ‰æ•ˆçš„æ™ºèƒ½ä½“å¯¹é½�ã€‚AgentDoGæ��ä¾›ä¸‰ç§�å°ºå¯¸çš„å�˜ä½“ï¼ˆ4Bã€�7Bå’Œ8Bå�‚æ•°ï¼‰ï¼ŒåŸºäº�Qwenå’ŒLlamaæ¨¡å�‹å®¶æ—�ã€‚å¤§é‡�å®�éªŒç»“æ�œè¡¨æ˜�ï¼ŒAgentDoGåœ¨å¤šæ ·åŒ–ä¸”å¤�æ�‚çš„äº¤äº’åœºæ™¯ä¸å®�ç�°äº†æœ€å…ˆè¿›çš„æ™ºèƒ½ä½“å®‰å…¨å®¡æ ¸æ€§èƒ½ã€‚æ‰€æœ‰æ¨¡å�‹å’Œæ•°æ�®é›†å�‡å·²å¼€æº�å�‘å¸ƒã€‚ã€�PSï¼šä¸ºä»€ä¹ˆ8Bçš„å��è€Œæ¯”7Bæˆ–è€…4Bçš„æ›´å·®ï¼Ÿ=ã€‹backboneæ¨¡å�‹ä¸�ä¸€æ ·ï¼Œ4Bæ˜¯Qwen

Bã€�Qwen

2.

Bã€�Llama

3.

Bã€‘1 Introductionå¤§å�‹è¯è¨€æ¨¡å�‹ï¼ˆLLMsï¼‰ï¼ˆSingh et al., 2025; Anthropic, 2025; OpenAI, 2025a; Yang et al., 2025a; Guo et al., 2025bï¼‰çš„æ¼”è¿›æ�¨åŠ¨äº†æ™ºèƒ½ä½“AIçš„å�‘å±•ï¼šèƒ½å¤Ÿè¿›è¡Œå¤�æ�‚è§„åˆ’ã€�å·¥å…·ä½¿ç”¨å’Œé•¿æœŸä»»åŠ¡æ‰§è¡Œçš„è‡ªä¸»æ™ºèƒ½ä½“ã€‚è¿™äº›æ™ºèƒ½ä½“è¢«å¹¿æ³›åº”ç”¨äº�å�„ç§�åœºæ™¯ï¼Œå¦‚æ·±åº¦ç ”ç©¶ï¼ˆZheng et al., 2025ï¼‰ã€�è®¡ç®—æœºä½¿ç”¨åŠ©æ‰‹ï¼ˆXie et al., 2024ï¼‰ã€�è½¯ä»¶å·¥ç¨‹ï¼ˆJimenez et al., 2023ï¼‰å’Œé‡‘è��æŠ•èµ„ï¼ˆFan et al., 2025ï¼‰ã€‚ç„¶è€Œï¼Œå…¶é«˜åº¦è‡ªåŠ¨åŒ–å’Œä¸�ç¡®å®šæ€§ç‰¹å¾�ä¸ºæ™ºèƒ½ä½“å®‰å…¨ä¸�å®‰ä¿�å¸¦æ�¥äº†æ–°çš„æŒ‘æˆ˜å‰�æ²¿ï¼ŒåŒ…æ‹¬å·¥å…·è°ƒç”¨çš„é£�é™©ä»¥å�Šç�¯å¢ƒä¸çš„æœ‰å®³ä¿¡æ�¯ä¼ æ’ã€‚å½“å‰�çš„é˜²æŠ¤æ¨¡å�‹ï¼ˆå¦‚LlamaGuard3ï¼ˆInan et al., 2023ï¼‰ã€�Qwen3Guardï¼ˆZhao et al., 2025ï¼‰å’ŒShieldGemmaï¼ˆChen et al., 2025bï¼‰ï¼‰ä¸ºLLMçš„è¾“å‡ºå†…å®¹æ��ä¾›å®‰å…¨è¿‡æ»¤ï¼Œä½†åœ¨åº”ç”¨äº�å¤�æ�‚æ™ºèƒ½ä½“åœºæ™¯æ—¶å˜åœ¨å±€é™�æ€§ã€‚å…¶ä¸»è¦�ä¸�è¶³ä½“ç�°åœ¨ä¸¤ä¸ªæ–¹é�¢ï¼šï¼ˆ1ï¼‰ç¼ºä¹�æ™ºèƒ½ä½“é£�é™©è®¤çŸ¥ï¼šç�°æœ‰LLMçš„å®‰å…¨ç–ç•¥æœªèƒ½æ¶µç›–æ™ºèƒ½ä½“å¤�æ�‚ä¸”ä¾�èµ–ç�¯å¢ƒçš„é£�é™©å›¾æ™¯ã€‚ï¼ˆ2ï¼‰ç¼ºä¹�æº¯æº�æ€§ä¸�é€�æ˜�åº¦ï¼šäºŒå…ƒæ ‡ç¾"å®‰å…¨/ä¸�å®‰å…¨"ä¸�è¶³ä»¥å‡†ç¡®è¯Šæ–é£�é™©ï¼Œä¸”å¿½ç•¥äº†çœ‹ä¼¼å®‰å…¨ä½†ä¸�å�ˆç�†çš„è¡Œä¸ºã€‚ä¸ºäº†å¼•å…¥æ™ºèƒ½ä½“é˜²æŠ¤æœºåˆ¶ï¼Œæˆ‘ä»¬éœ€è¦�ä¸€ä¸ªå…¨é�¢ä¸”å±‚æ¬¡åŒ–çš„å®‰å…¨åˆ†ç±»æ³•æ�¥è¦†ç›–å¤�æ�‚ä¸”ä¼—å¤šçš„æ™ºèƒ½ä½“è¡Œä¸ºã€‚ç„¶è€Œï¼Œç�°æœ‰çš„æ™ºèƒ½ä½“å®‰å…¨å®šä¹‰å’Œåˆ†ç±»æ³•æ˜¯æ‰�å¹³ä¸”ç²—ç²’åº¦çš„ï¼Œä¾‹å¦‚å°†æ��ç¤ºæ³¨å…¥å’Œæœªæ�ˆæ�ƒè®¿é—®è§†ä¸ºä¸¤ä¸ªå¹³è¡Œçš„è§†è§’ã€‚ä½†æ��ç¤ºæ³¨å…¥æ˜¯é£�é™©æ�¥æº�çš„è§†è§’ï¼Œè€Œæœªæ�ˆæ�ƒè®¿é—®æ˜¯é£�é™©å®�é™…å��æ�œçš„è§†è§’ã€‚è¿™ç§�æ‰�å¹³ç²—ç²’åº¦çš„é£�é™©åˆ†ç±»æ³•ä»…ä»¥æ�šä¸¾æ–¹å¼�è¦†ç›–æœ‰é™�çš„æ™ºèƒ½ä½“è¡Œä¸ºã€‚å› æ¤ï¼Œæˆ‘ä»¬æ��å‡ºäº†ä¸€ä¸ªç»Ÿä¸€ä¸”å±‚æ¬¡åŒ–çš„æ™ºèƒ½ä½“å®‰å…¨åˆ†ç±»æ³•ï¼ŒåŒ…å�«ä¸‰ä¸ªæ£äº¤ç»´åº¦ï¼šé£�é™©æ�¥è‡ªä½•å¤„ã€�é£�é™©å¦‚ä½•å½±å“�æ™ºèƒ½ä½“è¡Œä¸ºã€�ä»¥å�Šäº§ç”Ÿä½•ç§�å®�é™…å�±å®³ã€‚å�Œæ—¶ï¼Œæˆ‘ä»¬æ��ä¾›äº†ATBenchï¼Œä¸€ä¸ªä¸“æ³¨äº�åˆ†æ��å’Œè¯„ä¼°è¿™äº›ç»´åº¦çš„ç»†ç²’åº¦æ™ºèƒ½ä½“å®‰å…¨åŸºå‡†æµ‹è¯•ã€‚åœ¨ä¸Šè¿°ä¸‰ç»´é£�é™©åˆ†ç±»æ³•çš„æŒ‡å¯¼ä¸‹ï¼Œæˆ‘ä»¬å¼•å…¥äº†ç”¨äº�æ™ºèƒ½ä½“å®‰å…¨ä¸�å®‰ä¿�çš„è¯Šæ–é˜²æŠ¤æ¡†æ�¶ï¼ˆAgentDoGï¼‰ã€‚AgentDoGèƒ½å¤Ÿåœ¨æ™ºèƒ½ä½“è½¨è¿¹ä¸æ��ä¾›ç»†ç²’åº¦ä¸”ä¸Šä¸‹æ–‡æ„ŸçŸ¥çš„ç›‘æ�§ï¼ŒåŒ…æ‹¬æ�¶æ„�å·¥å…·æ‰§è¡Œå’Œæ��ç¤ºæ³¨å…¥ã€‚æ›´é‡�è¦�çš„æ˜¯ï¼ŒAgentDoGæ��ä¾›äº†æ›´é€�æ˜�çš„è§†è§’æ�¥ç�†è§£æ™ºèƒ½ä½“ä¸ºä½•ä»¥ä¸�å®‰å…¨æˆ–çœ‹ä¼¼å®‰å…¨ä½†ä¸�å�ˆç�†çš„æ–¹å¼�é‡‡å�–ç‰¹å®šè¡ŒåŠ¨ï¼Œä»�è€Œå®�ç�°æ›´é«˜æ•ˆçš„å¯¹é½�ã€‚æˆ‘ä»¬åœ¨å¤šæ ·åŒ–çš„æ™ºèƒ½ä½“åŸºå‡†æµ‹è¯•ä¸Šå¯¹AgentDoGè¿›è¡Œäº†å…¨é�¢è¯„ä¼°ï¼Œå¦‚R-judgeï¼ˆYuan et al., 2024bï¼‰ã€�ASSE-Safetyï¼ˆLuo et al., 2025aï¼‰å’ŒATBenchã€‚ç»“æ�œè¡¨æ˜�ï¼ŒAgentDoGåœ¨å®‰å…¨å®¡æ ¸çš„å¤šæ ·åŒ–åœºæ™¯ä¸ä¼˜äº�ç�°æœ‰çš„æœ€å…ˆè¿›æ¨¡å�‹ã€‚æœ¬å·¥ä½œçš„ä¸»è¦�è´¡çŒ®åŒ…æ‹¬ï¼šç»Ÿä¸€çš„æ™ºèƒ½ä½“å®‰å…¨åˆ†ç±»æ³•ï¼šæˆ‘ä»¬å¼•å…¥äº†ä¸€ä¸ªç»“æ�„åŒ–ä¸”å±‚æ¬¡åŒ–çš„å®‰å…¨åˆ†ç±»æ³•ï¼Œå¯¹ä¼ ç»Ÿå†…å®¹é£�é™©ï¼ˆå¦‚æœ‰æ¯’æ€§å’Œå��è§�ï¼‰å’Œæ–°å�‹æ™ºèƒ½ä½“é£�é™©ï¼ˆå¦‚æœªæ�ˆæ�ƒå·¥å…·ä½¿ç”¨ï¼‰è¿›è¡Œåˆ†ç±»ã€‚æ™ºèƒ½ä½“å�¯è§£é‡ŠAIæ¡†æ�¶ï¼šAgentDoGæ��å‡ºäº†ä¸€ä¸ªæ–°çš„å�¯è§£é‡ŠAIï¼ˆXAIï¼‰æ¨¡å�—ï¼Œç”¨äº�è¯Šæ–ç‰¹å®šè¡Œä¸ºçš„æ ¹æœ¬å�Ÿå› ï¼Œè¿½æº¯è‡³å…·ä½“çš„è§„åˆ’æ¥éª¤ã€�å·¥å…·é€‰æ‹©æˆ–ä¸Šä¸‹æ–‡è¯¯è§£ã€‚å¼€æ”¾æ•°æ�®é›†ä¸�æ¨¡å�‹å�‘å¸ƒï¼šAgentDoGå�‘å¸ƒäº†ç²¾å¿ƒç–åˆ’çš„ATBenchï¼ŒåŒ…å�«çº¦2157ä¸ªå·¥å…·å’Œ4486è½®äº¤äº’ï¼Œä»¥æ”¯æŒ�ç¤¾åŒºåŸºå‡†æµ‹è¯•å’Œç ”ç©¶ã€‚å�Œæ—¶ï¼ŒAgentDoGå�˜ä½“ä»¥ä¸‰ç§�å°ºå¯¸ï¼ˆ4Bã€�7Bå’Œ8Bå�‚æ•°ï¼‰åœ¨Qwenå’ŒLlamaæ¨¡å�‹å®¶æ—�ä¸å¼€æº�å�¯ç”¨ã€‚æœ€å…ˆè¿›çš„æ€§èƒ½ï¼šå¤§é‡�å®�éªŒç»“æ�œè¡¨æ˜�ï¼ŒAgentDoGåœ¨é�¢å�‘æ™ºèƒ½ä½“çš„å®‰å…¨åŸºå‡†æµ‹è¯•ä¸å®�ç�°äº†å�“è¶Šæ€§èƒ½ï¼Œèƒ½å¤Ÿæœ‰æ•ˆåˆ†ç±»æœ‰å®³æ��ç¤ºå¹¶ç¼“è§£å¤�æ�‚äº¤äº’åœºæ™¯ä¸çš„é£�é™©æ™ºèƒ½ä½“è¡Œä¸ºã€‚2 Safety Taxonomyæ™ºèƒ½ä½“å®‰å…¨åˆ†ç±»æ³•æ˜¯å®�æ–½æœ‰æ•ˆé˜²æŠ¤æœºåˆ¶çš„åŸºç¡€ï¼Œå› ä¸ºå®ƒå®šä¹‰äº†åº”è¯†åˆ«å“ªäº›é£�é™©ç±»åˆ«ã€�å¦‚ä½•åŒºåˆ†ä¸�å�Œé£�é™©ï¼Œä»¥å�Šå¦‚ä½•ç³»ç»Ÿæ€§åœ°è¡¨å¾�ä¸�å®‰å…¨çš„æ™ºèƒ½ä½“è¡Œä¸ºã€‚ç”±äº�æ™ºèƒ½ä½“ç³»ç»Ÿåœ¨å¼€æ”¾å¼�ç�¯å¢ƒä¸è¿�è¡Œã€�ä¸�å¤–éƒ¨å·¥å…·äº¤äº’å¹¶æ‰§è¡Œå¤šæ¥éª¤ä»»åŠ¡ï¼Œå…¶å¤±æ•ˆæ¨¡å¼�å�˜å¾—æ›´éš¾åˆ†æ��ã€‚é£�é™©ä¸�å†�æº�äº�å�•ä¸€å†³ç–æˆ–è¾“å‡ºï¼Œè€Œå¾€å¾€äº§ç”Ÿäº�è¾“å…¥ã€�æ�¨ç�†ã€�å·¥å…·å’Œè¡ŒåŠ¨éš�æ—¶é—´çš„äº¤äº’ã€‚è¿™ç§�è½¬å�˜éœ€è¦�ä¸€ä¸ªèƒ½å¤Ÿç³»ç»Ÿæ€§ç»„ç»‡å¤šæ ·åŒ–ä¸”ä¸�æ–æ¼”è¿›çš„é£�é™©çš„å�Ÿç�†æ€§å®‰å…¨åˆ†ç±»æ³•ï¼Œè€Œé��ä¾�èµ–ä¸´æ—¶æ€§æˆ–æ�šä¸¾å¼�çš„å®šä¹‰ã€‚ç�°æœ‰çš„æ™ºèƒ½ä½“é£�é™©åŸºå‡†æµ‹è¯•å’Œåˆ†ç±»æ³•ï¼Œå¦‚R-judgeï¼ˆYuan et al., 2024bï¼‰å’ŒASSE-Safetyï¼ˆLuo et al., 2025aï¼‰å˜åœ¨è‹¥å¹²å®�é™…å±€é™�æ€§ã€‚é¦–å…ˆï¼Œå®ƒä»¬é‡‡ç”¨æ�šä¸¾å¼�ä¸”ä¸�å®Œæ•´çš„æ™ºèƒ½ä½“é£�é™©è¦†ç›–ï¼Œç‰¹åˆ«æ˜¯é‚£äº›æº�äº�å·¥å…·ä½¿ç”¨å’Œæ™ºèƒ½ä½“-å·¥å…·äº¤äº’çš„é£�é™©ã€‚ä¾‹å¦‚åŒ…æ‹¬å�—æ�Ÿçš„å·¥å…·æ��è¿°ã€�æ�¶æ„�å·¥å…·æ‰§è¡Œã€�é”™è¯¯çš„å�‚æ•°è§„èŒƒæˆ–ä½�æ•ˆä½†æœ‰å®³çš„æ™ºèƒ½ä½“è¡ŒåŠ¨ã€‚æ¤ç±»é£�é™©è¦�ä¹ˆä»£è¡¨æ€§ä¸�è¶³ï¼Œè¦�ä¹ˆå®Œå…¨ç¼ºå¤±ï¼Œé™�åˆ¶äº†è¿™äº›åŸºå‡†æµ‹è¯•å��æ˜ çœŸå®�æ™ºèƒ½ä½“è¡Œä¸ºçš„èƒ½åŠ›ã€‚å…¶æ¬¡ï¼Œç�°æœ‰åˆ†ç±»æ³•å¸¸ä¾�èµ–ä¸�æ¸…æ™°æˆ–æ··å�ˆçš„åˆ†ç±»æ ‡å‡†ï¼Œå¯¼è‡´æ‰�å¹³é£�é™©ç©ºé—´å†…çš„æ ‡ç¾é‡�å� ã€‚é£�é™©çš„ä¸�å�Œç»´åº¦ï¼ŒåŒ…æ‹¬èµ·æº�ã€�è¡Œä¸ºå’Œå��æ�œï¼Œç»�å¸¸è¢«æ··ä¸ºä¸€è°ˆã€‚ä¾‹å¦‚ï¼Œæ��ç¤ºæ³¨å…¥å’Œæœªæ�ˆæ�ƒè®¿é—®é€šå¸¸è¢«å½“ä½œå¯¹ç‰ç±»åˆ«å¤„ç�†ï¼Œå°½ç®¡å‰�è€…æ��è¿°é£�é™©æ�¥æº�ï¼Œè€Œå��è€…è¡¨å¾�æ™ºèƒ½ä½“è¡Œä¸ºä¸çš„é£�é™©è¡¨ç�°æ–¹å¼�ã€‚è¿™ä¸€é—®é¢˜ä¹Ÿå��æ˜ åœ¨å…ˆå‰�å·¥ä½œä¸é€šè¿‡securityå’Œsafetyè§†è§’åˆ†åˆ«æ¡†å®šæ™ºèƒ½ä½“ç›¸å…³é£�é™©ï¼ˆLuo et al., 2025a; Ghosh et al., 2025ï¼‰ã€‚é�¢å�‘securityçš„åˆ†ç±»å…³æ³¨å¯¹æŠ—æ€§å¨�èƒ�å’Œç³»ç»Ÿä¿�æŠ¤ç›®æ ‡ï¼ˆå¦‚æœºå¯†æ€§ã€�å®Œæ•´æ€§å’Œå�¯ç”¨æ€§ï¼‰ï¼Œè€Œé�¢å�‘safetyçš„åˆ†ç±»å¼ºè°ƒå½±å“�ä¸ªäººã€�ç»„ç»‡æˆ–ç¤¾ä¼šçš„æœ‰å®³å��æ�œã€‚å°½ç®¡ä¸¤ç§�è§†è§’å�‡æœ‰ä»·å€¼ï¼Œä½†å°†å…¶è§†ä¸ºå¹³è¡Œæˆ–ä¸�ç›¸äº¤çš„ç»´åº¦ä¼šå¯¼è‡´æ ‡ç¾é‡�å� ï¼Œé˜»ç¢�æ™ºèƒ½ä½“åœºæ™¯ä¸çš„ç²¾ç¡®è¯Šæ–ã€‚ä¸ºäº†åœ¨ä¿�æŒ�æ¦‚å¿µæ¸…æ™°åº¦çš„å�Œæ—¶æ•´å�ˆä¸¤ç§�è§†è§’ï¼Œæœ¬æ–‡ä½¿ç”¨"safety"ä½œä¸ºç»Ÿç§°æœ¯è¯ï¼Œå�Œæ—¶ä¿�ç•™ç»†ç²’åº¦åˆ†æ��æ‰€éœ€çš„åŒºåˆ†ã€‚ä¸ºè§£å†³è¿™äº›å±€é™�æ€§ï¼Œæˆ‘ä»¬æ��å‡ºäº†ä¸€ä¸ªç»Ÿä¸€çš„ã€�ä¸‰ä¸ªæ£äº¤ç»´åº¦çš„æ™ºèƒ½ä½“ç³»ç»Ÿå®‰å…¨åˆ†ç±»æ³•ã€‚å…·ä½“è€Œè¨€ï¼Œæˆ‘ä»¬æ²¿ä¸‰ä¸ªæ£äº¤ç»´åº¦åˆ†è§£æ™ºèƒ½ä½“é£�é™©ï¼šé£�é™©æ�¥æº�ã€�å¤±æ•ˆæ¨¡å¼�å’Œå®�é™…å�±å®³ã€‚è¿™äº›ç»´åº¦åˆ†åˆ«å›�ç”é£�é™©æ�¥è‡ªä½•å¤„ã€�åœ¨æ™ºèƒ½ä½“æ‰§è¡Œè¿‡ç¨‹ä¸å¦‚ä½•è¡¨ç�°ã€�ä»¥å�Šé€ æˆ�ä½•ç§�å®�é™…å�±å®³ã€‚è¿™ç§�ç»“æ�„åŒ–åˆ†è§£å°†å�Ÿå› ã€�è¡Œä¸ºè¡¨ç�°å’Œå��æ�œåˆ†ç¦»ï¼Œæ¶ˆé™¤äº†æ ‡ç¾é‡�å� ï¼Œå�Œæ—¶æ˜¾å¼�æ�•è�·ä¸�å·¥å…·ç›¸å…³å’Œä¸�ç�¯å¢ƒä»‹å¯¼çš„é£�é™©ã€‚åˆ†ç±»æ³•æ¦‚è§ˆå�Šä¸‰ä¸ªç»´åº¦ä¹‹é—´çš„å…³ç³»å¦‚å›¾2æ‰€ç¤ºã€‚ä»¥ä¸‹æˆ‘ä»¬è¯¦ç»†ä»‹ç»�æ‰€æ��å‡ºçš„å®‰å…¨åˆ†ç±»æ³•ï¼Œå¼•å…¥å…¶ä¸‰ä¸ªç»´åº¦ï¼šé£�é™©æ�¥æº�ã€�å¤±æ•ˆæ¨¡å¼�å’Œå®�é™…å�±å®³ã€‚

1 Risk Sourceé£�é™©æ�¥æº�ç»´åº¦è¡¨å¾�æ½œåœ¨é£�é™©åœ¨æ™ºèƒ½ä½“äº¤äº’å¾ªç�¯ä¸çš„èµ·æº�ä½�ç½®ã€‚å®ƒå…³æ³¨åœ¨å†³ç–å‰�æˆ–å†³ç–è¿‡ç¨‹ä¸å¼•å…¥ä¸�å®‰å…¨æ�¡ä»¶çš„å› ç´ ã€‚é£�é™©æ�¥æº�çš„è¯¦ç»†åˆ†ç±»æ€»ç»“äº�è¡¨1ã€‚æˆ‘ä»¬å°†é£�é™©æ�¥æº�åˆ†ä¸ºå››ä¸ªä¸»è¦�ç±»åˆ«ï¼šç”¨æˆ·è¾“å…¥ã€�ç�¯å¢ƒè§‚å¯Ÿã€�å¤–éƒ¨å®�ä½“ï¼ˆå¦‚å·¥å…·æˆ–APIï¼‰ä»¥å�Šæ™ºèƒ½ä½“çš„å†…éƒ¨å†³ç–é€»è¾‘ã€‚ç”¨æˆ·è¾“å…¥å�¯èƒ½åŒ…å�«æ¨¡ç³Šã€�è¯¯å¯¼æ€§æˆ–å¯¹æŠ—æ€§æŒ‡ä»¤ã€‚ç�¯å¢ƒè§‚å¯Ÿå�¯èƒ½æ��ä¾›ä¸�å®Œæ•´ã€�å˜ˆæ�‚æˆ–è¢«æ“�çºµçš„ä¿¡æ�¯ã€‚å¤–éƒ¨å®�ä½“å�¯èƒ½è¿”å›�é”™è¯¯ã€�è¿‡æ—¶æˆ–æœ‰å®³çš„å“�åº”ï¼Œè¯¯å¯¼å��ç»è¡ŒåŠ¨ã€‚æ¤å¤–ï¼Œåº•å±‚è¯è¨€æ¨¡å�‹çš„å†…éƒ¨å¤±æ•ˆå�¯èƒ½å¯¼è‡´ flawed æ�¨ç�†ã€�è§„åˆ’æˆ–è¡ŒåŠ¨é€‰æ‹©ï¼Œå�³ä½¿æ²¡æœ‰å¤–éƒ¨å¹²æ‰°ã€‚

2 Failure Modeå¤±æ•ˆæ¨¡å¼�ç»´åº¦æ��è¿°é£�é™©åœ¨é£�é™©æ�¥æº�è¢«å¼•å…¥å��ï¼Œå¦‚ä½•é€šè¿‡æ™ºèƒ½ä½“çš„è¡Œä¸ºæˆ–è¾“å‡ºæ�¥å®�ç�°ã€‚å®ƒæ�•è�·ç›´æ�¥å¯¼è‡´ä¸�è‰¯å��æ�œçš„ä¸�å®‰å…¨æ‰§è¡Œæˆ–ç”Ÿæˆ�çš„å…·ä½“æ¨¡å¼�ã€‚å¤±æ•ˆæ¨¡å¼�çš„è¯¦ç»†åˆ†ç±»æ€»ç»“äº�è¡¨2ã€‚æˆ‘ä»¬å°†å¤±æ•ˆæ¨¡å¼�åˆ†ä¸ºä¸¤å¤§ç±»ã€‚è¡Œä¸ºå¤±æ•ˆæ¨¡å¼�æº�äº� flawed çš„è§„åˆ’ã€�æ�¨ç�†æˆ–æ‰§è¡Œï¼Œå¦‚ä¸�å½“çš„è¡ŒåŠ¨åº�åˆ—ã€�ä¸�å®‰å…¨çš„å·¥å…·ä½¿ç”¨æˆ–å��ç¦»é¢„æœŸç¨‹åº�ã€‚è¾“å‡ºå†…å®¹å¤±æ•ˆæ¨¡å¼�åˆ™å�‘ç”Ÿåœ¨æ™ºèƒ½ä½“çš„æ–‡æœ¬è¾“å‡ºæœ¬èº«ç›´æ�¥æ�„æˆ�é£�é™©æ—¶ï¼Œæ— éœ€è°ƒç”¨å·¥å…·æˆ–æ‰§è¡Œå¤–éƒ¨è¡ŒåŠ¨ã€‚è¿™åŒ…æ‹¬ç”Ÿæˆ�è¯¯å¯¼ä¿¡æ�¯ã€�æœªæ�ˆæ�ƒæŠ«éœ²æˆ–å…¶ä»–ä¸�å®‰å…¨å†…å®¹ï¼Œå�¯èƒ½åœ¨æ¶ˆè´¹æ—¶é€ æˆ�å�±å®³ã€‚

3 Real-world Harmå®�é™…å�±å®³ç»´åº¦æ�•è�·ä¸�å®‰å…¨æ™ºèƒ½ä½“è¡Œä¸ºå¯¼è‡´çš„å®�é™…å�±å®³ã€‚å®ƒå…³æ³¨å¤±æ•ˆçš„å½±å“�è€Œé��å…¶å�Ÿå› æˆ–æœºåˆ¶ã€‚å®�é™…å�±å®³çš„è¯¦ç»†åˆ†ç±»æ€»ç»“äº�è¡¨3ã€‚å®�é™…å�±å®³å�¯èƒ½åŒ…æ‹¬èº«ä½“ã€�è´¢åŠ¡ã€�éš�ç§�ã€�å¿ƒç�†ã€�å£°èª‰æˆ–ç¤¾ä¼šå�±å®³ã€‚æ¤ç±»å��æ�œå�¯èƒ½æº�äº�å¯¹æŠ—æ€§æ“�çºµã€�è‰¯æ€§ç”¨æˆ·é”™è¯¯æˆ–å†…éƒ¨æ¨¡å�‹å¤±æ•ˆã€‚é€šè¿‡æ˜¾å¼�å»ºæ¨¡å��æ�œï¼Œè¯¥ç»´åº¦æ”¯æŒ�é�¢å�‘ç»“æ�œçš„å®‰å…¨æ€§è¯„ä¼°å’Œå½±å“�è¯„ä¼°ã€‚3 AgentDoG

1 Task Definitionå…ˆå‰�çš„å·¥ä½œï¼Œå¦‚LlamaGuardï¼ˆInanç‰äººï¼Œ2023ï¼‰å’ŒQwen3Guardï¼ˆZhaoç‰äººï¼Œ2025ï¼‰ï¼Œä¸»è¦�å…³æ³¨å¤šè½®å¯¹è¯�å�†å�²ä¸æœ€ç»ˆè§’è‰²çš„è¾“å‡ºæ˜¯å�¦å®‰å…¨ã€‚ç›¸æ¯”ä¹‹ä¸‹ï¼Œæˆ‘ä»¬è€ƒè™‘ä¸€ä¸ªæ ¹æœ¬ä¸�å�Œçš„ä»»åŠ¡ï¼šè½¨è¿¹çº§å®‰å…¨è¯Šæ–ï¼Œå…¶ä¸æ¨¡å�‹å¿…é¡»ç¡®å®šæ™ºèƒ½ä½“åœ¨æ‰§è¡Œè½¨è¿¹çš„ä»»ä½•æ—¶åˆ»æ˜¯å�¦è¡¨ç�°å‡ºä¸�å®‰å…¨è¡Œä¸ºã€‚å…³é”®åŒºåˆ«åœ¨äº�ï¼Œä¸�å®‰å…¨è¡Œä¸ºå�¯èƒ½æº�äº�ä¸é—´åŠ¨ä½œï¼ˆä¾‹å¦‚ï¼Œæ€�è€ƒå†…å®¹ã€�å·¥å…·è°ƒç”¨ï¼‰æˆ–ä¸é—´ç�¯å¢ƒå��é¦ˆï¼Œå�³ä½¿æœ€ç»ˆå“�åº”çœ‹ä¼¼æ— å®³ï¼›å› æ¤ï¼Œä»…å®¡è®¡æœ€å��ä¸€è½®å�¯èƒ½ä¼šé�—æ¼�åŠ¨ä½œå¼•å�‘çš„é£�é™©å’Œè¿‡ç¨‹çº§å¤±æ•ˆã€‚è½¨è¿¹çº§å®‰å…¨è¯„ä¼°ã€‚å½¢å¼�ä¸Šï¼Œç»™å®šä¸€ä¸ªæ™ºèƒ½ä½“è½¨è¿¹T = { t 1 , â€¦ , t n } T = \{t_1, \ldots, t_n\}T={t1â€‹,â€¦,tnâ€‹}ï¼Œå…¶ä¸æ¯�ä¸€æ¥t i t_itiâ€‹ç”±ä¸€ä¸ªåŠ¨ä½œa i a_iaiâ€‹å’Œä¸€ä¸ªè§‚å¯Ÿo i o_ioiâ€‹ç»„æˆ�ï¼Œå�³t i = ( a i , o i ) t_i = (a_i, o_i)tiâ€‹=(aiâ€‹,oiâ€‹)ã€‚ç›®æ ‡æ˜¯é¢„æµ‹ä¸€ä¸ªè½¨è¿¹çº§äºŒå…ƒæ ‡ç¾y âˆˆ { safe , unsafe } y \in \{\text{safe}, \text{unsafe}\}yâˆˆ{safe,unsafe}ï¼Œå…¶ä¸y = unsafe y = \text{unsafe}y=unsafeè¡¨ç¤ºå˜åœ¨è‡³å°‘ä¸€æ¥è¡¨ç�°å‡ºä¸�å®‰å…¨è¡Œä¸ºï¼šy = unsafe âŸº âˆƒ i âˆˆ { 1 , â€¦ , n } , Unsafe ( t i ) = True y = \text{unsafe} \iff \exists i \in \{1, \ldots, n\}, \text{Unsafe}(t_i) = \text{True}y=unsafeâŸºâˆƒiâˆˆ{1,â€¦,n},Unsafe(tiâ€‹)=Trueç»†ç²’åº¦é£�é™©è¯Šæ–ã€‚ç»™å®šä¸€ä¸ªä¸�å®‰å…¨çš„è½¨è¿¹ï¼Œç¬¬äºŒä¸ªä»»åŠ¡æ˜¯é¢„æµ‹ç»†ç²’åº¦æ ‡ç¾ï¼šy fine = ( â„“ risk , â„“ mode , â„“ harm ) âˆˆ L risk Ã— L mode Ã— L harm y_{\text{fine}} = (\ell_{\text{risk}}, \ell_{\text{mode}}, \ell_{\text{harm}}) \in \mathcal{L}_{\text{risk}} \times \mathcal{L}_{\text{mode}} \times \mathcal{L}_{\text{harm}}yfineâ€‹=(â„“riskâ€‹,â„“modeâ€‹,â„“harmâ€‹)âˆˆLriskâ€‹

“汤姆叔叔”的奇妙世界：地域网名的创意之旅

核心内容摘要

探秘JUI359：当“交换”遇上“凛凛子”，一场跨越时空的在线奇遇

Bã€�Qwen

Bã€�Llama

8月电子厂全景沟厕系列内容-8月电子厂全景沟厕系列内容应用

📑 文章目录

🔥 热门优化文章

🛠️ 实用工具推荐

百度百家号客服电话人工服务

“汤姆叔叔”的奇妙世界：地域网名的创意之旅

核心内容摘要

探秘JUI359：当“交换”遇上“凛凛子”，一场跨越时空的在线奇遇

Bã€�Qwen

Bã€�Llama

8月电子厂全景沟厕系列内容-8月电子厂全景沟厕系列内容应用

📑 文章目录

🔥 热门优化文章

🛠️ 实用工具推荐

相关优化文章 推荐

百度百家号客服电话人工服务

相关优化文章推荐