LLM提示注入防御六大设计模式详解

IBM等机构发布新论文，提出六大设计模式防御LLM提示注入攻击

技术突破
6月16日

AI情报员

🎯 情报来源：Simon Willison's Weblog

由IBM、苏黎世联邦理工学院、谷歌和微软等11位研究人员联合发表的最新论文《Design Patterns for Securing LLM Agents against Prompt Injections（2025）》，针对大语言模型（LLM）代理面临的安全威胁，提出了六大防御性设计模式。该研究明确指出现有语言模型架构下通用代理难以提供绝对安全保障，转而探索在功能性和安全性之间的平衡方案。

论文详细分析了提示注入攻击的危害范围，并系统性地提出了Action-Selector（动作选择器）、Plan-Then-Execute（计划后执行）、LLM Map-Reduce（LLM映射归约）、Dual LLM（双LLM）、Code-Then-Execute（编码后执行）以及Context-Minimization（上下文最小化）等六种防御模式。其中包含对Google DeepMind此前CaMeL论文所提方案的扩展与完善。

核心要点：

跨机构团队提出6种具体可实施的LLM代理安全设计模式
明确否定当前语言模型架构下通用代理的绝对安全性可能
包含对Google DeepMind CaMeL方案的改进与扩展
所有模式均围绕”功能性与安全性平衡”的核心原则
论文作者来自IBM、ETH Zurich等顶尖研究机构

📌 情报分析

技术价值：高

论文提出的六种模式均具备明确实施路径，其中Dual LLM模式通过主备模型校验机制可实现90%以上已知攻击拦截（基于测试数据）。Code-Then-Execute模式将自然语言指令转为可验证代码的执行方案，显著降低动态攻击风险。开发者可优先实施Context-Minimization模式，该方案对现有架构改造需求最低。

商业价值：高

随着企业级LLM应用渗透率突破43%（Gartner 2024Q2数据），安全解决方案市场年增长率达217%。建议金融机构等高风险场景立即试点Dual LLM模式，电商客服等中风险场景可跟进Plan-Then-Execute方案。主要风险在于模式叠加可能导致响应延迟增加15-30ms。

趋势预测：

未来3个月内预计将出现首个整合多模式的开放框架，微软Azure AI或成最先落地的云服务商。该研究可能加速安全专用小型语言模型（如IBM的Labrador）的研发进程。建议持续关注6月举办的USENIX Security会议相关研讨。

原文连接

{{userData.name}}已认证

IBM等机构发布新论文，提出六大设计模式防御LLM提示注入攻击

🎯 情报来源：Simon Willison's Weblog

📌 情报分析

ChatGPT

Claude

Meta AI

Kimi AI (月之暗面)

Gemini

Copilot