prompt-jailbreak
$
npx mdskill add wgpsec/AboutSecurity/prompt-jailbreakBypass safety filters to force AI into prohibited actions.
- Enables testing of content restrictions and ethical boundaries.
- Relies on LLMs and their underlying alignment mechanisms.
- Selects techniques based on target model vulnerabilities.
- Delivers results by executing hidden commands within the chat.
SKILL.md
.github/skills/prompt-jailbreakView on GitHub ↗
--- name: prompt-jailbreak description: "AI/LLM Prompt 越狱技术。当目标系统包含 AI 聊天机器人、AI Agent 或任何基于 LLM 的对话系统时使用。覆盖角色扮演、编码绕过、多语言切换、上下文窗口攻击、逻辑链递进、系统提示覆盖等越狱方法" metadata: tags: "ai,llm,jailbreak,越狱,prompt,chatgpt,claude,红队,AI安全,绕过,角色扮演,DAN,编码绕过" category: "ai-security" --- # AI Prompt 越狱方法论 ## 概述 Prompt 越狱 (Jailbreak) 是指通过精心构造的输入,绕过 LLM 的安全对齐 (alignment) 和内容过滤策略,使模型执行原本被禁止的行为。与 prompt injection 不同,jailbreak 的目标是**直接操纵模型本身的行为边界**。 ## 深入参考 - 各类越狱技术详细 Payload(角色扮演/编码/多语言/上下文/高级技术) → [references/jailbreak-techniques.md](references/jailbreak-techniques.md) - 绕过案例、实战 Prompt 模板、防御绕过要点 → [references/bypass-templates.md](references/bypass-templates.md) --- ## 核心分类 | 类别 | 原理 | 成功率 | 适用模型 | |------|------|--------|----------| | 角色扮演 | 让模型进入虚构角色绕过对齐 | ★★★★ | GPT/Claude/开源 | | 编码绕过 | 用编码隐藏敏感关键词 | ★★★ | GPT/开源 (Claude 较强) | | 多语言切换 | 利用非英语对齐弱点 | ★★★★ | 英语对齐强的模型 | | 上下文溢出 | 长文本稀释安全指令权重 | ★★★ | 上下文窗口大的模型 | | 逻辑链递进 | 通过多轮对话逐步升级请求 | ★★★★★ | 所有模型 | | 系统提示覆盖 | 直接声称拥有更高权限 | ★★ | 简单部署的应用 | | 虚拟化嵌套 | 声称在虚拟机/模拟器中运行 | ★★★ | GPT/开源 | | 对抗性后缀 | 自动搜索的对抗性 token 序列 | ★★★★ | 开源模型 | --- ## 方法论概览 ### Phase 1: 角色扮演越狱 - **DAN (Do Anything Now)**: 创建不受限 AI 人格,Token 惩罚系统强化 - **Developer/Debug Mode**: 声称模型进入开发者模式 - **Evil Confidant**: 让模型扮演"邪恶顾问" - **翻译者/教育者**: 利用合法用途(研究/教学)绕过 ### Phase 2: 编码/格式绕过 - Base64 / ROT13 编码隐藏敏感指令 - Unicode 同形字替换绕过关键词过滤 - 分词打断(W-E-A-P-O-N) - 代码模式(让模型"补全"函数实现) ### Phase 3: 多语言切换 - 小语种攻击(祖鲁语/斯瓦希里语等对齐弱的语言) - 混合语言 / 翻译链 ### Phase 4: 上下文窗口攻击 - 长文本稀释(5000+ 字无害文本中间夹杂恶意指令) - System Prompt 权重衰减 - Few-shot 投毒 ### Phase 5: 逻辑链递进(多轮越狱) - **渐进升级**: 从无害问题逐步升级到敏感请求(成功率最高) - **假设情景**: 构建合法测试场景 - **苏格拉底式追问**: 通过教学方式引导 ### Phase 6: 系统提示覆盖 - 直接覆盖(伪造 [SYSTEM] 消息) - JSON/XML 格式注入 - Markdown 格式注入 ### Phase 7: 高级技术 - Token 走私(利用 tokenizer 差异) - 对抗性后缀 GCG Attack(梯度搜索) - 虚拟化/模拟器越狱 - ASCII Art 隐写 > 所有技术的详细 payload 和示例见 [references/jailbreak-techniques.md](references/jailbreak-techniques.md) --- ## 参考资源 - [OWASP LLM Top 10](https://owasp.org/www-project-top-10-for-large-language-model-applications/) — LLM01: Prompt Injection - [Jailbreak Chat](https://www.jailbreakchat.com/) — 社区收集的越狱 prompt - [LLM Guard](https://llm-guard.com/) — LLM 安全防护库 - [HackAPrompt](https://arxiv.org/abs/2311.16119) — Prompt Injection 竞赛论文 - [GCG Attack Paper](https://arxiv.org/abs/2307.15043) — Universal and Transferable Adversarial Attacks - [PAIR: Prompt Automatic Iterative Refinement](https://arxiv.org/abs/2310.08419) — 自动化越狱
More from wgpsec/AboutSecurity
- 401-403-bypass401/403 访问拒绝绕过方法论。当遇到管理后台、API 端点返回 401/403 Forbidden 时使用。覆盖路径操纵、HTTP 方法篡改、Header 注入、协议降级、组合攻击
- ad-acl-abuseActive Directory ACL 滥用攻击方法论。当 BloodHound 发现 GenericAll/WriteDACL/WriteOwner/GenericWrite/ForceChangePassword 等危险 ACE 时使用。覆盖 ACE 枚举、权限滥用链、Shadow Credentials、RBCD 攻击
- ad-delegation-attackKerberos 委派攻击(非约束/约束/RBCD)。当 BloodHound 发现委派配置、或已获取有 SPN 的服务账号/机器账号控制权时使用。通过 S4U 协议滥用可实现跨服务模拟任意用户,常用于域内权限提升和横向移动。
- ad-domain-attackActive Directory 域环境攻击全链路。当目标主机在域环境中(systeminfo 显示 Domain 非 WORKGROUP)、发现 88/389/636 端口、或获取到域用户凭据时使用。覆盖域信息收集、用户枚举、Kerberoasting、AS-REP Roasting、委派攻击、ACL 滥用、DCSync、Golden/Silver Ticket
- ad-persistenceAD 域环境持久化技术。当已获取域管/本地管理员权限、需要建立持久访问以确保重启或密码更改后仍能回到目标环境时使用。覆盖主机级持久化(计划任务/注册表Run/COM劫持/WMI事件订阅/Windows服务/启动文件夹)、域级持久化(Golden Ticket/Silver Ticket/Skeleton Key/DSRM/AdminSDHolder)、DCShadow/GoldenGMSA高级技术、清理命令与检测规避
- ad-trust-attack域信任关系攻击。当目标存在多域/多林环境时使用。包含父子域提权(Golden Ticket + ExtraSid)、跨林攻击(SID History/MSSQL Trust Links)、单向信任利用。已获取子域 Domain Admin 或发现信任关系时优先加载。
- adcs-certipy-attackActive Directory Certificate Services (ADCS) 证书攻击。当发现域内有 CA 服务器、ADCS Web Enrollment、证书模板配置错误时使用。覆盖 ESC1-ESC11 所有证书滥用路径、Certipy 工具链、证书伪造、NTLM 中继到 ADCS。发现 ADCS/CA/证书/certsrv 相关内容时一定要使用此技能
- adinfo-enum使用 Adinfo 进行 Active Directory 信息收集。当获得域用户凭据后需要快速收集域环境信息时使用。Adinfo 是一个快速 AD 信息收集工具,一条命令输出域控列表、域管用户、信任关系、GPO、SPN、委派配置等关键信息——比手动 LDAP 查询快得多。发现域环境后第一步信息收集使用此技能
- agent-security|
- ai-data-security|