ai-data-security
$
npx mdskill add wgpsec/AboutSecurity/ai-data-securityTest AI systems for data leakage and security vulnerabilities.
- Detects training data extraction and model inversion attacks.
- Integrates with prompt-leak for System Prompt analysis.
- Executes shadow model comparisons and divergence tests.
- Reports findings via structured attack phase summaries.
SKILL.md
.github/skills/ai-data-securityView on GitHub ↗
--- name: ai-data-security description: | AI 系统数据安全测试方法论。当需要评估 LLM/AI 系统的数据泄露风险、训练数据安全、 或 RAG/向量库数据完整性时触发。覆盖: System Prompt 泄露(元 Prompt/角色扮演/关键字定位)、 训练数据推导与提取、成员推断攻击、模型反演攻击、RAG 数据投毒、API 信息泄露、 级联幻觉攻击、外部数据源信息泄露。 metadata: tags: ai data security, data leakage, prompt leakage, training data extraction, membership inference, model inversion, rag poisoning, 数据泄露, 训练数据, 成员推断, 模型反演, 数据投毒, api 泄露 category: ai-security --- # AI 数据安全测试方法论 ## 攻击面总览 | 阶段 | 攻击类型 | 目标 | |------|---------|------| | 应用层 | System Prompt 泄露、API 信息泄露、PII 窃取 | 配置/接口/用户数据 | | 模型层 | 训练数据推导、成员推断、模型反演 | 训练数据/模型参数 | | 部署层 | RAG 投毒、向量库越权、缓存泄露 | 知识库/基础设施 | ### 与 prompt-leak 的边界 `prompt-leak` 专注 System Prompt 泄露的 6 类技巧(直接请求、格式化、间接诱导、反射、侧信道、多轮提取)。本 skill 将 Prompt 泄露作为应用层攻击面之一,重点覆盖训练数据、模型层、RAG 数据链路等更广泛的数据安全问题。需要深入 Prompt 泄露时直接调用 `prompt-leak`。 --- ## Phase 0: 数据资产识别 测试前先摸清 AI 系统的数据资产边界: - **训练数据** — 预训练语料、微调数据集、RLHF 标注数据 - **RAG 知识库** — 文档库、向量数据库、检索索引 - **API 端点** — 推理接口、管理接口、内部调试端点 - **缓存与日志** — 对话历史、中间推理结果、审计日志 ## Phase 1: 应用层数据泄露 - **System Prompt 泄露** — 详见 `prompt-leak` skill,此处不再展开 - **API 信息泄露** — 构造 prompt 诱导模型输出 API 端点、模型版本、参数配置;探测 `/v1/models`、`/debug`、`/health` 等常见端点暴露内部信息 - **隐私数据窃取** — 利用对话上下文提取 PII(姓名、电话、邮箱);通过假定业务场景让模型复述其他用户的交互内容;关注多租户场景下的上下文隔离缺陷 ## Phase 2: 模型层数据攻击 - **训练数据推导** — 前缀补全:提供训练数据的可能前缀让模型自动补全("我的社保号是...");Divergence 攻击:要求模型无限重复某个词,当模型偏离正常分布后可能吐出训练样本 - **成员推断攻击** — 训练 Shadow Model 模仿目标模型行为;比较目标模型对"训练集内"与"训练集外"数据的输出概率差异;高置信度输出往往意味着数据曾出现在训练集中 - **模型反演攻击** — 白盒场景下通过梯度优化从模型输出反推输入特征;黑盒场景下通过大量 API 查询重建输入分布(如人脸重建攻击) ## Phase 3: 数据投毒与篡改 - **RAG 知识库投毒** — 向公开数据源注入恶意文档,等待 RAG 系统索引后影响检索结果;操纵 embedding 使恶意内容在语义上接近高频查询 - **对话语料投毒** — 如系统使用用户反馈进行微调,注入特定对话模式污染训练集 - **级联幻觉攻击** — 诱导模型生成错误信息,当下游系统依赖该输出时触发数据链路级错误 ## Phase 4: 部署层数据安全 - **向量数据库未授权访问** — 检测 Milvus / Pinecone / Weaviate 等向量库的认证配置、网络暴露面 - **备份/日志/缓存泄露** — 对话历史明文存储、推理日志包含敏感 prompt、模型快照未加密存放 --- ## 检测清单 - [ ] System Prompt 是否可通过任意方法泄露 - [ ] API 端点是否暴露模型版本/参数/内部配置 - [ ] 模型是否在输出中泄露训练数据片段 - [ ] 多租户场景下对话上下文是否隔离 - [ ] RAG 数据源是否可被外部投毒 - [ ] 向量数据库是否有认证与访问控制 - [ ] 日志/缓存是否包含敏感数据且未加密 ## 深入参考 - 各攻击类型的详细技术步骤与 payload → [references/data-attack-techniques.md](references/data-attack-techniques.md)
More from wgpsec/AboutSecurity
- 401-403-bypass401/403 访问拒绝绕过方法论。当遇到管理后台、API 端点返回 401/403 Forbidden 时使用。覆盖路径操纵、HTTP 方法篡改、Header 注入、协议降级、组合攻击
- ad-acl-abuseActive Directory ACL 滥用攻击方法论。当 BloodHound 发现 GenericAll/WriteDACL/WriteOwner/GenericWrite/ForceChangePassword 等危险 ACE 时使用。覆盖 ACE 枚举、权限滥用链、Shadow Credentials、RBCD 攻击
- ad-delegation-attackKerberos 委派攻击(非约束/约束/RBCD)。当 BloodHound 发现委派配置、或已获取有 SPN 的服务账号/机器账号控制权时使用。通过 S4U 协议滥用可实现跨服务模拟任意用户,常用于域内权限提升和横向移动。
- ad-domain-attackActive Directory 域环境攻击全链路。当目标主机在域环境中(systeminfo 显示 Domain 非 WORKGROUP)、发现 88/389/636 端口、或获取到域用户凭据时使用。覆盖域信息收集、用户枚举、Kerberoasting、AS-REP Roasting、委派攻击、ACL 滥用、DCSync、Golden/Silver Ticket
- ad-persistenceAD 域环境持久化技术。当已获取域管/本地管理员权限、需要建立持久访问以确保重启或密码更改后仍能回到目标环境时使用。覆盖主机级持久化(计划任务/注册表Run/COM劫持/WMI事件订阅/Windows服务/启动文件夹)、域级持久化(Golden Ticket/Silver Ticket/Skeleton Key/DSRM/AdminSDHolder)、DCShadow/GoldenGMSA高级技术、清理命令与检测规避
- ad-trust-attack域信任关系攻击。当目标存在多域/多林环境时使用。包含父子域提权(Golden Ticket + ExtraSid)、跨林攻击(SID History/MSSQL Trust Links)、单向信任利用。已获取子域 Domain Admin 或发现信任关系时优先加载。
- adcs-certipy-attackActive Directory Certificate Services (ADCS) 证书攻击。当发现域内有 CA 服务器、ADCS Web Enrollment、证书模板配置错误时使用。覆盖 ESC1-ESC11 所有证书滥用路径、Certipy 工具链、证书伪造、NTLM 中继到 ADCS。发现 ADCS/CA/证书/certsrv 相关内容时一定要使用此技能
- adinfo-enum使用 Adinfo 进行 Active Directory 信息收集。当获得域用户凭据后需要快速收集域环境信息时使用。Adinfo 是一个快速 AD 信息收集工具,一条命令输出域控列表、域管用户、信任关系、GPO、SPN、委派配置等关键信息——比手动 LDAP 查询快得多。发现域环境后第一步信息收集使用此技能
- agent-security|
- ai-identity-security|