gau-urlfetch

$npx mdskill add wgpsec/AboutSecurity/gau-urlfetch

Gather historical URLs from four major archives for attack surface discovery.

  • Recover hidden endpoints and parameters from Wayback Machine and Common Crawl.
  • Aggregates data from Wayback, Common Crawl, OTX, and URLScan sources.
  • Executes passive collection with configurable filters and time ranges.
  • Outputs raw URL lists ready for piping into scanners or grep commands.

SKILL.md

.github/skills/gau-urlfetchView on GitHub ↗
---
name: gau-urlfetch
description: "使用 gau 从历史数据源收集目标域名的已知 URL。当需要发现目标的历史 URL、隐藏端点、参数、API 路径时使用。gau 聚合 Wayback Machine、Common Crawl、OTX、URLScan 四大数据源。任何涉及 URL 收集、攻击面发现、参数发现、历史页面收集的场景都应使用此技能"
metadata:
  tags: "gau,url,fetch,URL收集,Wayback,历史URL,攻击面,参数发现,OSINT,信息收集"
  category: "tool"
---

# gau URL 历史收集方法论

gau (getallurls) 从历史数据源收集已知 URL。核心优势:**四大数据源聚合**(Wayback/CommonCrawl/OTX/URLScan)+ **纯被动** + **管道友好**。

项目地址:https://github.com/lc/gau

## Phase 1: 基本使用

```bash
# 收集目标域名的所有已知 URL
gau target.com

# 包含子域名
gau --subs target.com

# 输出到文件
gau target.com -o urls.txt

# 过滤静态资源
gau --blacklist png,jpg,gif,svg,woff,ttf,ico,css target.com
```

## Phase 2: 数据源控制

```bash
# 指定数据源
gau --providers wayback target.com
gau --providers wayback,commoncrawl target.com

# 时间范围
gau --from 202301 --to 202612 target.com

# 控制线程
gau --threads 10 target.com

# 从 stdin
echo target.com | gau
cat domains.txt | gau
```

## Phase 3: 管道集成

```bash
# URL 收集 → 提取带参数的 URL → XSS 扫描
gau target.com | grep "=" | sort -u | dalfox pipe --silence

# URL 收集 → 提取 JS 文件
gau target.com | grep "\.js$" | sort -u

# URL 收集 → 提取 API 端点
gau target.com | grep -E "/api/|/v[0-9]/" | sort -u

# URL 收集 → 存活检测
gau target.com | httpx -silent

# URL 收集 → 敏感路径
gau target.com | grep -iE "admin|backup|config|\.env|\.git|debug"
```

## 常用场景速查

| 场景 | 命令 |
|------|------|
| 全量收集 | `gau --subs target.com -o all_urls.txt` |
| 参数URL | `gau target.com \| grep "=" \| sort -u` |
| JS 文件 | `gau target.com \| grep "\\.js$" \| sort -u` |
| API 发现 | `gau target.com \| grep -E "/api/" \| sort -u` |

More from wgpsec/AboutSecurity

SkillDescription
401-403-bypass401/403 访问拒绝绕过方法论。当遇到管理后台、API 端点返回 401/403 Forbidden 时使用。覆盖路径操纵、HTTP 方法篡改、Header 注入、协议降级、组合攻击
ad-acl-abuseActive Directory ACL 滥用攻击方法论。当 BloodHound 发现 GenericAll/WriteDACL/WriteOwner/GenericWrite/ForceChangePassword 等危险 ACE 时使用。覆盖 ACE 枚举、权限滥用链、Shadow Credentials、RBCD 攻击
ad-delegation-attackKerberos 委派攻击(非约束/约束/RBCD)。当 BloodHound 发现委派配置、或已获取有 SPN 的服务账号/机器账号控制权时使用。通过 S4U 协议滥用可实现跨服务模拟任意用户,常用于域内权限提升和横向移动。
ad-domain-attackActive Directory 域环境攻击全链路。当目标主机在域环境中(systeminfo 显示 Domain 非 WORKGROUP)、发现 88/389/636 端口、或获取到域用户凭据时使用。覆盖域信息收集、用户枚举、Kerberoasting、AS-REP Roasting、委派攻击、ACL 滥用、DCSync、Golden/Silver Ticket
ad-persistenceAD 域环境持久化技术。当已获取域管/本地管理员权限、需要建立持久访问以确保重启或密码更改后仍能回到目标环境时使用。覆盖主机级持久化(计划任务/注册表Run/COM劫持/WMI事件订阅/Windows服务/启动文件夹)、域级持久化(Golden Ticket/Silver Ticket/Skeleton Key/DSRM/AdminSDHolder)、DCShadow/GoldenGMSA高级技术、清理命令与检测规避
ad-trust-attack域信任关系攻击。当目标存在多域/多林环境时使用。包含父子域提权(Golden Ticket + ExtraSid)、跨林攻击(SID History/MSSQL Trust Links)、单向信任利用。已获取子域 Domain Admin 或发现信任关系时优先加载。
adcs-certipy-attackActive Directory Certificate Services (ADCS) 证书攻击。当发现域内有 CA 服务器、ADCS Web Enrollment、证书模板配置错误时使用。覆盖 ESC1-ESC11 所有证书滥用路径、Certipy 工具链、证书伪造、NTLM 中继到 ADCS。发现 ADCS/CA/证书/certsrv 相关内容时一定要使用此技能
adinfo-enum使用 Adinfo 进行 Active Directory 信息收集。当获得域用户凭据后需要快速收集域环境信息时使用。Adinfo 是一个快速 AD 信息收集工具,一条命令输出域控列表、域管用户、信任关系、GPO、SPN、委派配置等关键信息——比手动 LDAP 查询快得多。发现域环境后第一步信息收集使用此技能
agent-security|
ai-data-security|