jimeng-digital-human
$
npx mdskill add aAAaqwq/AGI-Super-Team/jimeng-digital-humanAutomates complete digital human video generation via browser control.
- Generates AI avatar videos from uploaded images and scripts.
- Depends on jimeng-login for authentication and jimeng-storyboard.
- Executes navigation, image upload, and video rendering steps.
- Outputs ordered video files ready for merging and sending.
SKILL.md
.github/skills/jimeng-digital-humanView on GitHub ↗
---
name: jimeng-digital-human
description: 即梦AI数字人视频生成全流程自动化。通过浏览器自动化操控 jimeng.jianying.com 数字人界面,完成角色上传、音色选择、台词填入、视频生成和下载。触发场景:用户需要生成数字人视频、即梦数字人、AI数字人口播视频、数字人视频制作。依赖 jimeng-login skill 处理登录。
author: Daniel Li
---
# 即梦数字人视频生成
## 概述
通过浏览器自动化(profile=openclaw)操控即梦数字人界面,完成从角色上传到视频生成、下载的全流程闭环。支持多镜头批量生成,输出按序命名的视频文件供 video-merge-send skill 合并。
## 前置条件
1. 浏览器已启动:`browser start profile=openclaw`
2. 即梦已登录(未登录时触发 `jimeng-login` skill)
3. 用户提供:人物图片、分镜台词(角色说 + 动作描述)
4. 分镜脚本(由 jimeng-storyboard skill 生成,或用户直接提供)
## 完整流程
### Step 1:导航到数字人页面
```
browser navigate url=https://jimeng.jianying.com/ai-tool/home?type=digitalHuman&workspace=0
```
等待 2 秒页面加载,截图确认:
- 已登录:左下角显示用户头像(非"登录"按钮)
- 未登录:触发 `jimeng-login` skill
### Step 2:选择角色(上传人物图片)
**检查是否有默认角色配置:**
读取 `TOOLS.md` 中的 `jimeng-digital-human` 配置段,检查是否已有默认角色图片路径。
**有默认配置时:** 询问用户"是否使用默认角色(田总形象)?"
- 是 → 直接使用已保存的图片路径
- 否 → 请用户发送新图片
**无默认配置 / 用户发送新图片时:**
1. 点击"角色"按钮(snapshot 中找 `角色` 文本的 clickable 元素)
2. 弹出上传提示框:"支持真人 & 动漫"
3. 找到图片上传 input:
```javascript
// 找到角色上传的 file input
() => {
const inputs = document.querySelectorAll('input.file-input-OfqonL');
const imageInputs = [];
inputs.forEach((input, i) => {
if (input.accept && input.accept.includes('image')) {
const parent = input.closest('[class*="popover-open"]');
imageInputs.push({ index: i, hasPopoverParent: !!parent });
}
});
return imageInputs;
}
```
4. 复制用户图片到上传目录并上传:
```bash
mkdir -p /tmp/openclaw/uploads
cp <用户图片路径> /tmp/openclaw/uploads/avatar.png
```
```
browser upload selector=".lv-popover-open input.file-input-OfqonL" paths=["/tmp/openclaw/uploads/avatar.png"]
```
5. 等待 3 秒,截图确认角色区域已显示人物图片(不再是"+ 角色"占位)
6. **用户确认后保存为默认:** 将图片路径写入 `TOOLS.md` 的 `jimeng-digital-human` 配置段
### Step 3:选择音色(配音)
**检查是否有默认音色配置:** 读取 `TOOLS.md` 中的默认音色设置。
**有默认配置时:** 询问用户"是否使用默认音色(豪放男子)?"
- 是 → 直接选择该音色
- 否 → 展示音色列表让用户选择
**选择音色操作:**
1. 点击角色名标签(snapshot 中 `开朗男大` 或当前音色名的 clickable 元素)
2. 弹出音色选择面板(tooltip grid),包含"全部音色"、"我的音色"、"收藏"三个 tab
3. 在 grid 中找到目标音色按钮,格式为 `button "音色名 多情感"`
4. 点击该按钮选中
5. 截图确认角色区域已更新音色名
**若音色不在当前页面:** 用筛选条件(性别/年龄/语言/声音特点)或滚动查找。
**音色参考列表见:** [references/voice-list.md](references/voice-list.md)
### Step 4:填入台词和动作描述
编辑区域包含两个部分:
- **角色说**:角色要说的台词内容
- **动作描述**(可选):镜头语言和动作,如"镜头推进,他摘下眼镜,对着镜头笑着说"
操作步骤:
1. 点击文本编辑区域(snapshot 中的 `textbox`,包含"角色说"和"动作描述"占位文本)
2. 输入台词内容(角色说部分)
3. 换行后输入动作描述
**注意:** 编辑区是 contenteditable div(ProseMirror),不是标准 input。用 click + type 方式输入:
```
browser act kind=click ref=<textbox_ref>
browser act kind=type text="<台词内容>\n<动作描述>"
```
### Step 5:生成视频
1. 确认底部的生成按钮(橙色上箭头按钮)已激活(非 disabled 状态)
2. 点击生成按钮
3. 页面跳转到生成队列(URL 变为 `/ai-tool/generate?workspace=0`),等待视频渲染完成(通常 1-3 分钟)
4. 渲染期间可定期截图检查进度
5. 生成完成后,视频会显示在生成历史列表顶部
### Step 6:下载视频(关键闭环步骤)
视频生成完成后,通过以下流程下载到本地:
#### 6.1 准备下载目录
```bash
mkdir -p /tmp/openclaw/jimeng-videos
```
#### 6.2 设置下载 URL 拦截器
在点击下载按钮**之前**,先注入 JS 拦截器捕获视频直链:
```javascript
() => {
window.__downloadUrls = [];
// 拦截 fetch 请求中的视频 URL
const origFetch = window.fetch;
window.fetch = async function(...args) {
const url = typeof args[0] === 'string' ? args[0] : args[0]?.url;
if (url && (url.includes('.mp4') || url.includes('video') || url.includes('dreamnia'))) {
window.__downloadUrls.push(url);
}
return origFetch.apply(this, args);
};
// 拦截动态创建的 <a> 标签(即梦下载机制)
const observer = new MutationObserver((mutations) => {
mutations.forEach(m => {
m.addedNodes.forEach(n => {
if (n.tagName === 'A' && n.href && n.download !== undefined) {
window.__downloadUrls.push(n.href);
}
});
});
});
observer.observe(document.body, { childList: true, subtree: true });
return 'download interceptor ready';
}
```
#### 6.3 打开视频详情弹窗
在生成历史列表中,每个视频条目旁有一个**预览/展开按钮**(通常是缩略图左下的 button 元素)。
1. 做 snapshot(refs=aria),在列表中找到目标视频条目
2. 视频条目的结构特征:
- 包含 `角色说` + 台词文本
- 包含 `动作描述` + 描述文本
- 包含时长信息(如 `9s`、`12s`)
- 条目下方有一个 `button` 元素(展开按钮)
3. 点击该 button 打开视频详情 dialog
**示例:**
```
# 在 snapshot 中找到类似结构:
# generic → 角色说: "xxx台词" → 动作描述: "xxx" → "12s"
# 下方有 button [ref=eXXXX]
browser act kind=click ref=<button_ref>
```
#### 6.4 点击下载按钮
详情 dialog 打开后:
1. 做 snapshot,找到 `button "下载"` 元素(位于 dialog 右上角区域)
2. 点击下载按钮
```
browser act kind=click ref=<下载按钮_ref>
```
**注意:** 点击下载后会弹出**会员推广弹窗**("无品牌水印直出"),这是正常现象。按 Escape 关闭即可,不影响下载。非会员下载的视频会带即梦水印。
#### 6.5 获取视频直链并下载
点击下载按钮后,等待 1-2 秒,然后读取拦截器捕获的 URL:
```javascript
() => {
return {
downloadUrls: window.__downloadUrls || [],
count: (window.__downloadUrls || []).length
};
}
```
返回结果中通常有两个 URL:
- **CDN 直链**(以 `https://v3-dreamnia.jimeng.com/` 开头)→ ✅ 用这个
- **blob URL**(以 `blob:https://jimeng.jianying.com/` 开头)→ ❌ 无法用 curl 下载
用 curl 下载 CDN 直链:
```bash
curl -L -o "/tmp/openclaw/jimeng-videos/<序号>_<标识>.mp4" "<CDN直链URL>"
```
**命名规范:** `<两位序号>_<镜头标识>.mp4`
- 示例:`01_hook.mp4`、`02_pain.mp4`、`03_solution.mp4`、`04_cta.mp4`
- 序号与分镜脚本的镜头序号对应
#### 6.6 验证下载
```bash
ls -la /tmp/openclaw/jimeng-videos/
ffprobe -v quiet -print_format json -show_format /tmp/openclaw/jimeng-videos/<文件名>.mp4
```
确认文件大小合理(通常 5-15MB)且格式正确。
#### 6.7 关闭详情弹窗
```
browser act kind=press key=Escape
```
或点击 dialog 的关闭按钮(`×`),回到生成列表页。
### Step 7:多镜头批量生成与下载
对于多镜头分镜脚本,有两种工作模式:
#### 模式A:逐个生成 + 逐个下载(推荐)
按分镜脚本顺序,对每个镜头重复 Step 4→5→6:
```
for 每个镜头 in 分镜脚本:
1. 导航到数字人页面(角色和音色已保持选中)
2. 清空编辑区,填入当前镜头的台词和动作描述
3. 点击生成,等待完成
4. 注入下载拦截器
5. 打开详情 → 点击下载 → curl 保存
6. 关闭详情,继续下一个镜头
```
#### 模式B:全部生成完毕后批量下载
1. 逐个镜头依次生成(Step 4→5 循环)
2. 全部生成完成后,在生成历史列表中按顺序逐个下载(Step 6 循环)
3. **注意**:生成历史列表按时间倒序排列(最新在最上面),需要从下往上依次下载
**每个镜头生成前,清空编辑区的方法:**
```
browser act kind=click ref=<textbox_ref>
browser act kind=press key=Meta+a
browser act kind=press key=Backspace
```
然后输入新内容。
### Step 8:交付与后续
所有镜头视频下载完成后:
1. **确认文件完整性:**
```bash
ls -la /tmp/openclaw/jimeng-videos/
# 确认文件数量与分镜数一致,文件大小合理
```
2. **通知用户:** 告知所有视频已下载到 `/tmp/openclaw/jimeng-videos/`
3. **衔接 video-merge-send skill:**
```bash
python3 skills/video-merge-send/scripts/merge_videos.py \
-d /tmp/openclaw/jimeng-videos/ \
-o /tmp/openclaw/jimeng-videos/final_merged.mp4 \
--transition fade \
--transition-duration 0.5
```
4. **发送到飞书:** 使用 feishu-media skill 或 message 工具发送合并后的视频
## 默认配置管理
在 `TOOLS.md` 中维护默认配置:
```markdown
### 即梦数字人 (jimeng-digital-human)
- **默认角色图片**: memory/tianzong-avatar.png
- **默认音色**: 豪放男子
- **生成模式**: 快速模式
- **下载目录**: /tmp/openclaw/jimeng-videos
```
首次使用后询问用户是否保存为默认,后续使用时优先提供默认选项。
## 关键技术细节
| 要素 | 说明 |
|------|------|
| 浏览器 profile | openclaw |
| 数字人页面 URL | `https://jimeng.jianying.com/ai-tool/home?type=digitalHuman&workspace=0` |
| 生成历史页面 URL | `https://jimeng.jianying.com/ai-tool/generate?workspace=0` |
| 图片上传方式 | `browser upload` + `/tmp/openclaw/uploads/` 中转目录 |
| 图片 input 选择器 | `.lv-popover-open input.file-input-OfqonL` 或 `input[accept*="image"]` |
| 音色面板触发 | 点击角色名标签(如"开朗男大") |
| 文本编辑器类型 | ProseMirror contenteditable(非标准 input) |
| 生成按钮状态 | 有内容后从 disabled 变为 enabled |
| 下载机制 | 点击下载按钮 → 触发 fetch 获取 CDN 直链 → 创建 `<a>` 标签下载 |
| 视频 CDN 域名 | `v3-dreamnia.jimeng.com` |
| 视频格式 | H.264 MP4,960x960,60fps |
| 下载存储目录 | `/tmp/openclaw/jimeng-videos/` |
| 登录依赖 | jimeng-login skill |
## 下载 URL 说明
即梦视频下载时会产生两种 URL:
| URL 类型 | 格式 | 可否 curl |
|---------|------|----------|
| CDN 直链 | `https://v3-dreamnia.jimeng.com/...` | ✅ 可以直接 curl -L -o 下载 |
| Blob URL | `blob:https://jimeng.jianying.com/...` | ❌ 仅浏览器内有效 |
**始终使用 CDN 直链下载。** CDN URL 包含签名参数,有效期较短(通常几小时),需及时下载。
## 完整工作流(端到端)
```
1. jimeng-storyboard skill → 生成分镜脚本
2. jimeng-digital-human skill → 逐镜头生成 + 下载视频
├── Step 1: 导航到数字人页面
├── Step 2: 选择/上传角色
├── Step 3: 选择音色
├── Step 4-6: 循环(填台词 → 生成 → 下载)× N个镜头
└── Step 8: 确认文件完整
3. video-merge-send skill → 合并视频 + 发送飞书
```
## 常见问题
| 问题 | 解决方案 |
|------|---------|
| 角色上传后仍显示"+ 角色" | popover 可能已关闭,重新点击"角色"触发上传 |
| aria-ref 点击超时 | 即梦 SPA 重渲染频繁,重新 snapshot 获取新 ref,或用 JS evaluate |
| 音色列表找不到目标 | 滚动列表或用筛选条件缩小范围 |
| 生成按钮 disabled | 确保已填入角色说内容(动作描述可选) |
| 视频生成超时 | 通常 1-3 分钟,超过 5 分钟截图检查是否有错误提示 |
| 下载按钮弹出会员推广 | 正常现象,按 Escape 关闭,视频仍会下载(带水印) |
| 拦截器没捕获到 URL | 确保在点击下载按钮**之前**注入拦截器 JS |
| CDN URL 下载失败 | URL 可能已过期,重新点击下载按钮获取新 URL |
| blob URL 无法下载 | 这是浏览器内存地址,无法用 curl,使用 CDN 直链 |
| 多镜头生成顺序混乱 | 严格按分镜序号命名文件(01_xx.mp4, 02_xx.mp4...) |
| 下载目录已有旧文件 | 每次新任务前清空 `/tmp/openclaw/jimeng-videos/` |