jimeng-digital-human

Name: jimeng-digital-human
Author: aAAaqwq/AGI-Super-Team

$npx mdskill add aAAaqwq/AGI-Super-Team/jimeng-digital-human

Automates complete digital human video generation via browser control.

Generates AI avatar videos from uploaded images and scripts.
Depends on jimeng-login for authentication and jimeng-storyboard.
Executes navigation, image upload, and video rendering steps.
Outputs ordered video files ready for merging and sending.

SKILL.md

.github/skills/jimeng-digital-humanView on GitHub ↗

---
name: jimeng-digital-human
description: 即梦AI数字人视频生成全流程自动化。通过浏览器自动化操控 jimeng.jianying.com 数字人界面，完成角色上传、音色选择、台词填入、视频生成和下载。触发场景：用户需要生成数字人视频、即梦数字人、AI数字人口播视频、数字人视频制作。依赖 jimeng-login skill 处理登录。
author: Daniel Li
---

# 即梦数字人视频生成

## 概述

通过浏览器自动化（profile=openclaw）操控即梦数字人界面，完成从角色上传到视频生成、下载的全流程闭环。支持多镜头批量生成，输出按序命名的视频文件供 video-merge-send skill 合并。

## 前置条件

1. 浏览器已启动：`browser start profile=openclaw`
2. 即梦已登录（未登录时触发 `jimeng-login` skill）
3. 用户提供：人物图片、分镜台词（角色说 + 动作描述）
4. 分镜脚本（由 jimeng-storyboard skill 生成，或用户直接提供）

## 完整流程

### Step 1：导航到数字人页面

```
browser navigate url=https://jimeng.jianying.com/ai-tool/home?type=digitalHuman&workspace=0
```

等待 2 秒页面加载，截图确认：
- 已登录：左下角显示用户头像（非"登录"按钮）
- 未登录：触发 `jimeng-login` skill

### Step 2：选择角色（上传人物图片）

**检查是否有默认角色配置：**
读取 `TOOLS.md` 中的 `jimeng-digital-human` 配置段，检查是否已有默认角色图片路径。

**有默认配置时：** 询问用户"是否使用默认角色（田总形象）？"
- 是 → 直接使用已保存的图片路径
- 否 → 请用户发送新图片

**无默认配置 / 用户发送新图片时：**

1. 点击"角色"按钮（snapshot 中找 `角色` 文本的 clickable 元素）
2. 弹出上传提示框："支持真人 & 动漫"
3. 找到图片上传 input：

```javascript
// 找到角色上传的 file input
() => {
  const inputs = document.querySelectorAll('input.file-input-OfqonL');
  const imageInputs = [];
  inputs.forEach((input, i) => {
    if (input.accept && input.accept.includes('image')) {
      const parent = input.closest('[class*="popover-open"]');
      imageInputs.push({ index: i, hasPopoverParent: !!parent });
    }
  });
  return imageInputs;
}
```

4. 复制用户图片到上传目录并上传：

```bash
mkdir -p /tmp/openclaw/uploads
cp <用户图片路径> /tmp/openclaw/uploads/avatar.png
```

```
browser upload selector=".lv-popover-open input.file-input-OfqonL" paths=["/tmp/openclaw/uploads/avatar.png"]
```

5. 等待 3 秒，截图确认角色区域已显示人物图片（不再是"+ 角色"占位）
6. **用户确认后保存为默认：** 将图片路径写入 `TOOLS.md` 的 `jimeng-digital-human` 配置段

### Step 3：选择音色（配音）

**检查是否有默认音色配置：** 读取 `TOOLS.md` 中的默认音色设置。

**有默认配置时：** 询问用户"是否使用默认音色（豪放男子）？"
- 是 → 直接选择该音色
- 否 → 展示音色列表让用户选择

**选择音色操作：**

1. 点击角色名标签（snapshot 中 `开朗男大` 或当前音色名的 clickable 元素）
2. 弹出音色选择面板（tooltip grid），包含"全部音色"、"我的音色"、"收藏"三个 tab
3. 在 grid 中找到目标音色按钮，格式为 `button "音色名 多情感"`
4. 点击该按钮选中
5. 截图确认角色区域已更新音色名

**若音色不在当前页面：** 用筛选条件（性别/年龄/语言/声音特点）或滚动查找。

**音色参考列表见：** [references/voice-list.md](references/voice-list.md)

### Step 4：填入台词和动作描述

编辑区域包含两个部分：
- **角色说**：角色要说的台词内容
- **动作描述**（可选）：镜头语言和动作，如"镜头推进，他摘下眼镜，对着镜头笑着说"

操作步骤：
1. 点击文本编辑区域（snapshot 中的 `textbox`，包含"角色说"和"动作描述"占位文本）
2. 输入台词内容（角色说部分）
3. 换行后输入动作描述

**注意：** 编辑区是 contenteditable div（ProseMirror），不是标准 input。用 click + type 方式输入：

```
browser act kind=click ref=<textbox_ref>
browser act kind=type text="<台词内容>\n<动作描述>"
```

### Step 5：生成视频

1. 确认底部的生成按钮（橙色上箭头按钮）已激活（非 disabled 状态）
2. 点击生成按钮
3. 页面跳转到生成队列（URL 变为 `/ai-tool/generate?workspace=0`），等待视频渲染完成（通常 1-3 分钟）
4. 渲染期间可定期截图检查进度
5. 生成完成后，视频会显示在生成历史列表顶部

### Step 6：下载视频（关键闭环步骤）

视频生成完成后，通过以下流程下载到本地：

#### 6.1 准备下载目录

```bash
mkdir -p /tmp/openclaw/jimeng-videos
```

#### 6.2 设置下载 URL 拦截器

在点击下载按钮**之前**，先注入 JS 拦截器捕获视频直链：

```javascript
() => {
  window.__downloadUrls = [];

  // 拦截 fetch 请求中的视频 URL
  const origFetch = window.fetch;
  window.fetch = async function(...args) {
    const url = typeof args[0] === 'string' ? args[0] : args[0]?.url;
    if (url && (url.includes('.mp4') || url.includes('video') || url.includes('dreamnia'))) {
      window.__downloadUrls.push(url);
    }
    return origFetch.apply(this, args);
  };

  // 拦截动态创建的 <a> 标签（即梦下载机制）
  const observer = new MutationObserver((mutations) => {
    mutations.forEach(m => {
      m.addedNodes.forEach(n => {
        if (n.tagName === 'A' && n.href && n.download !== undefined) {
          window.__downloadUrls.push(n.href);
        }
      });
    });
  });
  observer.observe(document.body, { childList: true, subtree: true });

  return 'download interceptor ready';
}
```

#### 6.3 打开视频详情弹窗

在生成历史列表中，每个视频条目旁有一个**预览/展开按钮**（通常是缩略图左下的 button 元素）。

1. 做 snapshot（refs=aria），在列表中找到目标视频条目
2. 视频条目的结构特征：
   - 包含 `角色说` + 台词文本
   - 包含 `动作描述` + 描述文本
   - 包含时长信息（如 `9s`、`12s`）
   - 条目下方有一个 `button` 元素（展开按钮）
3. 点击该 button 打开视频详情 dialog

**示例：**
```
# 在 snapshot 中找到类似结构：
# generic → 角色说: "xxx台词" → 动作描述: "xxx" → "12s"
# 下方有 button [ref=eXXXX]
browser act kind=click ref=<button_ref>
```

#### 6.4 点击下载按钮

详情 dialog 打开后：

1. 做 snapshot，找到 `button "下载"` 元素（位于 dialog 右上角区域）
2. 点击下载按钮

```
browser act kind=click ref=<下载按钮_ref>
```

**注意：** 点击下载后会弹出**会员推广弹窗**（"无品牌水印直出"），这是正常现象。按 Escape 关闭即可，不影响下载。非会员下载的视频会带即梦水印。

#### 6.5 获取视频直链并下载

点击下载按钮后，等待 1-2 秒，然后读取拦截器捕获的 URL：

```javascript
() => {
  return {
    downloadUrls: window.__downloadUrls || [],
    count: (window.__downloadUrls || []).length
  };
}
```

返回结果中通常有两个 URL：
- **CDN 直链**（以 `https://v3-dreamnia.jimeng.com/` 开头）→ ✅ 用这个
- **blob URL**（以 `blob:https://jimeng.jianying.com/` 开头）→ ❌ 无法用 curl 下载

用 curl 下载 CDN 直链：

```bash
curl -L -o "/tmp/openclaw/jimeng-videos/<序号>_<标识>.mp4" "<CDN直链URL>"
```

**命名规范：** `<两位序号>_<镜头标识>.mp4`
- 示例：`01_hook.mp4`、`02_pain.mp4`、`03_solution.mp4`、`04_cta.mp4`
- 序号与分镜脚本的镜头序号对应

#### 6.6 验证下载

```bash
ls -la /tmp/openclaw/jimeng-videos/
ffprobe -v quiet -print_format json -show_format /tmp/openclaw/jimeng-videos/<文件名>.mp4
```

确认文件大小合理（通常 5-15MB）且格式正确。

#### 6.7 关闭详情弹窗

```
browser act kind=press key=Escape
```

或点击 dialog 的关闭按钮（`×`），回到生成列表页。

### Step 7：多镜头批量生成与下载

对于多镜头分镜脚本，有两种工作模式：

#### 模式A：逐个生成 + 逐个下载（推荐）

按分镜脚本顺序，对每个镜头重复 Step 4→5→6：

```
for 每个镜头 in 分镜脚本:
  1. 导航到数字人页面（角色和音色已保持选中）
  2. 清空编辑区，填入当前镜头的台词和动作描述
  3. 点击生成，等待完成
  4. 注入下载拦截器
  5. 打开详情 → 点击下载 → curl 保存
  6. 关闭详情，继续下一个镜头
```

#### 模式B：全部生成完毕后批量下载

1. 逐个镜头依次生成（Step 4→5 循环）
2. 全部生成完成后，在生成历史列表中按顺序逐个下载（Step 6 循环）
3. **注意**：生成历史列表按时间倒序排列（最新在最上面），需要从下往上依次下载

**每个镜头生成前，清空编辑区的方法：**

```
browser act kind=click ref=<textbox_ref>
browser act kind=press key=Meta+a
browser act kind=press key=Backspace
```

然后输入新内容。

### Step 8：交付与后续

所有镜头视频下载完成后：

1. **确认文件完整性：**
```bash
ls -la /tmp/openclaw/jimeng-videos/
# 确认文件数量与分镜数一致，文件大小合理
```

2. **通知用户：** 告知所有视频已下载到 `/tmp/openclaw/jimeng-videos/`

3. **衔接 video-merge-send skill：**
```bash
python3 skills/video-merge-send/scripts/merge_videos.py \
  -d /tmp/openclaw/jimeng-videos/ \
  -o /tmp/openclaw/jimeng-videos/final_merged.mp4 \
  --transition fade \
  --transition-duration 0.5
```

4. **发送到飞书：** 使用 feishu-media skill 或 message 工具发送合并后的视频

## 默认配置管理

在 `TOOLS.md` 中维护默认配置：

```markdown
### 即梦数字人 (jimeng-digital-human)

- **默认角色图片**: memory/tianzong-avatar.png
- **默认音色**: 豪放男子
- **生成模式**: 快速模式
- **下载目录**: /tmp/openclaw/jimeng-videos
```

首次使用后询问用户是否保存为默认，后续使用时优先提供默认选项。

## 关键技术细节

| 要素 | 说明 |
|------|------|
| 浏览器 profile | openclaw |
| 数字人页面 URL | `https://jimeng.jianying.com/ai-tool/home?type=digitalHuman&workspace=0` |
| 生成历史页面 URL | `https://jimeng.jianying.com/ai-tool/generate?workspace=0` |
| 图片上传方式 | `browser upload` + `/tmp/openclaw/uploads/` 中转目录 |
| 图片 input 选择器 | `.lv-popover-open input.file-input-OfqonL` 或 `input[accept*="image"]` |
| 音色面板触发 | 点击角色名标签（如"开朗男大"） |
| 文本编辑器类型 | ProseMirror contenteditable（非标准 input） |
| 生成按钮状态 | 有内容后从 disabled 变为 enabled |
| 下载机制 | 点击下载按钮 → 触发 fetch 获取 CDN 直链 → 创建 `<a>` 标签下载 |
| 视频 CDN 域名 | `v3-dreamnia.jimeng.com` |
| 视频格式 | H.264 MP4，960x960，60fps |
| 下载存储目录 | `/tmp/openclaw/jimeng-videos/` |
| 登录依赖 | jimeng-login skill |

## 下载 URL 说明

即梦视频下载时会产生两种 URL：

| URL 类型 | 格式 | 可否 curl |
|---------|------|----------|
| CDN 直链 | `https://v3-dreamnia.jimeng.com/...` | ✅ 可以直接 curl -L -o 下载 |
| Blob URL | `blob:https://jimeng.jianying.com/...` | ❌ 仅浏览器内有效 |

**始终使用 CDN 直链下载。** CDN URL 包含签名参数，有效期较短（通常几小时），需及时下载。

## 完整工作流（端到端）

```
1. jimeng-storyboard skill → 生成分镜脚本
2. jimeng-digital-human skill → 逐镜头生成 + 下载视频
   ├── Step 1: 导航到数字人页面
   ├── Step 2: 选择/上传角色
   ├── Step 3: 选择音色
   ├── Step 4-6: 循环（填台词 → 生成 → 下载）× N个镜头
   └── Step 8: 确认文件完整
3. video-merge-send skill → 合并视频 + 发送飞书
```

## 常见问题

| 问题 | 解决方案 |
|------|---------|
| 角色上传后仍显示"+ 角色" | popover 可能已关闭，重新点击"角色"触发上传 |
| aria-ref 点击超时 | 即梦 SPA 重渲染频繁，重新 snapshot 获取新 ref，或用 JS evaluate |
| 音色列表找不到目标 | 滚动列表或用筛选条件缩小范围 |
| 生成按钮 disabled | 确保已填入角色说内容（动作描述可选） |
| 视频生成超时 | 通常 1-3 分钟，超过 5 分钟截图检查是否有错误提示 |
| 下载按钮弹出会员推广 | 正常现象，按 Escape 关闭，视频仍会下载（带水印） |
| 拦截器没捕获到 URL | 确保在点击下载按钮**之前**注入拦截器 JS |
| CDN URL 下载失败 | URL 可能已过期，重新点击下载按钮获取新 URL |
| blob URL 无法下载 | 这是浏览器内存地址，无法用 curl，使用 CDN 直链 |
| 多镜头生成顺序混乱 | 严格按分镜序号命名文件（01_xx.mp4, 02_xx.mp4...） |
| 下载目录已有旧文件 | 每次新任务前清空 `/tmp/openclaw/jimeng-videos/` |

More from aAAaqwq/AGI-Super-Team

Skill	Description
a-fund-monitor	监控 A 股基金实时估值与盘后净值，自动判断交易日并生成提醒或分析。
account-executive	>
add-lead	Add company/person/relationship to CRM
ads	Comprehensive ad account analysis across all major platforms (Google, Meta
ads-agent	AI-агент для управления Facebook рекламой. Вызывай для анализа, оптимизации, создания кампаний и отчётов.
afrexai-compliance-audit	Run internal compliance audits against major governance and security
afrexai-personal-finance	Complete personal finance system — budgeting, debt payoff, investing, tax optimization, net worth tracking, and financial independence planning. Use when managing money, building wealth, paying off debt, planning retirement, or optimizing taxes. Zero dependencies.
after-sales	Use when managing post-purchase experience, building customer loyalty, or increasing repeat purchases
agent-contacts	AI agent contacts — add, list, remove MCP contacts. Use when someone gives an agent URL, or when you need to view/remove contacts.
agent-model-switcher	批量查看和切换子 agent 的模型配置，用于统一调整多 agent 的 provider/model 设置。