multimodal-gen

$npx mdskill add aAAaqwq/AGI-Super-Team/multimodal-gen

Generate images and videos using specialized AI models.

  • Handles text-to-image and text-to-video creation requests.
  • Integrates with sessions_spawn and multimodal-agent services.
  • Selects models based on user aliases and content type.
  • Executes generation tasks via automated agent invocation.

SKILL.md

.github/skills/multimodal-genView on GitHub ↗
---
name: multimodal-gen
description: 多模态内容生成(图片、视频)。当用户需要生成图片、生成图像、生成视频、AI绘画、AI作图、画一张图、做个视频、文生图、文生视频时使用此技能。自动调用 multimodal-agent 进行生成。
allowed-tools: sessions_spawn, Bash, Read, Write, Edit
---

# 多模态内容生成

当用户需要生成图片或视频时,自动调用 `multimodal-agent` 进行处理。

## 触发场景

### 图片生成
- "生成一张图片"
- "画一张..."
- "AI 作图"
- "文生图"
- "帮我生成图像"
- "用 flux/imagen/dalle 生成"

### 视频生成
- "生成一个视频"
- "做个视频"
- "文生视频"
- "用 veo/sora/kling 生成视频"

## 使用方式

### 自动调用 multimodal-agent

```python
sessions_spawn(
    agentId="multimodal-agent",
    task="生成图片: {用户描述}, 使用 {模型} 模型"
)
```

### 可用模型

#### 图片生成
| 别名 | 模型 | 特点 |
|------|------|------|
| `flux` | flux-pro-max | 高质量,推荐 |
| `imagen` | google/imagen-4-ultra | Google 最强 |
| `dalle` | gpt-image-1 | DALL-E 3 |
| `doubao` | doubao-seedream-4-5 | 中式美学 |
| `klingimg` | kling-image | 可灵生图 |

#### 视频生成
| 别名 | 模型 | 特点 |
|------|------|------|
| `veopro` | veo3.1-pro | Google 专业版 |
| `veo4k` | veo3.1-pro-4k | 4K 高清 |
| `sora` | sora-2-pro-all | OpenAI Sora |
| `kling` | kling-video | 可灵视频 |

## 执行流程

```
用户请求 "生成一张猫咪图片"
    │
    ▼
┌─────────────────────────────────────┐
│ 1. 识别为图片生成请求              │
│ 2. 提取描述: "猫咪"                │
│ 3. 选择默认模型: flux-pro-max      │
└─────────────────────────────────────┘
    │
    ▼
┌─────────────────────────────────────┐
│ sessions_spawn(                     │
│   agentId="multimodal-agent",       │
│   task="生成图片: 一只可爱的猫咪,   │
│         使用 flux 模型"             │
│ )                                   │
└─────────────────────────────────────┘
    │
    ▼
multimodal-agent 执行生成并返回结果
```

## 示例

### 生成图片
```
用户: 帮我生成一张日落海滩的图片

执行:
sessions_spawn(
    agentId="multimodal-agent",
    task="生成图片: 日落时分的海滩,金色阳光洒在海面上,使用 flux 模型"
)
```

### 生成视频
```
用户: 用 sora 生成一个猫咪玩耍的视频

执行:
sessions_spawn(
    agentId="multimodal-agent",
    task="生成视频: 一只可爱的猫咪在草地上玩耍,使用 sora 模型"
)
```

### 指定模型
```
用户: 用 doubao 画一张中国风山水画

执行:
sessions_spawn(
    agentId="multimodal-agent",
    task="生成图片: 中国风山水画,云雾缭绕的山峰,使用 doubao 模型"
)
```

## 模型选择建议

| 场景 | 推荐模型 |
|------|----------|
| 通用高质量 | `flux` |
| 中式风格 | `doubao` |
| 写实照片 | `imagen` |
| 创意艺术 | `dalle` |
| 高清视频 | `veo4k` |
| 电影级视频 | `sora` |
| 快速视频 | `kling` |

## 注意事项

1. **提示词优化**: multimodal-agent 会自动优化用户的描述
2. **模型选择**: 如果用户没指定,默认使用 flux (图片) 或 veopro (视频)
3. **异步执行**: 视频生成可能需要较长时间,会在后台执行
4. **结果返回**: 生成完成后会自动发送结果给用户

More from aAAaqwq/AGI-Super-Team