主题
AI 数字人制作
从形象设计到实时互动,完整的数字人制作流程
1形象设计
→2动作驱动
→3唇形同步
→4实时互动

| 步骤 | 推荐工具 | 预估成本 |
|---|---|---|
| 形象设计 | GPT-Image-1 / Midjourney | ~$0.04 |
| 动作驱动 | LivePortrait / Wan 2.2 | 开源免费 |
| 唇形同步 | MuseTalk / LatentSync | 开源免费 |
| 实时互动 (10分钟) | HeyGen Streaming | ~$0.50 |
| 合计 | ~$0.54 (含开源方案) | |
Step 1: 数字人形象设计
形象设计技巧
| 用途 | 推荐风格 | 推荐工具 |
|---|---|---|
| 企业代言人 | 商务正装,正面照 | GPT-Image-1 |
| 教育讲师 | 休闲亲和,微笑 | Midjourney |
| 虚拟主播 | 二次元/3D 风格 | FLUX.2 |
| 客服形象 | 职业装,友善表情 | Imagen 4 |
关键: 生成的头像需要正面朝向镜头、肩部以上、清晰的面部特征,才能被后续的动作驱动和唇形同步工具正确处理
Step 2: 动作驱动
动作驱动工具对比
| 工具 | 驱动方式 | 开源 | 实时性 | 最适合 |
|---|---|---|---|---|
| LivePortrait | 视频驱动 | MIT | 12.8ms/帧 | 实时场景 |
| Wan 2.2 | 音频+文本 | Apache 2.0 | 离线 | 全身动画 |
| EMO | 音频驱动 | 研究用 | 离线 | 情感表达 |
| EchoMimic | 音频驱动 | Apache 2.0 | 离线 | 半身动画 |
| Hallo2 | 音频驱动 | MIT | 离线 | 4K 高清 |
bash
# LivePortrait 本地部署(推荐)
git clone https://github.com/KwaiVGI/LivePortrait
cd LivePortrait
pip install -r requirements.txt
python inference.py --source_image face.jpg --driving_video driving.mp4Step 3: 唇形同步
唇形同步工具对比
| 工具 | 精度 | 速度 | 开源 | 推荐场景 |
|---|---|---|---|---|
| MuseTalk | ★★★★ | 实时 (30fps+) | MIT | 实时直播 |
| LatentSync | ★★★★★ | 离线 | Apache 2.0 | 高精度后期 |
| SadTalker | ★★★ | 较快 | Apache 2.0 | 简单场景 |
| V-Express | ★★★★ | 离线 | 研究用 | 多条件控制 |
bash
# MuseTalk 部署(实时唇形同步)
git clone https://github.com/TMElyralab/MuseTalk
cd MuseTalk
pip install -r requirements.txt
python -m scripts.inference --video face.mp4 --audio speech.wavStep 4: 实时互动
商业方案
实时互动方案对比
| 方案 | 延迟 | 成本 | 部署方式 | 推荐指数 |
|---|---|---|---|---|
| HeyGen Streaming | <1s | $0.05/分钟 | SaaS API | ★★★★★ |
| Hedra Live | <2s | $0.05/分钟 | SaaS | ★★★★ |
| LivePortrait + MuseTalk | <1s | 免费 (GPU) | 自部署 | ★★★★ |
| D-ID Streaming | <2s | $0.08/分钟 | SaaS API | ★★★ |
开源自部署方案
bash
# 全链路开源方案:LivePortrait + MuseTalk + CosyVoice
# 要求:NVIDIA GPU (RTX 3060+)
# 1. 部署 CosyVoice(语音合成)
git clone https://github.com/FunAudioLLM/CosyVoice
cd CosyVoice && pip install -r requirements.txt
# 2. 部署 LivePortrait(动作驱动)
git clone https://github.com/KwaiVGI/LivePortrait
# 3. 部署 MuseTalk(唇形同步)
git clone https://github.com/TMElyralab/MuseTalk
# 4. 串联三个模块实现实时数字人
# 输入:文本/语音 → CosyVoice → MuseTalk → 视频流输出完整 Claude Code 流程
bash
# 商业方案(最简单)
claude mcp add heygen npx -y @heygen/mcp-server
export HEYGEN_API_KEY=your_key
claude "帮我创建一个数字人视频,
形象要求:30岁商务男性,穿西装
台词:[你的文案]"