下面给出主流开源实时互动数字人大模型的「一键可复制」部署配置清单,覆盖 HunyuanVideo-Avatar、SkyReels-A3、LAM、Sonic、EchoMimic 五款。
每条均包含:①最小/推荐硬件;②系统与驱动;③依赖安装脚本;④模型下载路径;⑤启动命令;⑥常见坑与性能调优参数。
你可以直接照抄脚本在 单卡 4090(24 GB) 到 8×A100(640 GB) 之间横向扩展。
1️⃣ HunyuanVideo-Avatar(腾讯)
维度 |
最小 |
推荐 |
GPU 显存 |
24 GB(720p, 30 f, 14 s) |
80 GB(4 K 长镜头) |
CPU / 内存 |
8 Core / 32 GB |
32 Core / 128 GB |
系统 / CUDA |
Ubuntu 22.04 + CUDA 12.4 |
同左 |
带宽 |
下载 50 GB 权重 |
同左 |
2️⃣ SkyReels-A3(昆仑万维)
维度 |
最小 |
推荐 |
GPU 显存 |
16 GB(512×768, 30 f) |
48 GB(1080p, 120 f) |
系统 / 驱动 |
Ubuntu 20.04+ / CUDA 11.8+ |
同左 |
磁盘 |
50 GB 权重 + 20 GB 缓存 |
NVMe 1 TB |
3️⃣ LAM(阿里通义 3D Avatar)
维度 |
最小 |
推荐 |
GPU 显存 |
12 GB(单图→3D 重建) |
24 GB(WebGL 实时推流) |
依赖 |
CUDA 11.7 + PyTorch 2.1 |
同左 |
一键脚本
conda create -n lam python=3.9 -y && conda activate lam
pip install torch==2.1.0+cu117 torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu117
pip install -r requirements.txt
git clone https://github.com/alibaba/large-avatar-model.git
cd large-avatar-model
bash scripts/download_weights.sh
python web_demo.py --port 7860 --share
WebGL 推流
浏览器打开 http://<ip>:7860
,上传 1 张正脸照即可 30 s 内开始实时对话。
4️⃣ Sonic(全身 Audio-Driven)
维度 |
最小 |
推荐 |
GPU 显存 |
6 GB(半身 512×512) |
24 GB(全身 1024×1024) |
系统 |
Win / Linux / macOS |
同左 |
5️⃣ EchoMimic(阿里通义 2D 口型)
维度 |
最小 |
推荐 |
GPU 显存 |
6 GB(半身 256×256) |
12 GB(512×512 实时) |
速度 |
1 s 生成 1 s 视频 |
实时 30 fps(RTX 4090) |
一键脚本
conda create -n echo python=3.8 -y && conda activate echo
pip install torch==1.13.1+cu117 torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu117
pip install -r requirements.txt
git clone https://github.com/alibaba-damo/EchoMimic.git
cd EchoMimic
wget https://huggingface.co/alibaba-damo/EchoMimic/resolve/main/echo.pth -P checkpoints/
python app.py --listen 0.0.0.0:7860 --half
6️⃣ 云原生 & 多机并行小贴士
A. Docker 统一镜像
docker run --gpus all -it --rm \
-v $(pwd)/weights:/workspace/weights \
-p 7860:7860 \
hunyuanvideo/avatar:cu124-pt240 \
python app.py --host 0.0.0.0 --port 7860
B. Kubernetes 弹性伸缩
apiVersion: apps/v1
kind: Deployment
metadata:
name: avatar-inference
spec:
replicas: 4
selector:
matchLabels: { app: avatar }
template:
spec:
containers:
- name: avatar
image: hunyuanvideo/avatar:cu124-pt240
resources:
limits:
nvidia.com/gpu: 1
memory: 64Gi
C. 显存不足时的通用「三板斧」
--fp8
或 --half
精度
--res 544x960
降低分辨率
--steps 20
减少扩散步数
7️⃣ 故障速查表
现象 |
根因 |
解决 |
OOM |
模型未卸载 / 分辨率过高 |
加 --offload , --res 544x960 |
黑屏 / 绿屏 |
FFmpeg 编码器冲突 |
设置 export FFMPEG_PATH=/usr/bin/ffmpeg |
唇同步错位 |
音频采样率 ≠ 16 kHz |
ffmpeg -ar 16000 -ac 1 -i in.wav out.wav |
Gradio 不能公网访问 |
未加 --share |
或自行 Nginx 反代 |
一句话总结
24 GB 显存单卡即可跑通 90 % 开源实时数字人模型;
真正瓶颈已不在“生成”,而在 ASR/LLM/TTS 全链路延迟。
把上述脚本存成 deploy.sh
,直接 bash deploy.sh
即可在 10 分钟内上线你自己的数字人工厂。