FramePack 安装指南(中文)

发布于:2025-06-21 ⋅ 阅读:(22) ⋅ 点赞:(0)

FramePack 安装指南(中文) -Windows

FramePack 是最前沿的 AI 视频生成框架,以极小的硬件需求颠覆视频创作!它能在仅 6GB 笔记本 GPU 内存上,驱动 13B 模型以 30 FPS 生成超长 120 秒视频,几乎无内容限制,释放无限创意可能。以下是在 Windows 系统上使用 Anaconda 安装 FramePack 的详细步骤,基于成功安装的经验整理,剔除了错误指令,并明确区分用户输入的命令行步骤与系统反馈。本指南适用于希望尝鲜 FramePack 的用户,因为官方 Windows 一键安装包尚未发布。

项目链接官网

FramePack 亮点(官方介绍)

  • 低资源需求:在仅 6GB 笔记本 GPU 内存上,使用 13B 模型以 30 FPS 生成数千帧视频。

  • 高效微调:在单个 8xA100/H100 节点上以 64 的批次大小微调 13B 视频模型,适合个人或实验室实验。

  • 快速生成:在 RTX 4090 上,未优化生成速度为 2.5 秒/帧,启用 teacache 后可达 1.5 秒/帧。

前置条件

  • Anaconda:确保已安装 Anaconda。可从 Anaconda 官网 下载。

  • Windows 系统:本指南基于 Windows 64 位系统。

  • CUDA 支持的 GPU:建议至少 6GB 显存的 GPU。本例使用 RTX 5090,如 RTX 30/40系列 也适用。

  • 网络连接:用于下载依赖和模型文件。

  • Git:安装 Git for Windows 以克隆仓库。可从 Git 官网 下载。

安装步骤

步骤 1:创建新的 Conda 环境

用户输入命令:


conda create -n FramePack_test python=3.10

系统反馈:


Channels:

- conda-forge

- Index of /anaconda/pkgs/main/ | 清华大学开源软件镜像站 | Tsinghua Open Source Mirror

- Index of /anaconda/pkgs/free/ | 清华大学开源软件镜像站 | Tsinghua Open Source Mirror

- defaults

Platform: win-64

Collecting package metadata (repodata.json): done

Solving environment: done



## Package Plan ##

environment location: E:\anaconda3\envs\FramePack_test

added / updated specs:

- python=3.10



The following packages will be downloaded:

package | build

---------------------------|-----------------

bzip2-1.0.8 | h2466b09_7 54 KB conda-forge

...

wheel-0.45.1 | pyhd8ed1ab_1 61 KB conda-forge

------------------------------------------------------------

Total: 23.0 MB

done

成功标志:环境创建完成,显示 done 且列出安装的包。

用户输入命令:


conda activate FramePack_test

系统反馈:


(FramePack_test) C:\Users\username>

成功标志:命令行提示符变为 (FramePack_test),表示环境已激活。

步骤 2:克隆 FramePack 仓库 进入安装目录E:\AI\FramePack(请根据自己的情况进入对于安装目录)

用户输入命令:


git clone https://github.com/lllyasviel/FramePack.git

系统反馈:

  • 克隆完成后,检查 FramePack 目录内容:

dir

驱动器 E 中的卷***



E:\AI\FramePack 的目录

2025/04/18 01:08 <DIR> .

2025/04/17 15:37 3,471 .gitignore

2025/04/17 15:37 18,810 demo_gradio.py

2025/04/18 01:08 <DIR> diffusers_helper

2025/04/17 15:37 11,357 LICENSE

2025/04/17 15:37 14,299 README.md

2025/04/17 15:37 222 requirements.txt

5 个文件 48,159 字节

成功标志FramePack 目录创建并包含 demo_gradio.pyrequirements.txt 等文件。

步骤 3:安装 PyTorch(带 CUDA 支持)

用户输入命令:


pip3 install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cu128

系统反馈:


Looking in indexes: https://download.pytorch.org/whl/nightly/cu128

Collecting torch

Downloading https://download.pytorch.org/whl/nightly/cu128/torch-2.8.0.dev20250416%2Bcu128-cp310-cp310-win_amd64.whl (3331.4 MB)

...

Successfully installed MarkupSafe-2.1.5 filelock-3.16.1 fsspec-2024.10.0 ...

成功标志:显示 Successfully installed 且列出安装的包(如 torch-2.8.0.dev20250416+cu128)。

注意

  • 本例使用 RTX 5090,安装了 CUDA 12.8 版本的 PyTorch。如果您使用 RTX 3090、4090 或其他 30/40 系列显卡,请根据您的 CUDA 版本选择对应的 PyTorch 版本。参考 PyTorch 官网 获取正确安装命令。

  • 确保 GPU 驱动和 CUDA 工具包与 PyTorch 版本兼容,检查 NVIDIA CUDA GPU 兼容性。

步骤 4:安装依赖项

用户输入命令:


pip install -r requirements.txt

系统反馈:


Collecting accelerate==1.6.0 (from -r requirements.txt (line 1))

Downloading accelerate-1.6.0-py3-none-any.whl (354 kB)

...

Successfully installed accelerate-1.6.0 aiofiles-23.2.1 annotated-types-0.7.0 ...

成功标志:显示 Successfully installed 且列出所有依赖包(如 accelerate-1.6.0diffusers-0.33.1 等)。

步骤 5:运行 Demo

用户输入命令:


python demo_gradio.py

重要提示

  • 运行时可能会出现短暂卡顿,这是正常现象,因为脚本需要初始化模型并分配显存。

  • 首次运行会触发长时间的模型下载(约 15GB,包括 hunyuanvideo-community/HunyuanVideo 等模型),视网络速度可能需数分钟至数小时。请耐心等待。

系统反馈(模型下载部分) :


config.json: 100%|████████████████████████████████████████████████████████████████████████████| 766/766 [00:00<?, ?B/s]

model-00001-of-00004.safetensors: 100%|███████████████████████████████████████████| 4.98G/4.98G [01:09<00:00, 72.1MB/s]

model-00002-of-00004.safetensors: 100%|███████████████████████████████████████████| 5.00G/5.00G [01:06<00:00, 75.2MB/s]

model-00003-of-00004.safetensors: 100%|███████████████████████████████████████████| 4.92G/4.92G [01:06<00:00, 74.2MB/s]

model-00004-of-00004.safetensors: 100%|█████████████████████████████████████████████| 117M/117M [00:01<00:00, 74.1MB/s]

Downloading shards: 100%|████████████████████████████████████████████████████████████████| 4/4 [03:24<00:00, 51.12s/it]

...

* Running on local URL: http://0.0.0.0:7860

...

Decoded. Current latent shape torch.Size([1, 16, 37, 88, 68]); pixel shape torch.Size([1, 3, 145, 704, 544])

成功标志:Gradio 界面启动,显示 Running on local URL: http://0.0.0.0:7860,且日志显示视频帧解码完成(如 pixel shape torch.Size([1, 3, 145, 704, 544]))。

步骤 6:验证安装

  • 在浏览器中访问 http://localhost:7860

  • 测试视频生成功能,检查是否能正常生成视频。成功标志:Gradio 界面加载成功,且能生成视频。

初次生成视频的建议

在尝试自定义输入前,强烈建议按照以下 Sanity Check 进行测试,以确保硬件和软件配置无误。以下内容来自 FramePack 官方 GitHub.

Sanity Check

  • 目的:验证硬件和软件是否正常运行。

  • 背景:下一帧预测模型对噪声和硬件差异非常敏感。不同设备上结果可能略有差异,但整体应相似。在某些情况下,若配置一致,可获得完全相同的结果。

Image-to-5-seconds 示例

  1. 下载测试图片:从 FramePack GitHub 下载指定图片。

  2. 设置提示词


The man dances energetically, leaping mid-air with fluid arm swings and quick footwork.

  1. 配置参数
  • 使用默认参数,关闭 teacache

  • 在 Gradio 界面中上传下载的图片。

  1. 预期结果
  • 生成视频文件(如 0.mp4),可能因 GitHub 压缩而略有失真。

  • 重要说明:FramePack 是基于下一帧或分段预测的模型。若 UI 中初始生成视频较短(如仅 1 秒),属正常现象。请耐心等待,后续分段将逐步生成完整视频。

  1. 生成过程的控制台反馈

运行 Sanity Check 时,控制台会显示视频分段生成的过程。以下是清洗后的关键反馈,展示了视频逐步生成的情况:


Moving DynamicSwap_HunyuanVideoTransformer3DModelPacked to cuda:0 with preserved memory: 6 GB

100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [02:10<00:00, 5.20s/it]

Offloading DynamicSwap_HunyuanVideoTransformer3DModelPacked from cuda:0 to preserve memory: 8 GB

Decoded. Current latent shape torch.Size([1, 16, 9, 88, 68]); pixel shape torch.Size([1, 3, 33, 704, 544])

Moving DynamicSwap_HunyuanVideoTransformer3DModelPacked to cuda:0 with preserved memory: 6 GB

100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [02:14<00:00, 5.40s/it]

Offloading DynamicSwap_HunyuanVideoTransformer3DModelPacked from cuda:0 to preserve memory: 8 GB

Decoded. Current latent shape torch.Size([1, 16, 18, 88, 68]); pixel shape torch.Size([1, 3, 69, 704, 544])

Moving DynamicSwap_HunyuanVideoTransformer3DModelPacked to cuda:0 with preserved memory: 6 GB

100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [02:10<00:00, 5.21s/it]

Offloading DynamicSwap_HunyuanVideoTransformer3DModelPacked from cuda:0 to preserve memory: 8 GB

Decoded. Current latent shape torch.Size([1, 16, 27, 88, 68]); pixel shape torch.Size([1, 3, 105, 704, 544])

Moving DynamicSwap_HunyuanVideoTransformer3DModelPacked to cuda:0 with preserved memory: 6 GB

100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [02:09<00:00, 5.18s/it]

Offloading DynamicSwap_HunyuanVideoTransformer3DModelPacked from cuda:0 to preserve memory: 8 GB

Decoded. Current latent shape torch.Size([1, 16, 37, 88, 68]); pixel shape torch.Size([1, 3, 145, 704, 544])

  • 解释:日志显示视频分段生成,每段约需 2 分钟(25 次迭代)。latent_padding_size 从 27 逐渐减小至 0,表示从初始帧到最终完整视频(145 帧,约 5 秒)。pixel shape 显示分辨率逐步增加,最终为 704x544。

其他建议

  • 首次生成可能较慢,后续会因缓存优化而加快。

  • 若生成结果与预期差异较大,检查显卡驱动、CUDA 版本或重新运行 Sanity Check。

故障排查

  • 路径错误:确保正确导航到 E:\AI\FramePack,用 dir 检查目录。

  • 显存不足:若提示内存错误,降低批次大小或使用更高显存 GPU。

  • 模型下载失败:检查网络,重新运行 python demo_gradio.py 继续下载。

  • 依赖冲突:若 pip install -r requirements.txt 失败,重建环境:


conda env remove -n FramePack_test

conda create -n FramePack_test python=3.10

  • Hugging Face 缓存警告:可忽略,或设置:

set HF_HUB_DISABLE_SYMLINKS_WARNING=1

  • ConnectionResetError:日志中的 [WinError 10054] 为网络中断,可忽略。

额外说明

  • 性能优化:启用 teacache 可将生成速度提升至 1.5 秒/帧,参考 FramePack 文档。

  • Windows Symlink 支持:为优化 Hugging Face 缓存,可启用开发者模式或以管理员身份运行 Anaconda Prompt(参考 微软开发者模式指南)。

  • 社区支持:加入 FramePack GitHub 社区 获取帮助。

关于作者

FramePack 的核心开发者是 Lvmin ZhangManeesh Agrawala,两位在计算机视觉与图形学领域的杰出研究者。以下是他们的主要履历:

Lvmin Zhang

  • 背景:来自中国的博士生,现就读于斯坦福大学计算机科学系,自 2022 年起师从 Maneesh Agrawala 教授。他在图像处理和扩散模型领域有深入研究,累计发表 13 篇高影响力论文,获 340 次高影响力引用。

  • 重要贡献

  • ControlNet(2023):与 Maneesh Agrawala 和 Anyi Rao 合作开发,提出了一种神经网络架构,为文本到图像扩散模型(如 Stable Diffusion)添加空间条件控制,显著提升生成精度。该论文在 ICCV 2023 发表,影响深远。

  • Transparent Image Layer Diffusion(2024):提出“潜在透明度”概念,使预训练扩散模型生成透明图像,广泛应用于层生成和结构控制,发表在 ACM Transactions on Graphics。

  • Style2Paints:开发了先进的图像生成软件,专注于动漫风格转换和线稿上色,成果包括 2017 年的 Style Transfer for Anime Sketches 和 2018 年的 Two-stage Sketch Colorization。

  • 其他成就:Lvmin Zhang 曾开发 SmartShadow 等数字绘画工具,并在 ECCV 2020 提出优化图像平滑方法,创建了大规模插画数据集 DanbooRegion。

Maneesh Agrawala

  • 背景:斯坦福大学计算机科学系 Forest Baskett 教授,兼任布朗媒体创新研究所主任。他在计算机图形学、人机交互和可视化领域有超过 30 年的研究经验,谷歌学术引用量超 31,664 次。

  • 重要履历

  • 学术成就:1994 年获斯坦福大学数学学士学位,2002 年获计算机科学博士学位。2005-2015 年任加州大学伯克利分校教授,2015 年返回斯坦福。

  • 奖项:2006 年获 Okawa Foundation 研究资助,2007 年获 Sloan 奖学金和 NSF CAREER 奖,2008 年获 SIGGRAPH 新研究员奖,2009 年获 MacArthur 基金会天才奖。

  • 早期荣誉:1990 年参加 Westinghouse Science Talent Search,提交的蛋白质建模项目入围决赛;1988 年在 SuperQuest 竞赛中与团队赢得超级计算机。

  • 研究贡献

  • LineDrive(2002):开发了基于认知设计的路线地图渲染系统,生成类似手绘的简洁地图,源自其博士论文。

  • ControlNet(2023):与 Lvmin Zhang 合作,提出条件控制扩散模型,革新图像生成技术。

  • 可视化工具:开发了 EMPHASISCHECKER(2023),帮助图表作者对齐图表与标题的重点;以及 VisiBlends(2019),简化视觉混合创作。

  • 视频与动画:领导 Vid2Player(2021),生成可控网球运动员视频;以及 Puppet Dubbing(2019),优化视频配音流程。

  • 影响力:Agrawala 的研究结合认知心理学,设计用户友好的视觉界面,广泛应用于地图导航、机器装配说明和 3D 模型交互,改变了我们处理复杂数字信息的方式。

两位作者的合作将中国学者的创新力与国际顶尖研究相结合,为 FramePack 的突破性技术奠定了基础。Lvmin Zhang 的中国背景也为项目增添了多元文化视角。

相关链接

通过以上步骤,您应能成功安装并运行 FramePack。


网站公告

今日签到

点亮在社区的每一天
去签到