Github: imdrinkcat/Docker for LiveSpeechPortraits
LiveSpeechPortraits Docker 镜像使用说明
本项目的模型使用 Docker 27.3 版本封装了模型,使用前请确保已正确安装 Docker Engine 27.3 。您可以通过访问 Docker 官网 下载并安装 Docker。
论文配套代码使用 pytorch-1.7.10+cu110 环境,我们基于此版本进行了复现,Docker镜像可从此处下载:lsp_demo_1.3.tar 。
由于使用的 cuda 版本较老,最新的RTX40系显卡无法进行训练。因此,面向高版本重新封装了基于 cuda 11.8 的Docker镜像。由于原文代码存在兼容性问题,因此我们替换了不兼容的模块,并改写了部分代码。该Docker镜像可从此处下载:lsp_quickrun_cu118.tar 。
文件说明
./source:目录下包含全部源代码
./data:目录下包含 部分 测试用的音视频以及预训练模型
README.md:Docker 镜像说明文档
Paper_README.md:论文代码的说明文档
文件准备
1. 从.tar文件载入 Docker 镜像
首先,参考上方链接,下载与您的 GPU 兼容的 Docker 镜像文件。
使用以下命令载入 Docker 镜像:
1 | docker load -i lsp_demo_XXXXX.tar |
2. 准备需要使用的数据
在运行 Docker 镜像前,请创建以下三个文件夹,分别用于存放预训练模型、输入音频和输出结果:
models:存放预训练模型
input:存放输入音频文件
results:存放生成的输出结果
您可以通过 Google Drive 下载 预训练模型,并将其保存至 models 文件夹。确保文件夹中的内容如下所示:
1 | . |
将您需要输入模型的数据文件保存在 input 文件夹中
镜像使用参数说明
LSP_QuickRun 镜像支持两种运行模式:用于 生成视频 的 --lspmodel 模式和用于 评估模型 的 --eval 模式。
1. --lspmodel 模式
在该模式下,您需要指定以下参数:
--id : 预训练模型的名称,例如 May 、 Obama1 、 Obama2 等;
--device : 所使用的设备类型,例如 cuda 、 cpu 等;
--driving_audio : 输入音频文件的路径(Docker 容器内的路径)。
生成的视频文件将保存到容器内的 /workspace/results 目录中。
2. --eval 模式
在此模式下,您需要指定以下参数:
--gt_video : 参考视频的路径(Docker 容器内的路径);
--gen_video : 模型生成的视频路径(Docker 容器内的路径)。
评估结果将在命令行中显示。
Docker 运行命令示例
1. --lspmodel 模式
运行命令的模板如下所示:
1 | docker run -it --gpus all --rm --shm-size=8g \ |
例如:
1 | docker run -it --gpus all --rm --shm-size=8g \ |
2. --eval 模式
运行命令的模板如下所示:
1 | docker run -it --gpus all --rm --shm-size=8g \ |
例如:
1 | docker run -it --gpus all --rm --shm-size=8g \ |