https://github.com/THUDM/CogVideo
#
https://github.com/THUDM/CogVideo/tree/CogVideo
cd /data/site/htmltoo.opt
git clone https://gitdl.cn/https://github.com/THUDM/CogVideo.git
cd CogVideo
-Using venv
python3 -m venv venv
-Using virtualenv
pip3 install --upgrade pip
pip3 install virtualenv --break-system-packages
pip3 install virtualenvwrapper --break-system-packages
-
pip3 install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/
-修改pip的默认源为国内源,不用每次安装输入
pip3 config set global.index-url https://mirrors.aliyun.com/pypi/simple/
pip3 install -r requirements.txt --break-system-packages
find / -name virtualenvwrapper.sh
mkdir /root/.virtualenvs
export WORKON_HOME=/root/.virtualenvs
export PROJECT_HOME=/root/Devel
source /usr/local/bin/virtualenvwrapper.sh
which python3
/usr/bin/python3
which virtualenv
/usr/local/bin/virtualenv
vim /root/.bashrc
export WORKON_HOME=/root/.virtualenvs
export VIRTUALENVWRAPPER_PYTHON=/usr/bin/python3
export VIRTUALENVWRAPPER_VIRTUALENV=/usr/local/bin/virtualenv
source /usr/local/bin/virtualenvwrapper.sh
-激活
source /root/.bashrc
-测试是否安装成功,刚开始空
workon
-切换虚拟环境
workon xxx
mkvirtualenv -p python3 CogVideo
virtualenv -p python3 CogVideo
-Activate the virtual environment
source ./CogVideo/bin/activate
-Deactivating the virtual environment
deactivate
export SAT_HOME="cogvideo-stage2"
pip3 install git+https://github.com/Sleepychord/Image-Local-Attention
Run ./build_image.sh
Run ./run_image.sh
Run ./install_image_local_attention
# 手动下载
# Text-to-Video Generation
./scripts/inference_cogvideo_pipeline.sh
-参数
--input-source [path or "interactive"]. 每行有一个查询的输入文件的路径。使用“交互式”时将启动CLI
--output-path [path]. 包含结果的文件夹
--batch-size [int]. 每个查询将生成样本数
--max-inference-batch-size [int]. 每次转发的最大批量。如果OOM,请减少它。.
--stage1-max-inference-batch-size [int] .第一阶段中每个转发的最大批大小。如果OOM,请减少它。
--both-stages. 按顺序运行第一阶段和第二阶段。
--use-guidance-stage1. 第1阶段使用无分类器引导,强烈建议这样做可以获得更好的结果
-
cli_demo: 更详细的推理代码讲解,常见参数的意义,在这里都会提及。
cli_vae_demo: 单独执行VAE的推理代码,目前需要71GB显存,将来会优化。
convert_demo: 如何将用户的输入转换成适合 CogVideoX的长输入。因为CogVideoX是在长文本上训练的,所以我们需要把输入文本的分布通过LLM转换为和训练一致的长文本。脚本中默认使用GLM4,也可以替换为GPT、Gemini等任意大语言模型。
web_demo: 一个简单的streamlit网页应用,展示如何使用 CogVideoX-2B 模型生成视频。