裸舞 推特 智谱 AI 开源 CogVideoX-5B 视频生成模子,RTX 3060 显卡可开动
发布日期:2024-08-29 17:02 点击次数:193
IT之家 8 月 28 日讯息裸舞 推特,智谱 AI 开源了 CogVideoX-5B 视频生成模子,比拟此前开源的 CogVideoX-2B,官方称其视频生成质地更高,视觉收敛更好。
一路向西电影完整版官方暗示大幅度优化了模子的推感性能,推理门槛大幅镌汰,不错在 GTX 1080Ti 等早期显卡开动 CogVideoX-2B ,鬼父快播在 RTX 3060 等桌面端“甜品卡”开动 CogVideoX-5B 模子。
CogVideoX 是一个大限度 DiT(diffusion transformer)模子,用于文本生成视频任务,主要选拔了以下技巧:
3D causal VAE:通过压缩视频数据到 latent space,并在时刻维度上进行解码来兑现高效的视频重建。
众人 Transformer:将文本 embedding 和视频 embedding 相消灭,使用 3D-RoPE 手脚位置编码,选拔众人自相宜层归一化照管两个模态的数据,以及使用 3D 全留神力机制来进行时空颐养建模。
CogVideoX-5B 与 CogVideoX-2B 矜重参数比较如下:
IT之家附关联聚拢:
代码仓库:https://github.com/THUDM/CogVideo
模子下载:https://huggingface.co/THUDM/CogVideoX-5b
论文聚拢:https://arxiv.org/pdf/2408.06072裸舞 推特