你有没有想过,只要输入一句话,就能自动生成一段完整的视频?
不仅有剧本、有分镜、有角色一致性,还有配乐和配音——全部自动搞定。今天要介绍的 ViMax,就是这样一个端到端的 AI 视频生成开源项目,来自 香港大学数据科学实验室(HKUDS)。
ViMax 提出了「导演、编剧、制片人、视频生成器四位一体」的理念,通过多个 AI 智能体协作,将创意、剧本、甚至整部小说直接转化为视频内容。
项目目前已获得 5.1k Stars、899 Forks,在 GitHub 视频生成类项目中属于头部水准。
![[Github发现] ViMax - 港大开源:一句话生成完整视频的多智能体AI工具](https://za.zmoyun.com/wp-content/uploads/2026/05/PPin_2026-05-19_21-26-43-1024x576.webp)
相关链接
- GitHub 仓库:https://github.com/HKUDS/ViMax
- 项目官网:https://hkuds.github.io/ViMax
- 在线 Demo:支持 Idea2Video、Novel2Video、Script2Video、AutoCameo 四种模式
ViMax 是什么
ViMax 是一个多智能体视频生成框架,专注于自动化从叙事输入到最终视频输出的完整流程。与传统 AI 视频工具只能生成几秒短视频不同,ViMax 的目标是让用户只需提供一个创意念头,就能得到一段完整、有叙事结构、角色一致、视听融合的的视频内容。
项目作者指出了当前 AI 视频生成面临的几个核心问题:只能生成短视频(几秒到十几秒)、角色和场景跨帧不一致风格漂移严重、没有剧本没有叙事结构只有视觉。
ViMax 的解决思路是:用多个专业 AI 智能体分别扮演导演、编剧、制片人角色,各司其职,最终协同输出完整视频。
四大核心功能
🌟 Idea2Video — 从灵感到银幕
只需输入一个创意描述,ViMax 自动完成:叙事构建 → 角色设计 → 分镜规划 → 参考图管理 → 视频生成全流程。适合没有技术背景但有创意表达需求的用户。
🎨 Novel2Video — 智能文学改编引擎
将完整小说智能压缩为分集视频内容,自动实现:角色追踪(确保同一人设从头到尾一致)、叙事压缩(保留关键情节跳过冗余描写)、逐场景视觉化改编(每个场景生成对应镜头)。
⚙️ Script2Video — 无限剧本视频创作
直接编写剧本,从个人故事到史诗冒险,完全掌控视觉叙事的每个细节。支持自定义角色、场景描述、镜头语言,适合有明确创作目标的用户深度使用。
🤳 AutoCameo — 用照片生成客串视频
上传自己的照片,ViMax 将你作为角色融入任意创意剧本、电影级镜头与互动剧情中,保持外观一致性,实现自然交互。适合想要「出演」自己故事的用户。
系统架构
ViMax 采用多智能体流水线设计,核心模块包括:
- 智能长剧本生成:基于 RAG 的长剧本引擎,智能分析小说级长文本并自动切分为多场景剧本格式
- 表现力分镜设计:基于用户需求与目标受众,运用电影语言生成富有表现力的镜头级分镜
- 多机位拍摄模拟:模拟多机位拍摄,提供沉浸式观看体验,同时确保角色位置与背景一致性
- 智能参考图选择:自动选取当前视频首帧所需的参考图,确保视频越长,多角色与环境元素越准确
- 图像生成一致性校验:并行生成多张图像,通过 MLLM/VLM 选择最一致的图像作为首帧
- 高效并行镜头生成:对同一机位连续镜头并行处理,极大提升视频生产效率
快速部署
项目使用 Python 3.12 + uv 包管理,支持 pip 和 uv 两种安装方式。
git clone https://github.com/HKUDS/ViMax.git
cd ViMax
uv sync
pip install -e .
python main_idea2video.py --config configs/idea2video_gemini.yaml
项目配置文件位于 configs/ 目录,支持 Gemini、MiniMax 等多种 LLM 作为后端大脑。最新更新已支持 MiniMax 作为一级 chat model provider,方便国内用户使用。
技术亮点
- Python 3.12 + uv 高性能包管理
- 多智能体协作流水线,模块化设计方便扩展
- 支持多种 LLM 后端(Gemini、MiniMax 等)
- 基于 RAG 的长文本处理能力
- MLLM/VLM 驱动的图像一致性校验
- 并行镜头生成提升效率
- MIT 许可证,完全开源
适用人群
- 独立创作者:没有团队但想快速出视频的个人博主、短视频创作者
- 小说作者:想把文字作品可视化,需要批量生成场景视频
- AI 视频研究者:关注多智能体视频生成架构,希望在 ViMax 基础上二次开发
- 营销与广告从业者:快速生成概念视频、广告片原型
- 普通用户:想体验「上传照片出演自己故事」的有趣功能
杂货喵实测体验
小编亲测了 Idea2Video 模式,流程大致是:输入一段创意描述 → 系统自动生成剧本大纲 → 确认后开始分镜生成 → 参考图管理 → 最终输出视频链接。整个过程透明可见,每个阶段都有明确的进度反馈。
比较惊喜的是角色一致性——同一角色在不同镜头里外观稳定,没有出现「换脸」问题。分镜设计也体现了基本的电影语言,比如正反打镜头、推拉轨等。当然生成速度取决于后端 LLM 响应时间,如果用 Gemini 的话一次完整流程大概需要 5-10 分钟。
客观说,ViMax 生成的视频质量距离专业制作还有差距,但作为「从想法到可视化」的快速原型工具,它已经相当可用。特别适合在正式拍摄前预览概念,或者给甲方快速展示创意方向。
![[Github开源] ViMax – 港大开源:一句话生成完整视频的多智能体AI工具-杂货喵](https://za.zmoyun.com/wp-content/uploads/2026/05/PPin_2026-05-19_21-26-43-800x450.webp)

![[Github开源] oh-my-ppt – 纯本地 AI PPT 生成与编辑工具-杂货喵](https://za.zmoyun.com/wp-content/uploads/2026/05/PPin_2026-05-19_21-47-58-800x450.webp)
![[游戏辅助] 炉石传说插件_HDT团子版_酒馆战棋_最新下载及使用指南-杂货喵](https://za.zmoyun.com/wp-content/uploads/2026/05/Snp_2026-05-15-152710.webp)
![[系统工具] 3DM游戏运行库合集 - 告别游戏报错的运行库一键安装包-杂货喵](https://za.zmoyun.com/wp-content/uploads/2026/05/PPin_2026-05-18_23-53-44-1024x576.webp)
![[效率工具] Flow Launcher - Windows应用启动器_支持插件扩展_开源免费-杂货喵](https://za.zmoyun.com/wp-content/uploads/2026/05/PPin_2026-05-17_16-14-39-1024x576.webp)

暂无评论内容