ViMax | Github发现 – 港大开源：一句话生成完整视频的多智能体AI工具

你有没有想过，只要输入一句话，就能自动生成一段完整的视频？

不仅有剧本、有分镜、有角色一致性，还有配乐和配音——全部自动搞定。今天要介绍的 ViMax，就是这样一个端到端的 AI 视频生成开源项目，来自香港大学数据科学实验室（HKUDS）。

ViMax 提出了「导演、编剧、制片人、视频生成器四位一体」的理念，通过多个 AI 智能体协作，将创意、剧本、甚至整部小说直接转化为视频内容。

项目目前已获得 5.1k Stars、899 Forks，在 GitHub 视频生成类项目中属于头部水准。

[Github发现] ViMax - 港大开源：一句话生成完整视频的多智能体AI工具

ViMax 是什么

ViMax 是一个多智能体视频生成框架，专注于自动化从叙事输入到最终视频输出的完整流程。与传统 AI 视频工具只能生成几秒短视频不同，ViMax 的目标是让用户只需提供一个创意念头，就能得到一段完整、有叙事结构、角色一致、视听融合的的视频内容。

项目作者指出了当前 AI 视频生成面临的几个核心问题：只能生成短视频（几秒到十几秒）、角色和场景跨帧不一致风格漂移严重、没有剧本没有叙事结构只有视觉。

ViMax 的解决思路是：用多个专业 AI 智能体分别扮演导演、编剧、制片人角色，各司其职，最终协同输出完整视频。

四大核心功能

🌟 Idea2Video — 从灵感到银幕

只需输入一个创意描述，ViMax 自动完成：叙事构建 → 角色设计 → 分镜规划 → 参考图管理 → 视频生成全流程。适合没有技术背景但有创意表达需求的用户。

🎨 Novel2Video — 智能文学改编引擎

将完整小说智能压缩为分集视频内容，自动实现：角色追踪（确保同一人设从头到尾一致）、叙事压缩（保留关键情节跳过冗余描写）、逐场景视觉化改编（每个场景生成对应镜头）。

⚙️ Script2Video — 无限剧本视频创作

直接编写剧本，从个人故事到史诗冒险，完全掌控视觉叙事的每个细节。支持自定义角色、场景描述、镜头语言，适合有明确创作目标的用户深度使用。

🤳 AutoCameo — 用照片生成客串视频

上传自己的照片，ViMax 将你作为角色融入任意创意剧本、电影级镜头与互动剧情中，保持外观一致性，实现自然交互。适合想要「出演」自己故事的用户。

系统架构

ViMax 采用多智能体流水线设计，核心模块包括：

智能长剧本生成：基于 RAG 的长剧本引擎，智能分析小说级长文本并自动切分为多场景剧本格式
表现力分镜设计：基于用户需求与目标受众，运用电影语言生成富有表现力的镜头级分镜
多机位拍摄模拟：模拟多机位拍摄，提供沉浸式观看体验，同时确保角色位置与背景一致性
智能参考图选择：自动选取当前视频首帧所需的参考图，确保视频越长，多角色与环境元素越准确
图像生成一致性校验：并行生成多张图像，通过 MLLM/VLM 选择最一致的图像作为首帧
高效并行镜头生成：对同一机位连续镜头并行处理，极大提升视频生产效率

快速部署

项目使用 Python 3.12 + uv 包管理，支持 pip 和 uv 两种安装方式。

git clone https://github.com/HKUDS/ViMax.git
cd ViMax
uv sync
pip install -e .
python main_idea2video.py --config configs/idea2video_gemini.yaml

项目配置文件位于 configs/ 目录，支持 Gemini、MiniMax 等多种 LLM 作为后端大脑。最新更新已支持 MiniMax 作为一级 chat model provider，方便国内用户使用。

技术亮点

Python 3.12 + uv 高性能包管理
多智能体协作流水线，模块化设计方便扩展
支持多种 LLM 后端（Gemini、MiniMax 等）
基于 RAG 的长文本处理能力
MLLM/VLM 驱动的图像一致性校验
并行镜头生成提升效率
MIT 许可证，完全开源

适用人群

独立创作者：没有团队但想快速出视频的个人博主、短视频创作者
小说作者：想把文字作品可视化，需要批量生成场景视频
AI 视频研究者：关注多智能体视频生成架构，希望在 ViMax 基础上二次开发
营销与广告从业者：快速生成概念视频、广告片原型
普通用户：想体验「上传照片出演自己故事」的有趣功能

杂货喵实测体验

小编亲测了 Idea2Video 模式，流程大致是：输入一段创意描述 → 系统自动生成剧本大纲 → 确认后开始分镜生成 → 参考图管理 → 最终输出视频链接。整个过程透明可见，每个阶段都有明确的进度反馈。

比较惊喜的是角色一致性——同一角色在不同镜头里外观稳定，没有出现「换脸」问题。分镜设计也体现了基本的电影语言，比如正反打镜头、推拉轨等。当然生成速度取决于后端 LLM 响应时间，如果用 Gemini 的话一次完整流程大概需要 5-10 分钟。

客观说，ViMax 生成的视频质量距离专业制作还有差距，但作为「从想法到可视化」的快速原型工具，它已经相当可用。特别适合在正式拍摄前预览概念，或者给甲方快速展示创意方向。

1.本站所发布资源部分收集于网络，仅限用于学习和研究测试使用。2.本站资源售价仅为赞助网站，咱组收费仅用于网站维护运营更新，感谢您的支持。3.本站仅保证资源的正常下载和测试使用，售后不包含相关技术咨询服务，请知悉谅解。4.本站所发布资源为非实物商品，不接受退款，请考虑好再进行支付赞助获取下载。
赞助获取下载注意：
1.支付赞助成功后请勿关闭窗口或其他操作，等待系统自动确认，按钮变为获取下载按钮。2.游客操作请使用 Chrome、Edge 或 FireFox 浏览器，以免支付刷新失败(浏览器缓存7天有效)。3.如支付赞助成功后刷新无法显示下载按钮、链接失效等问题请到 【公告留言】 处理或参考下载说明文档。

THE END