[Github开源] ViMax – 港大开源:一句话生成完整视频的多智能体AI工具

你有没有想过,只要输入一句话,就能自动生成一段完整的视频?

不仅有剧本、有分镜、有角色一致性,还有配乐和配音——全部自动搞定。今天要介绍的 ViMax,就是这样一个端到端的 AI 视频生成开源项目,来自 香港大学数据科学实验室(HKUDS)。

ViMax 提出了「导演、编剧、制片人、视频生成器四位一体」的理念,通过多个 AI 智能体协作,将创意、剧本、甚至整部小说直接转化为视频内容。

项目目前已获得 5.1k Stars899 Forks,在 GitHub 视频生成类项目中属于头部水准。

[Github发现] ViMax - 港大开源:一句话生成完整视频的多智能体AI工具

相关链接

  • GitHub 仓库:https://github.com/HKUDS/ViMax
  • 项目官网:https://hkuds.github.io/ViMax
  • 在线 Demo:支持 Idea2Video、Novel2Video、Script2Video、AutoCameo 四种模式

ViMax 是什么

ViMax 是一个多智能体视频生成框架,专注于自动化从叙事输入到最终视频输出的完整流程。与传统 AI 视频工具只能生成几秒短视频不同,ViMax 的目标是让用户只需提供一个创意念头,就能得到一段完整、有叙事结构、角色一致、视听融合的的视频内容。

项目作者指出了当前 AI 视频生成面临的几个核心问题:只能生成短视频(几秒到十几秒)、角色和场景跨帧不一致风格漂移严重、没有剧本没有叙事结构只有视觉。

ViMax 的解决思路是:用多个专业 AI 智能体分别扮演导演、编剧、制片人角色,各司其职,最终协同输出完整视频。

四大核心功能

🌟 Idea2Video — 从灵感到银幕

只需输入一个创意描述,ViMax 自动完成:叙事构建 → 角色设计 → 分镜规划 → 参考图管理 → 视频生成全流程。适合没有技术背景但有创意表达需求的用户。

🎨 Novel2Video — 智能文学改编引擎

将完整小说智能压缩为分集视频内容,自动实现:角色追踪(确保同一人设从头到尾一致)、叙事压缩(保留关键情节跳过冗余描写)、逐场景视觉化改编(每个场景生成对应镜头)。

⚙️ Script2Video — 无限剧本视频创作

直接编写剧本,从个人故事到史诗冒险,完全掌控视觉叙事的每个细节。支持自定义角色、场景描述、镜头语言,适合有明确创作目标的用户深度使用。

🤳 AutoCameo — 用照片生成客串视频

上传自己的照片,ViMax 将你作为角色融入任意创意剧本、电影级镜头与互动剧情中,保持外观一致性,实现自然交互。适合想要「出演」自己故事的用户。

系统架构

ViMax 采用多智能体流水线设计,核心模块包括:

  • 智能长剧本生成:基于 RAG 的长剧本引擎,智能分析小说级长文本并自动切分为多场景剧本格式
  • 表现力分镜设计:基于用户需求与目标受众,运用电影语言生成富有表现力的镜头级分镜
  • 多机位拍摄模拟:模拟多机位拍摄,提供沉浸式观看体验,同时确保角色位置与背景一致性
  • 智能参考图选择:自动选取当前视频首帧所需的参考图,确保视频越长,多角色与环境元素越准确
  • 图像生成一致性校验:并行生成多张图像,通过 MLLM/VLM 选择最一致的图像作为首帧
  • 高效并行镜头生成:对同一机位连续镜头并行处理,极大提升视频生产效率

快速部署

项目使用 Python 3.12 + uv 包管理,支持 pip 和 uv 两种安装方式。

git clone https://github.com/HKUDS/ViMax.git
cd ViMax
uv sync
pip install -e .
python main_idea2video.py --config configs/idea2video_gemini.yaml

项目配置文件位于 configs/ 目录,支持 Gemini、MiniMax 等多种 LLM 作为后端大脑。最新更新已支持 MiniMax 作为一级 chat model provider,方便国内用户使用。

技术亮点

  • Python 3.12 + uv 高性能包管理
  • 多智能体协作流水线,模块化设计方便扩展
  • 支持多种 LLM 后端(Gemini、MiniMax 等)
  • 基于 RAG 的长文本处理能力
  • MLLM/VLM 驱动的图像一致性校验
  • 并行镜头生成提升效率
  • MIT 许可证,完全开源

适用人群

  • 独立创作者:没有团队但想快速出视频的个人博主、短视频创作者
  • 小说作者:想把文字作品可视化,需要批量生成场景视频
  • AI 视频研究者:关注多智能体视频生成架构,希望在 ViMax 基础上二次开发
  • 营销与广告从业者:快速生成概念视频、广告片原型
  • 普通用户:想体验「上传照片出演自己故事」的有趣功能

杂货喵实测体验

小编亲测了 Idea2Video 模式,流程大致是:输入一段创意描述 → 系统自动生成剧本大纲 → 确认后开始分镜生成 → 参考图管理 → 最终输出视频链接。整个过程透明可见,每个阶段都有明确的进度反馈。

比较惊喜的是角色一致性——同一角色在不同镜头里外观稳定,没有出现「换脸」问题。分镜设计也体现了基本的电影语言,比如正反打镜头、推拉轨等。当然生成速度取决于后端 LLM 响应时间,如果用 Gemini 的话一次完整流程大概需要 5-10 分钟。

客观说,ViMax 生成的视频质量距离专业制作还有差距,但作为「从想法到可视化」的快速原型工具,它已经相当可用。特别适合在正式拍摄前预览概念,或者给甲方快速展示创意方向。

© 版权声明
THE END
喜欢就支持一下吧
点赞14
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情图片快捷回复

    暂无评论内容