
开篇寄语
各位朋友,你们有没有遇到过这样的困扰——想要做一个短视频,但苦于不会剪辑;想要表达某个观点,但对着镜头说话就紧张;想到处分享知识,但拍视频实在太麻烦…伯衡君最近发现了一个可能会改变短视频创作方式的"神器"——Pixelle-Video。这是一个完全自动化的 AI 短视频生成引擎,你只需要输入一个主题,它就能帮你完成从文案撰写、配图生成、语音合成到最终成片的全部工作。
听起来是不是很爽?今天,伯衡君就带大家详细了解一下这个项目。
前情提要
在说 Pixelle-Video 之前,先简单聊聊 AI 视频创作的现状。
目前市面上的 AI 视频工具主要分为两类:一类是 Sora、Pika 这种"文生视频"工具,输入描述就能生成几秒钟的视频片段;另一类是"图生视频"工具,把静态图片变成动态视频。
但这两类工具有一个共同的问题:生成的视频都很短,而且很难精确控制内容。你想要一个完整的、有配音、有配图、有背景音乐的短视频?还是得自己动手剪辑。
而 Pixelle-Video 想要解决的,正是这个问题。它不是简单地生成几秒钟的视频片段,而是从零开始,自动生成一个完整的短视频——包括 AI 撰写的文案、AI 生成的配图、AI 合成的配音,再加上背景音乐,合成最终成片。
项目地址
- GitHub 仓库:https://github.com/AIDC-AI/Pixelle-Video
- 官方文档:https://aidc-ai.github.io/Pixelle-Video/zh/user-guide/templates/
- 一键整合包下载:https://github.com/AIDC-AI/Pixelle-Video/releases/latest
体验地址
Pixelle-Video 是一个本地运行的 Web 应用,无需云端部署。
快速体验方式:
- Windows 用户:下载一键整合包,双击 start.bat 即可
- 其他系统:需要安装 Python (uv) 和 ffmpeg
内容详情
一、Pixelle-Video 到底是什么?
用官方的话来说,Pixelle-Video 是"AI 全自动短视频引擎"。它的核心功能是:你给一个主题,AI 自动生成完整短视频。
具体流程是这样的:
- 输入主题:告诉 AI 你想要做什么主题的短视频,比如"为什么要养成阅读习惯"
- AI 写文案:AI 根据主题自动撰写视频文案(也可以自己手动输入)
- AI 生成配图:AI 根据文案内容生成对应的图片
- AI 合成配音:AI 把文案转换成语音(支持多种音色,甚至可以克隆声音)
- 合成视频:把所有素材组合成最终的视频文件
整个过程完全自动化,你只需要点点鼠标就能完成。
二、核心功能一览
伯衡君整理了一下 Pixelle-Video 的核心功能:
| 功能 | 说明 |
|---|---|
| 🤖 AI 文案生成 | 输入主题,AI 自动撰写视频脚本 |
| 🎨 AI 图片生成 | 根据文案内容自动生成配图 |
| 🔊 AI 语音合成 | 文字转语音,支持多种音色 |
| 🎙️ 声音克隆 | 上传参考音频,克隆自己的声音 |
| 🎵 背景音乐 | 内置音乐或自定义 BGM |
| 📱 多尺寸支持 | 竖屏/横屏/方形,适配不同平台 |
| 🎬 多模板 | 多种视频模板可选 |
三、安装与配置
Pixelle-Video 提供了两种使用方式:
方式一:Windows 一键整合包(推荐新手)
这是最简单的方式:
- 下载最新的 Windows 一键整合包并解压
- 双击运行 start.bat
- 浏览器会自动打开 http://localhost:8501
- 在「系统配置」中配置 API Key
- 开始生成视频
优点:无需安装任何环境,下载解压即可用
方式二:源码运行(适合开发者)
# 克隆项目
git clone https://github.com/AIDC-AI/Pixelle-Video.git
cd Pixelle-Video
# 使用 uv 运行(推荐)
uv run streamlit run web/app.py
前置要求:
- 安装 uv(Python 包管理器)
- 安装 ffmpeg(视频处理工具)
- 配置 ComfyUI(可选)
四、使用教程:手把手教你生成第一个视频
第一次打开 Pixelle-Video,你会看到三栏布局的 Web 界面。伯衡君来一步步教你如何使用。

第一步:系统配置
首次使用需要展开「⚙️ 系统配置」面板,填写以下内容:

LLM 配置(用于生成文案):
- 选择预设模型(通义千问、GPT-4o、DeepSeek 等)
- 填入 API Key
- 填入 API 地址和模型名称
图像配置(用于生成配图):
- 本地部署(推荐):配置 ComfyUI 地址(默认 http://127.0.0.1:8188)
- 云端部署:配置 RunningHub API Key
而 RunningHub API Key,可以去网站获取。

配置完成后点击「保存配置」。
第二步:输入视频主题
在「📝 视频主题」区域,选择内容模式:
AI 生成内容:输入一个主题,AI 自动创作文案
例如:「为什么要养成阅读习惯」
固定文案内容:直接输入完整文案,跳过 AI 创作
适合已有现成文案的情况
第三步:配置语音
TTS 工作流:从下拉菜单选择语音合成方式(Edge-TTS、Index-TTS 等)
声音克隆(可选):上传参考音频文件(MP3/WAV/FLAC),可以克隆自己的声音
点击「预览语音」可以先试听效果。
第四步:配置图像生成
图像生成方式:
- ComfyUI 工作流:选择本地或云端的工作流
- 默认使用 image_flux.json
图像尺寸:设置宽度和高度,默认 1024x1024
风格控制:通过"提示词前缀"控制图像风格
例如:Minimalist black-and-white matchstick figure style illustration, clean lines, simple sketch style
第五步:选择视频模板
从下拉菜单选择模板,Pixelle-Video 提供多种模板:
- static_*.html:静态模板(纯文字样式)
- image_*.html:图片模板(AI生成的图片作为背景)
- video_*.html:视频模板(AI生成的视频作为背景)
支持竖屏、横屏、方形等多种尺寸。
第六步:生成视频
点击「🎬 生成视频」,会显示实时进度:
- 📝 生成文案
- 🎨 生成配图
- 🔊 合成语音
- 🎬 合成视频
生成完成后自动播放预览,显示视频时长、文件大小、分镜数等信息。
视频文件保存在 output/ 文件夹。
五、实际使用案例
光说可能还是不够直观,伯衡君来举几个实际的使用案例:
案例一:知识科普视频
主题:为什么要养成阅读习惯
配置:
- LLM:通义千问
- 图像:本地 ComfyUI (Flux 模型)
- 语音:Edge-TTS(中文女声)
- 模板:竖屏图片模板
效果:
- AI 自动生成约 1 分钟的文案
- 生成 5 张配图(每个分镜一张)
- 合成语音朗读文案
- 自动合成 1 分钟的竖版短视频
案例二:产品宣传视频
主题:XX 品牌新品发布会预告
配置:
- LLM:GPT-4o
- 图像:RunningHub 云端
- 语音:声音克隆(使用CEO录音)
- 模板:横屏视频模板
效果:
- AI 生成专业的宣传文案
- 使用品牌风格的配图
- 用 CEO 的声音配音
- 自动生成高质量宣传视频
案例三:个人 Vlog
主题:今天的上海一日游
配置:
- LLM:DeepSeek
- 图像:本地 ComfyUI
- 语音:声音克隆(自己的声音)
- 模板:竖屏图文模板
效果:
- 自动生成生活化的文案
- 配图风格偏生活化
- 用自己的声音讲述
- 生成个人风格的小视频
六、费用与成本
很多人关心的可能是:用这个工具要花多少钱?
Pixelle-Video 支持完全免费运行!以下是三种方案对比:
| 方案 | LLM 成本 | 图像成本 | 总成本 |
|---|---|---|---|
| 完全免费 | Ollama(本地) | ComfyUI(本地) | 0元 |
| 推荐方案 | 通义千问(极低) | ComfyUI(本地) | ≈几元 |
| 云端方案 | OpenAI | RunningHub | 较高 |
伯衡君建议:
- 如果你有显卡:选完全免费方案
- 如果没有显卡:选推荐方案(通义千问性价比很高)
- 如果想要最高质量:选云端方案
七、优缺点分析
优点
- 一键自动化:从主题到成片全自动
- 完全免费:支持本地部署,0 成本
- 灵活配置:支持多种模型、模板、语音
- 声音克隆:可以克隆自己的声音
- 开源免费:Apache 2.0 许可证
缺点
- 需要配置:首次使用需要一定的技术基础
- 依赖显卡:本地部署需要较好的显卡
- 视频长度:目前主要生成 1-3 分钟的短视频
- 质量局限:AI 生成的内容质量依赖模型本身
八、与同类工具对比
| 工具 | 类型 | 优势 | 劣势 |
|---|---|---|---|
| Pixelle-Video | 全自动短视频 | 本地免费、功能全面 | 需要一定配置 |
| MoneyPrinterTurbo | 全自动短视频 | 成熟稳定 | 功能相对单一 |
| Sora | 视频生成 | 效果惊艳 | 只能生成片段 |
| Runway | 视频生成 | 品质高 | 收费、只能生成片段 |
九、进阶使用技巧
如果你想用好 Pixelle-Video,伯衡君建议:
- 优化提示词前缀:图像风格完全由"提示词前缀"控制,多尝试不同的风格描述
- 自定义模板:如果你懂 HTML,可以创建自己的视频模板
- 自定义 TTS 工作流:如果懂 ComfyUI,可以自定义语音合成效果
- 批量生成:可以一次性生成多个主题的视频
十、总结与展望
回到开头的问题:Pixelle-Video 能否改变短视频创作的方式?
伯衡君认为,它确实提供了一个非常有价值的思路:把重复性的工作交给 AI,人只需要负责创意。
以前做一个视频,需要写文案、找配图、录音、剪辑…每个环节都要花费大量时间。而现在,你只需要输入一个主题,其他的都交给 AI。
当然,目前的技术还有局限性——AI 生成的文案不可能比人写的更精准,AI 生成的图片不可能完全符合你的预期,AI 合成的语音也不可能完全像人声一样自然。
但技术的发展日新月异。也许在不久的将来,这些问题都会得到更好的解决。
篇后寄语
好了,今天的分享就到这里。
如果你对 AI 视频创作感兴趣,不妨试试 Pixelle-Video。从简单的主题开始,尝试生成你的第一个 AI 短视频。
项目完全免费,门槛也在不断降低——Windows 用户甚至可以直接下载一键整合包使用。
有任何问题,欢迎在评论区留言讨论,或者加入官方社区获取支持。我们下期再见!
- 我的微信
- 微信扫一扫加好友
-
- 我的微信公众号
- 扫描关注公众号
-





