快速开始
创建新任务
每个 Beatviz 项目都从一个任务开始。在这里定义 AI 应该如何理解你的音频。
选择模板
模板决定了 AI 的渲染行为。
叙事模式
- • 专为旁白和口语内容设计
- • 性能与成本平衡
歌唱模式
- • 针对音乐和人声优化
- • 口型同步精度卓越
- • 高级渲染,消耗更多积分
当口型动作质量很重要时,选择歌唱模式。

标准模式 vs 专业模式
生成前选择质量档位:
标准模式
- • 渲染速度更快
- • 积分消耗更少
专业模式
- • 视觉保真度更高
- • 积分消耗增加
根据质量需求和预算选择。

配置预设:角色
在预设区域上传角色图像。
这张图像用于:
- 引导首帧生成
- 在视频片段间保持角色身份
如果不设置角色预设,AI 可能会引入不一致或随机的角色。
配置预设:风格
风格定义了视频的情感和电影化方向。
可选风格示例:
风格影响光照、氛围和视觉节奏。
可以把风格理解为 AI 的高层创意约束。

检查首帧图像与视频提示词
配置完成后,Beatviz 会自动:
- 分析你的音频
- 生成首帧图像
- 生成对应的视频提示词
生成视频前务必检查这些内容。
首帧图像:为什么很重要
首帧图像奠定了视频的视觉基础。
它直接影响:
- 角色外观
- 场景构图
- 整体美学一致性
重要提示:如果首帧中没有你想要的角色,请在继续前重新生成。这一步可避免后续不一致问题。
重新生成与质量控制
Beatviz 支持迭代优化,无需重新开始任务。
重新生成视频片段
如果生成的片段不符合预期,你可以:
- 重新生成当前片段
- 调整首帧图像
- 编辑视频提示词
这允许针对性改进,同时保留之前的工作成果。
参考图 vs 首帧图
在标准模式下,重新生成支持两种图像类型。
参考图
- • 引导角色外观
- • 背景可选
- • AI 更依赖提示词
首帧图
- • 成为开场画面
- • 角色和背景都很重要
- • 强约束视觉输出
需要灵活性时用参考图,需要精确性时用首帧图。

草稿恢复
如果浏览器关闭或出现技术问题,你的进度会被保留。
未完成的任务可以在以下地址恢复: https://beatviz.ai/creations
这样可以无缝继续,无需重新配置。

简单模式 vs 自定义模式
Beatviz 提供两种主要的视频生成模式:
核心区别
简单模式
在简单模式下,你只需上传音频文件,Beatviz 的 AI 智能体会自动:
- 分析音频内容
- 根据节奏和结构生成合适的视频提示词
- 创建首帧图像
- 一键生成完整视频
此模式追求速度和易用性,但仍允许你在生成后对 AI 创作的内容进行编辑和调整。
自定义模式
在自定义模式下,AI 不会自动分析你的音频。取而代之:
- 你完全掌控每个视频片段
- 你手动为每个片段编写提示词
- 你决定是否使用首帧图像
- 你从零开始设计和构建视频结构
虽然简单模式也支持手动编辑,但它的初始设置由 AI 智能体协助完成。
自定义模式不提供任何智能体辅助,专为追求完全创作自由和精准控制的创作者设计。
在自定义模式中创建任务
创建自定义模式项目的步骤:
- 访问 https://beatviz.ai/create-custom
- 上传你的音频文件
- 输入项目名称
- 点击创建任务

自定义模式界面概览
自定义模式界面主要分为两个区域:
- 左侧面板:图像和视频生成工作区
- 右侧面板:音频时间轴(轨道)工作区
目标是在左侧生成视觉内容,然后在右侧将其精确对齐到音频上。

左侧面板:生成工作区
左侧面板包含三个核心功能区域:
- 首帧图像生成
- 视频生成
- 音频分析(仅供参考,不自动生成)
- 底部区域是生成器,你在这里输入提示词和设置
- 顶部区域显示生成的图像和视频
这个面板是所有视觉素材被放置到时间轴之前的创建区。
右侧面板:音频时间轴
右侧面板以底部的音频时间轴为中心。
在这里你可以:
- 从左侧面板拖拽生成的视频到时间轴
- 将视频片段与音频的特定片段对齐
- 放置后自由重新排列视频顺序
自定义模式中的首帧图像生成
生成首帧图像的步骤:
- 在生成器区域选择图像
- 选择你喜欢的图像模型
- 输入你的提示词
- 可选:上传参考图像
- 点击生成
首帧图像稍后可以被重复使用来引导视频生成。
自定义模式中的视频生成
视频生成遵循类似的工作流程:
- 输入你的视频提示词
- 选择一个视频模型
- 可选:选择一张首帧图像
- 生成视频
关于首帧图像
首帧图像定义了视频片段的视觉起点。
它对以下方面有强烈影响:
- 画面构图
- 角色外观
- 整体视觉方向
使用精心设计的首帧图可以显著提升视频的一致性和质量。

将视频应用到音频时间轴
视频片段生成后:
- 从左侧面板拖拽它们到时间轴
- 将每个片段与所需的音频片段对齐
你还可以:
- 随时更改片段顺序
- 自由替换或删除片段
自定义模式中的口型同步功能
使用口型同步功能需要两个步骤:
步骤 1:选择口型同步音频
在右侧的音频时间轴中:
- 选择需要口型同步的特定音频片段
- Beatviz 将使用这段选定的音频来引导 AI 生成口型动作
步骤 2:定义视觉方向
你还必须提供:
- 描述角色和场景的提示词
- 可选的参考图像
这些输入定义整体视觉风格,而选定的音频控制嘴部动作。
确保角色一致性
角色一致性主要由首帧图像控制。
一致性如何确定
- 如果首帧包含你的角色,AI 会在整个视频中保持该角色。
- 如果首帧缺少角色但提示词中提到了角色,AI 会生成随机角色。

最佳实践
务必确认:
- 角色在首帧中清晰可见
- 图像与提示词描述匹配
这是保证视觉连续性最可靠的方法。
你还可以:
- 使用从素材库导入按钮导入之前任务生成的图像
- 利用 AI 在需要时重新生成新图像

提升口型同步质量
要获得最佳口型同步效果:
- 使用歌唱模式
- 特别适合音乐和人声密集内容
歌唱模式消耗更多积分,因为:
- 渲染时间更长
- 使用先进的面部动画模型
质量提升通常非常显著。
总结
本教程采用模块化结构,便于阅读和可视化学习。每个章节都独立完整,配合简短的动图演示,非常适合用于入门引导、文档说明和产品教育。