返回博客

Beatviz 教程

轻松制作音频驱动视频

快速开始

创建新任务

每个 Beatviz 项目都从一个任务开始。在这里定义 AI 应该如何理解你的音频。

选择模板

模板决定了 AI 的渲染行为。

叙事模式

  • 专为旁白和口语内容设计
  • 性能与成本平衡

歌唱模式

  • 针对音乐和人声优化
  • 口型同步精度卓越
  • 高级渲染,消耗更多积分

当口型动作质量很重要时,选择歌唱模式。

Template selection UI

标准模式 vs 专业模式

生成前选择质量档位:

标准模式

  • 渲染速度更快
  • 积分消耗更少

专业模式

  • 视觉保真度更高
  • 积分消耗增加

根据质量需求和预算选择。

Mode selection UI

配置预设:角色

预设区域上传角色图像。

这张图像用于:

  • 引导首帧生成
  • 在视频片段间保持角色身份

如果不设置角色预设,AI 可能会引入不一致或随机的角色。

配置预设:风格

风格定义了视频的情感和电影化方向。

可选风格示例:

史诗电影感搞笑快乐悲伤

风格影响光照、氛围和视觉节奏。

可以把风格理解为 AI 的高层创意约束。

Style selection dropdown

检查首帧图像与视频提示词

配置完成后,Beatviz 会自动:

  • 分析你的音频
  • 生成首帧图像
  • 生成对应的视频提示词

生成视频前务必检查这些内容。

首帧图像:为什么很重要

首帧图像奠定了视频的视觉基础。

它直接影响:

  • 角色外观
  • 场景构图
  • 整体美学一致性

重要提示:如果首帧中没有你想要的角色,请在继续前重新生成。这一步可避免后续不一致问题。

重新生成与质量控制

Beatviz 支持迭代优化,无需重新开始任务。

重新生成视频片段

如果生成的片段不符合预期,你可以:

  • 重新生成当前片段
  • 调整首帧图像
  • 编辑视频提示词

这允许针对性改进,同时保留之前的工作成果。

参考图 vs 首帧图

标准模式下,重新生成支持两种图像类型。

参考图

  • 引导角色外观
  • 背景可选
  • AI 更依赖提示词

首帧图

  • 成为开场画面
  • 角色和背景都很重要
  • 强约束视觉输出

需要灵活性时用参考图,需要精确性时用首帧图。

Reference vs First Frame comparison

草稿恢复

如果浏览器关闭或出现技术问题,你的进度会被保留。

未完成的任务可以在以下地址恢复: https://beatviz.ai/creations

这样可以无缝继续,无需重新配置。

Draft recovery page

简单模式 vs 自定义模式

Beatviz 提供两种主要的视频生成模式:

核心区别

简单模式

在简单模式下,你只需上传音频文件,Beatviz 的 AI 智能体会自动:

  • 分析音频内容
  • 根据节奏和结构生成合适的视频提示词
  • 创建首帧图像
  • 一键生成完整视频

此模式追求速度和易用性,但仍允许你在生成后对 AI 创作的内容进行编辑和调整。

自定义模式

在自定义模式下,AI 不会自动分析你的音频。取而代之:

  • 你完全掌控每个视频片段
  • 你手动为每个片段编写提示词
  • 你决定是否使用首帧图像
  • 你从零开始设计和构建视频结构

虽然简单模式也支持手动编辑,但它的初始设置由 AI 智能体协助完成。

自定义模式不提供任何智能体辅助,专为追求完全创作自由和精准控制的创作者设计。

在自定义模式中创建任务

创建自定义模式项目的步骤:

  1. 访问 https://beatviz.ai/create-custom
  2. 上传你的音频文件
  3. 输入项目名称
  4. 点击创建任务
Task creation interface

自定义模式界面概览

自定义模式界面主要分为两个区域:

  • 左侧面板:图像和视频生成工作区
  • 右侧面板:音频时间轴(轨道)工作区

目标是在左侧生成视觉内容,然后在右侧将其精确对齐到音频上。

Custom Mode interface overview

左侧面板:生成工作区

左侧面板包含三个核心功能区域:

  1. 首帧图像生成
  2. 视频生成
  3. 音频分析(仅供参考,不自动生成)
  • 底部区域是生成器,你在这里输入提示词和设置
  • 顶部区域显示生成的图像和视频

这个面板是所有视觉素材被放置到时间轴之前的创建区。

右侧面板:音频时间轴

右侧面板以底部的音频时间轴为中心。

在这里你可以:

  • 从左侧面板拖拽生成的视频到时间轴
  • 将视频片段与音频的特定片段对齐
  • 放置后自由重新排列视频顺序

自定义模式中的首帧图像生成

生成首帧图像的步骤:

  1. 在生成器区域选择图像
  2. 选择你喜欢的图像模型
  3. 输入你的提示词
  4. 可选:上传参考图像
  5. 点击生成

首帧图像稍后可以被重复使用来引导视频生成。

自定义模式中的视频生成

视频生成遵循类似的工作流程:

  1. 输入你的视频提示词
  2. 选择一个视频模型
  3. 可选:选择一张首帧图像
  4. 生成视频

关于首帧图像

首帧图像定义了视频片段的视觉起点。

它对以下方面有强烈影响:

  • 画面构图
  • 角色外观
  • 整体视觉方向

使用精心设计的首帧图可以显著提升视频的一致性和质量。

First-frame image selection for video generation

将视频应用到音频时间轴

视频片段生成后:

  1. 从左侧面板拖拽它们到时间轴
  2. 将每个片段与所需的音频片段对齐

你还可以:

  • 随时更改片段顺序
  • 自由替换或删除片段

自定义模式中的口型同步功能

使用口型同步功能需要两个步骤:

步骤 1:选择口型同步音频

在右侧的音频时间轴中:

  • 选择需要口型同步的特定音频片段
  • Beatviz 将使用这段选定的音频来引导 AI 生成口型动作

步骤 2:定义视觉方向

你还必须提供:

  • 描述角色和场景的提示词
  • 可选的参考图像

这些输入定义整体视觉风格,而选定的音频控制嘴部动作。

确保角色一致性

角色一致性主要由首帧图像控制。

一致性如何确定

  • 如果首帧包含你的角色,AI 会在整个视频中保持该角色。
  • 如果首帧缺少角色但提示词中提到了角色,AI 会生成随机角色。
Consistent vs inconsistent character example

最佳实践

务必确认:

  • 角色在首帧中清晰可见
  • 图像与提示词描述匹配

这是保证视觉连续性最可靠的方法。

你还可以:

  • 使用从素材库导入按钮导入之前任务生成的图像
  • 利用 AI 在需要时重新生成新图像
Import from library and AI regeneration

提升口型同步质量

要获得最佳口型同步效果:

  • 使用歌唱模式
  • 特别适合音乐和人声密集内容

歌唱模式消耗更多积分,因为:

  • 渲染时间更长
  • 使用先进的面部动画模型

质量提升通常非常显著。

总结

本教程采用模块化结构,便于阅读和可视化学习。每个章节都独立完整,配合简短的动图演示,非常适合用于入门引导、文档说明和产品教育。

Beatviz 完整教程:轻松制作音频驱动视频