ブログに戻る

Beatviz チュートリアル

音声駆動型動画を簡単に作成

はじめに

新規タスクの作成

すべてのBeatvizプロジェクトはタスクから始まります。ここで、AIが音声をどのように解釈すべきかを定義します。

テンプレートを選択

テンプレートはAIのレンダリング動作を定義します。

ストーリーテリング

  • ナレーションと音声コンテンツ向けに設計
  • パフォーマンスとコストのバランス

シンギング

  • 音楽とボーカルに最適化
  • 優れたリップシンク精度
  • 高度なレンダリングによりクレジット消費が多い

口の動きの品質が重要な場合はシンギングモードを選択してください。

Template selection UI

スタンダード vs プロモード

生成前に品質レベルを選択します:

スタンダードモード

  • レンダリング時間が短い
  • クレジット消費が少ない

プロモード

  • より高い視覚的忠実度
  • クレジット消費が増加

品質要件と予算に基づいて選択してください。

Mode selection UI

プリセット設定:キャラクター

プリセットセクションでキャラクター画像をアップロードします。

この画像は次の用途に使用されます:

  • ファーストフレーム生成のガイド
  • 動画セグメント全体でキャラクターのアイデンティティを維持

キャラクタープリセットがない場合、AIは一貫性のない、またはランダムなキャラクターを導入する可能性があります。

プリセット設定:スタイル

スタイルは動画の感情的および映画的方向性を定義します。

利用可能な例:

エピックシネマティックファニーハッピーサッド

スタイルは照明、ムード、視覚的リズムに影響します。

スタイルをAIの高レベルなクリエイティブ制約として考えてください。

Style selection dropdown

ファーストフレームと動画プロンプトの確認

設定完了後、Beatvizは自動的に:

  • 音声を分析
  • ファーストフレーム画像を生成
  • 対応する動画プロンプトを生成

動画を生成する前に、必ずこれらを確認してください。

ファーストフレーム画像の重要性

ファーストフレーム画像は動画の視覚的基礎を設定します。

以下に直接影響します:

  • キャラクターの外観
  • シーンの構成
  • 全体的な美学の一貫性

重要:ファーストフレームに意図したキャラクターが含まれていない場合は、先に進む前に再生成してください。このステップにより、後続の不一致を防ぐことができます。

再生成と品質管理

Beatvizはタスクを再起動することなく、反復的な調整をサポートしています。

動画セグメントの再生成

生成されたクリップが期待に沿わない場合、次のことができます:

  • 現在のセグメントを再生成
  • ファーストフレーム画像を調整
  • 動画プロンプトを編集

これにより、以前の作業を保持しながら、焦点を絞った改善が可能になります。

参照画像 vs ファーストフレーム画像

スタンダードモードでは、再生成は2種類の画像タイプをサポートしています。

参照画像

  • キャラクターの外観をガイド
  • 背景はオプション
  • AIはプロンプトに大きく依存

ファーストフレーム画像

  • オープニングフレームになる
  • キャラクターと背景の両方が重要
  • 視覚的出力を強く制約

柔軟性が必要な場合は参照画像を、精度が必要な場合はファーストフレーム画像を使用してください。

Reference vs First Frame comparison

下書きの復元

ブラウザが閉じられたり、技術的な問題が発生した場合でも、進行状況は保存されます。

未完了のタスクは次の場所で復元できます: https://beatviz.ai/creations

これにより、再設定することなくシームレスに継続できます。

Draft recovery page

シンプルモード vs カスタムモード

Beatvizは2つの主要な動画生成モードを提供しています:

シンプルモード:https://beatviz.ai/create
カスタムモード:https://beatviz.ai/create-custom

主な違い

シンプルモード

シンプルモードでは、オーディオファイルをアップロードするだけで、BeatvizのAIエージェントが自動的に:

  • オーディオを分析
  • リズムと構造に基づいて適切な動画プロンプトを生成
  • ファーストフレーム画像を作成
  • ワンクリックで完全な動画を生成

このモードはスピードと使いやすさを重視しながら、必要に応じて後からAI生成コンテンツを編集・調整できます。

カスタムモード

カスタムモードでは、AIはオーディオを自動分析しません。代わりに:

  • すべての動画セグメントを完全に制御
  • 各クリップのプロンプトを手動で作成
  • ファーストフレーム画像の使用を自分で決定
  • ゼロから動画構造を設計・構築

シンプルモードも手動編集に対応していますが、初期セットアップはAIエージェントがサポートします。

カスタムモードはエージェントのサポートを一切提供せず、完全な創作の自由と精密なコントロールを求めるクリエイター向けに設計されています。

カスタムモードでタスクを作成

カスタムモードプロジェクトを作成するには:

  1. https://beatviz.ai/create-custom にアクセス
  2. オーディオファイルをアップロード
  3. プロジェクト名を入力
  4. タスクを作成をクリック
Task creation interface

カスタムモードのインターフェース概要

カスタムモードのインターフェースは2つの主要なセクションに分かれています:

  • 左パネル:画像と動画の生成ワークスペース
  • 右パネル:オーディオタイムライン(トラック)ワークスペース

目標は、左側でビジュアルコンテンツを生成し、右側でオーディオに正確に合わせることです。

Custom Mode interface overview

左パネル:生成ワークスペース

左パネルには3つの主要な機能エリアがあります:

  1. ファーストフレーム画像生成
  2. 動画生成
  3. オーディオ分析(参考のみ、自動生成なし)
  • 下部セクションはジェネレーターで、プロンプトと設定を入力する場所
  • 上部セクションは生成された画像と動画を表示

このパネルは、すべてのビジュアル素材がタイムラインに配置される前に作成される場所です。

右パネル:オーディオタイムライン

右パネルは下部のオーディオタイムラインを中心としています。

ここでは以下のことができます:

  • 左パネルから生成された動画をタイムラインにドラッグ
  • 動画クリップをオーディオの特定のセグメントに合わせる
  • 配置後に動画の順序を自由に並べ替え

カスタムモードでのファーストフレーム画像生成

ファーストフレーム画像を生成するには:

  1. ジェネレーターエリアで画像を選択
  2. 好みの画像モデルを選択
  3. プロンプトを入力
  4. オプション:参照画像をアップロード
  5. 生成をクリック

ファーストフレーム画像は後で動画生成を導くために再利用できます。

カスタムモードでの動画生成

動画生成も同様のワークフローに従います:

  1. 動画プロンプトを入力
  2. 動画モデルを選択
  3. オプション:ファーストフレーム画像を選択
  4. 動画を生成

ファーストフレーム画像について

ファーストフレーム画像は、動画クリップの視覚的な出発点を定義します。

以下に強い影響を与えます:

  • 構図
  • キャラクターの外観
  • 全体的な視覚的方向性

よく設計されたファーストフレームを使用すると、動画の一貫性と品質を大幅に向上させることができます。

First-frame image selection for video generation

動画をオーディオタイムラインに配置

動画クリップが生成されたら:

  1. 左パネルからタイムラインにドラッグ
  2. 各クリップを目的のオーディオセグメントに合わせる

次のこともできます:

  • いつでもクリップの順序を変更
  • クリップを自由に置き換えまたは削除

カスタムモードでのリップシンク機能

リップシンク機能を使用するには、2つのステップが必要です:

ステップ1:リップシンク用オーディオを選択

右側のオーディオタイムラインで:

  • リップシンクが必要な特定のオーディオセグメントを選択
  • Beatvizはこの選択されたオーディオを使用してAIの口の動き生成を導きます

ステップ2:ビジュアル方向を定義

以下も提供する必要があります:

  • キャラクターとシーンを説明するプロンプト
  • オプションの参照画像

これらの入力は全体的なビジュアルスタイルを定義し、選択されたオーディオが口の動きを制御します。

キャラクターの一貫性を保つ

キャラクターの一貫性は主にファーストフレーム画像によって制御されます。

一貫性の決定方法

  • ファーストフレームにキャラクターが含まれている場合、AIは動画全体でそれを維持します。
  • ファーストフレームにキャラクターがないがプロンプトで言及されている場合、AIはランダムなキャラクターを生成します。
Consistent vs inconsistent character example

ベストプラクティス

必ず確認してください:

  • キャラクターがファーストフレームで明確に見える
  • 画像がプロンプトの説明と一致している

これは視覚的連続性を確保するための最も信頼できる方法です。

次のこともできます:

  • ライブラリからインポートボタンを使用して、以前のタスクから生成された画像をインポート
  • 必要に応じてAIを利用して新しい画像を再生成
Import from library and AI regeneration

リップシンクの品質向上

最適なリップシンク結果を得るには:

  • シンギングモードを使用
  • 特に音楽とボーカル重視のコンテンツに適しています

シンギングモードは以下の理由でより多くのクレジットを消費します:

  • レンダリング時間が長い
  • 高度な顔アニメーションモデル

品質の向上は通常、非常に顕著です。

まとめ

このチュートリアルはモジュール式の読み方と視覚的学習のために構成されています。各セクションは独立しており、短いGIFデモと自然にペアになっており、オンボーディング、ドキュメンテーション、製品教育に最適です。

Beatviz 完全ガイド:音声から動画を作る方法