블로그로 돌아가기

Beatviz 튜토리얼

손쉽게 오디오 기반 영상 제작

시작하기

새 작업 만들기

모든 Beatviz 프로젝트는 작업에서 시작됩니다. 여기서 AI가 오디오를 어떻게 해석할지 정의합니다.

템플릿 선택

템플릿은 AI의 렌더링 동작을 정의합니다.

스토리텔링

  • 내레이션 및 음성 콘텐츠용으로 설계
  • 성능과 비용의 균형

노래

  • 음악과 보컬에 최적화
  • 우수한 립싱크 정확도
  • 고급 렌더링으로 더 많은 크레딧 소비

입 움직임의 품질이 중요할 때 노래 모드를 선택하세요.

Template selection UI

스탠다드 vs 프로 모드

생성하기 전에 품질 단계를 선택하세요:

스탠다드 모드

  • 더 빠른 렌더링
  • 낮은 크레딧 비용

프로 모드

  • 더 높은 시각적 충실도
  • 크레딧 사용량 증가

품질 요구사항과 예산에 따라 선택하세요.

Mode selection UI

프리셋 설정: 캐릭터

프리셋 섹션에서 캐릭터 이미지를 업로드하세요.

이 이미지는 다음 용도로 사용됩니다:

  • 첫 프레임 생성 가이드
  • 영상 세그먼트 전반에 걸쳐 캐릭터 정체성 유지

캐릭터 프리셋이 없으면 AI가 일관성 없거나 무작위 캐릭터를 생성할 수 있습니다.

프리셋 설정: 스타일

스타일은 영상의 감정적, 영화적 방향을 정의합니다.

사용 가능한 스타일 예시:

에픽시네마틱웃긴행복한슬픈

스타일은 조명, 분위기, 시각적 리듬에 영향을 미칩니다.

스타일을 AI에 대한 상위 수준의 창의적 제약으로 생각하세요.

Style selection dropdown

첫 프레임 및 비디오 프롬프트 검토

설정 완료 후 Beatviz는 자동으로:

  • 오디오 분석
  • 첫 프레임 이미지 생성
  • 해당 비디오 프롬프트 생성

영상을 생성하기 전에 항상 이것들을 검토하세요.

첫 프레임 이미지의 중요성

첫 프레임 이미지는 영상의 시각적 기반을 설정합니다.

다음에 직접적으로 영향을 미칩니다:

  • 캐릭터 외관
  • 장면 구성
  • 전반적인 미적 일관성

중요: 첫 프레임에 의도한 캐릭터가 포함되어 있지 않으면 진행하기 전에 재생성하세요. 이 단계는 후속 불일치를 방지합니다.

재생성 및 품질 제어

Beatviz는 작업을 다시 시작할 필요 없이 반복적인 개선을 지원합니다.

비디오 세그먼트 재생성

생성된 클립이 기대에 부합하지 않으면 다음을 수행할 수 있습니다:

  • 현재 세그먼트 재생성
  • 첫 프레임 이미지 조정
  • 비디오 프롬프트 편집

이를 통해 이전 작업을 보존하면서 집중적인 개선이 가능합니다.

참조 이미지 vs 첫 프레임 이미지

스탠다드 모드에서는 재생성 시 두 가지 이미지 유형을 지원합니다.

참조 이미지

  • 캐릭터 외관을 가이드
  • 배경은 선택 사항
  • AI가 프롬프트에 더 의존

첫 프레임 이미지

  • 오프닝 프레임으로 사용
  • 캐릭터와 배경 모두 중요
  • 시각적 출력을 강하게 제약

유연성이 필요하면 참조 이미지를, 정밀도가 필요하면 첫 프레임 이미지를 사용하세요.

Reference vs First Frame comparison

초안 복구

브라우저가 닫히거나 기술적 문제가 발생해도 진행 상황은 보존됩니다.

미완성 작업은 다음 위치에서 복구할 수 있습니다: https://beatviz.ai/creations

이를 통해 재구성 없이 원활하게 계속 진행할 수 있습니다.

Draft recovery page

심플 모드 vs 커스텀 모드

Beatviz는 두 가지 주요 비디오 생성 모드를 제공합니다:

주요 차이점

심플 모드

심플 모드에서는 오디오 파일만 업로드하면 됩니다. Beatviz의 AI 에이전트가 자동으로:

  • 오디오 분석
  • 리듬과 구조를 기반으로 적절한 비디오 프롬프트 생성
  • 첫 프레임 이미지 생성
  • 원클릭으로 완전한 비디오 생성

이 모드는 속도와 사용 편의성을 위해 설계되었으며, 필요한 경우 나중에 AI 생성 콘텐츠를 편집하고 조정할 수 있습니다.

커스텀 모드

커스텀 모드에서는 AI가 오디오를 자동으로 분석하지 않습니다. 대신:

  • 모든 비디오 세그먼트를 완전히 제어
  • 각 클립의 프롬프트를 수동으로 작성
  • 첫 프레임 이미지 사용 여부를 직접 결정
  • 처음부터 비디오 구조를 설계하고 구축

심플 모드도 수동 편집을 지원하지만, 초기 설정은 AI 에이전트가 도와줍니다.

커스텀 모드는 에이전트 지원을 전혀 제공하지 않으며, 완전한 창작의 자유와 정밀한 제어를 원하는 크리에이터를 위해 설계되었습니다.

커스텀 모드에서 작업 생성하기

커스텀 모드 프로젝트를 생성하려면:

  1. https://beatviz.ai/create-custom 방문
  2. 오디오 파일 업로드
  3. 프로젝트 이름 입력
  4. 작업 생성 클릭
Task creation interface

커스텀 모드 인터페이스 개요

커스텀 모드 인터페이스는 두 가지 주요 섹션으로 나뉩니다:

  • 왼쪽 패널: 이미지 및 비디오 생성 작업 공간
  • 오른쪽 패널: 오디오 타임라인(트랙) 작업 공간

목표는 왼쪽에서 비주얼 콘텐츠를 생성하고 오른쪽에서 오디오에 정확하게 정렬하는 것입니다.

Custom Mode interface overview

왼쪽 패널: 생성 작업 공간

왼쪽 패널에는 세 가지 핵심 기능 영역이 있습니다:

  1. 첫 프레임 이미지 생성
  2. 비디오 생성
  3. 오디오 분석(참조용, 자동 생성 없음)
  • 하단 섹션은 제너레이터로, 프롬프트와 설정을 입력하는 곳
  • 상단 섹션은 생성된 이미지와 비디오를 표시

이 패널은 모든 비주얼 자산이 타임라인에 배치되기 전에 생성되는 곳입니다.

오른쪽 패널: 오디오 타임라인

오른쪽 패널은 하단의 오디오 타임라인을 중심으로 합니다.

여기서 다음을 수행할 수 있습니다:

  • 왼쪽 패널에서 생성된 비디오를 타임라인으로 드래그
  • 비디오 클립을 오디오의 특정 세그먼트에 정렬
  • 배치 후 비디오 순서를 자유롭게 재정렬

커스텀 모드에서 첫 프레임 이미지 생성

첫 프레임 이미지를 생성하려면:

  1. 제너레이터 영역에서 이미지 선택
  2. 원하는 이미지 모델 선택
  3. 프롬프트 입력
  4. 선택 사항: 참조 이미지 업로드
  5. 생성 클릭

첫 프레임 이미지는 나중에 비디오 생성을 안내하는 데 재사용할 수 있습니다.

커스텀 모드에서 비디오 생성

비디오 생성은 유사한 워크플로우를 따릅니다:

  1. 비디오 프롬프트 입력
  2. 비디오 모델 선택
  3. 선택 사항: 첫 프레임 이미지 선택
  4. 비디오 생성

첫 프레임 이미지에 대하여

첫 프레임 이미지는 비디오 클립의 시각적 시작점을 정의합니다.

다음에 강한 영향을 미칩니다:

  • 구도
  • 캐릭터 외관
  • 전체적인 시각적 방향

잘 설계된 첫 프레임을 사용하면 비디오의 일관성과 품질을 크게 향상시킬 수 있습니다.

First-frame image selection for video generation

오디오 타임라인에 비디오 적용하기

비디오 클립이 생성되면:

  1. 왼쪽 패널에서 타임라인으로 드래그
  2. 각 클립을 원하는 오디오 세그먼트에 정렬

다음을 수행할 수도 있습니다:

  • 언제든지 클립 순서 변경
  • 클립을 자유롭게 교체하거나 제거

커스텀 모드에서 립싱크 기능

립싱크 기능을 사용하려면 두 단계가 필요합니다:

단계 1: 립싱크 오디오 선택

오른쪽 오디오 타임라인에서:

  • 립싱크가 필요한 특정 오디오 세그먼트 선택
  • Beatviz는 이 선택된 오디오를 사용하여 AI의 입 움직임 생성을 안내합니다

단계 2: 비주얼 방향 정의

다음도 제공해야 합니다:

  • 캐릭터와 장면을 설명하는 프롬프트
  • 선택 사항인 참조 이미지

이러한 입력은 전체 비주얼 스타일을 정의하고, 선택된 오디오가 입 움직임을 제어합니다.

캐릭터 일관성 유지

캐릭터 일관성은 주로 첫 프레임 이미지에 의해 제어됩니다.

일관성 결정 방법

  • 첫 프레임에 캐릭터가 포함되어 있으면 AI는 영상 전체에서 이를 유지합니다.
  • 첫 프레임에 캐릭터가 없지만 프롬프트에서 언급하면 AI는 무작위 캐릭터를 생성합니다.
Consistent vs inconsistent character example

모범 사례

항상 확인하세요:

  • 첫 프레임에서 캐릭터가 명확하게 보이는지
  • 이미지가 프롬프트 설명과 일치하는지

이것이 시각적 연속성을 보장하는 가장 신뢰할 수 있는 방법입니다.

다음을 수행할 수도 있습니다:

  • 라이브러리에서 가져오기 버튼을 사용하여 이전 작업에서 생성된 이미지 가져오기
  • 필요할 때 AI를 활용하여 새 이미지 재생성
Import from library and AI regeneration

립싱크 품질 향상

최적의 립싱크 결과를 얻으려면:

  • 노래 모드 사용
  • 특히 음악 및 보컬 집약적 콘텐츠에 적합

노래 모드는 다음 이유로 더 많은 크레딧을 소비합니다:

  • 더 긴 렌더링 시간
  • 고급 얼굴 애니메이션 모델

품질 향상은 일반적으로 상당합니다.

요약

이 튜토리얼은 모듈식 읽기와 시각적 학습을 위해 구성되었습니다. 각 섹션은 독립적으로 구성되어 짧은 GIF 데모와 자연스럽게 짝을 이루므로 온보딩, 문서화 및 제품 교육에 이상적입니다.

Beatviz 완벽 가이드: 오디오로 영상 만들기