Skip to content

Latest commit

 

History

History
103 lines (66 loc) · 4.91 KB

File metadata and controls

103 lines (66 loc) · 4.91 KB

Gradio UI 사용 가이드

언어 / Language / 语言 / 言語: English | 한국어 | 中文 | 日本語


이 문서는 ACE-Step 1.5 Gradio 인터페이스의 각 기능과 탭에 대한 포괄적인 가이드를 제공합니다.

목차


1. 메인 인터페이스 (Create)

음악 생성을 위한 핵심 탭입니다.

Simple Mode vs Custom Mode

  • Simple Mode (추천): 자연어 설명 하나로 음악을 생성합니다. LLM이 캡션, 가사, BPM, 키 등을 자동으로 계획합니다. (예: "여름 여행에 어울리는 신나는 팝송")
  • Custom Mode: 캡션, 가사, 메타데이터(BPM, Key 등)를 수동으로 입력하여 세밀하게 제어합니다.

주요 기능 버튼

  • 🎲 (랜덤): 미리 정의된 예제 데이터에서 무작위 프롬프트를 가져옵니다. 아이디어가 필요할 때 유용합니다.
  • ✨ Format (Custom Mode 전용): 입력한 간단한 캡션과 가사를 LLM을 통해 향상시키고 메타데이터를 자동으로 채웁니다. 생성 전 "미리보기 및 수정" 워크플로우를 가능하게 합니다.

생성 파라미터

  • Model: 사용할 DiT 모델을 선택합니다. (Turbo 모델 권장)
  • Thinking Mode: 활성화하면 5Hz LM이 '추론(Chain-of-Thought)' 과정을 거쳐 더 논리적인 음악 구조와 코드를 생성합니다.
  • Duration: 생성할 음악의 길이(초)입니다.
  • BPM / Key / Time Signature: 음악의 기본 속성을 지정합니다. 비워두면 LLM이 프롬프트에 맞춰 자동으로 결정합니다.
  • Batch Size: 한 번에 생성할 결과물의 개수입니다.

2. 편집 및 리페인팅 (Edit)

기존 오디오를 수정하거나 스타일을 변경하는 기능을 제공합니다.

  • Task Type:
    • Cover: 멜로디 구조는 유지하면서 스타일이나 악기 구성을 변경합니다.
    • Repaint: 특정 구간만 다시 생성합니다. (예: 10초~20초 구간의 보컬 수정)
    • Lego (Base 모델 전용): 기존 트랙에 특정 악기(드럼, 베이스 등)를 추가합니다.
    • Extract (Base 모델 전용): 믹스된 오디오에서 특정 트랙(보컬 등)을 추출합니다.
  • Audio Influence (Strength): 원본 오디오를 얼마나 반영할지 결정합니다. (0.0~1.0)

3. 모델 관리 (Models)

체크포인트를 다운로드하고 관리하는 탭입니다.

  • Checkpoints: checkpoints/ 폴더 내의 모델 목록을 확인하고 새로고침합니다.
  • Download: Hugging Face 등에서 새로운 DiT 또는 LM 모델을 편리하게 다운로드할 수 있습니다.

4. LoRA 학습 (Training)

자신만의 데이터로 모델을 미세 조정(Fine-tuning)할 수 있는 고급 기능입니다.

  • Dataset Path: 학습에 사용할 오디오 파일들이 담긴 폴더 경로를 입력합니다.
  • Output Name: 학습된 LoRA 파일의 이름을 지정합니다.
  • Learning Rate / Steps: 학습 강도와 반복 횟수를 조정합니다.

5. 오디오 브라우저 (Browser)

지금까지 생성된 모든 결과물을 확인하고 관리합니다.

  • History: 생성된 오디오 목록을 보고, 재생하고, 다운로드하거나 삭제할 수 있습니다.
  • Quick-Edit: 브라우저에서 바로 특정 오디오를 선택하여 Edit 탭으로 보내거나 캡션을 복사할 수 있습니다.

6. 설정 (Settings)

서버 성능과 동작 방식을 세밀하게 조정합니다.

  • UI Language: 인터페이스 언어를 변경합니다.
  • Precision: 연산 정밀도(fp16, bf16 등)를 선택합니다.
  • Compilation: 모델 컴파일 활성화 여부를 결정하여 속도를 최적화합니다.
  • CPU Offload: VRAM이 부족한 경우 사용하지 않는 모델을 시스템 메모리로 보냅니다.

팁 및 트릭

  1. Turbo 모델이 가장 빠릅니다: 일상적인 생성에는 turbo 모델을 사용하세요.
  2. Thinking을 켜면 똑똑해집니다: 더 복잡하고 논리적인 음악 구성을 원한다면 Thinking Mode를 활성화하세요.
  3. VRAM 관리: VRAM이 부족하다면 배치 크기를 줄이거나 Settings 탭에서 CPU Offload를 활성화하세요.
  4. 커스텀 워크플로우: Simple Mode로 아이디어를 얻고, Edit 탭의 Repaint로 마음에 안 드는 구간을 고치는 방식으로 작업해 보세요.