📝 ElevenLabs - Text to Speech 과정(+상세 절차, 구현 과정에 대한 팁)

ElevenLabs의 "Text to Speech" 인터페이스 이미지를 바탕으로, 사전에 등록된 두 화자(PD 김, 마케터 룡)의 목소리를 사용하여 텍스트를 음성으로 변환하는 상세 절차를 안내해 드리겠습니다.

1. 🎤 화자 (Voice) 선택

가장 먼저, 사전에 등록 및 확인한 Voice ID를 선택해야 합니다.

위치: 화면 오른쪽 'Settings' 패널의 'Voice' 섹션.
절차:
1. 현재 선택된 이름(이미지에서는 'Rachel') 옆의 화살표 > 를 클릭합니다.
2. 드롭다운 목록이나 검색창에서 사전에 등록한 PD 김 (예: PD_Kim) 또는 마케터 룡 (예: Marketer_Rong) 의 Voice ID를 찾아 선택합니다.
3. 이 과정을 통해 변환할 음성의 주 화자가 설정됩니다.

목소리 변환에 사용할 엔진 모델을 선택합니다.

위치: 'Settings' 패널의 'Model' 섹션.
권장 사항: 이미지에 기본 설정된 'Eleven Multilingual v2' 모델은 범용성이 좋고 표현력이 뛰어나므로, 한국어를 포함한 다양한 언어에 적합하여 보통 그대로 사용합니다. 필요하다면 'Try $\text{v3 alpha}$ ' 등 다른 모델을 테스트해 볼 수 있습니다.

음성으로 변환하고 싶은 스크립트 텍스트를 입력합니다.

위치: 화면 중앙의 큰 텍스트 입력 영역 ("Start typing here...").
절차:
1. PD 김 또는 마케터 룡의 목소리로 변환하고 싶은 대본이나 문장을 해당 영역에 입력하거나 붙여넣습니다. (최대 5,000자 제한)

음성의 특징(속도, 안정성, 유사성 등)을 세밀하게 조정합니다.

위치: 'Settings' 패널의 슬라이더들.
주요 파라미터:
- Speed (속도): 슬라이더를 움직여 음성의 말하는 속도를 조절합니다.
- Stability (안정성): 음색의 일관성을 조절합니다. (일반적으로 중간 정도로 두거나, 감정이 없는 톤이 필요하면 높게 설정합니다.)
- Similarity (유사성): 원본 Voice ID 목소리 특징과의 유사성을 조절합니다. (등록된 화자의 목소리 특징을 최대한 유지하려면 높게 설정합니다.)
추가 설정 (Optional):
- Style Exaggeration (스타일 과장): 감정 표현의 정도를 조절합니다.
- Language Override (언어 재정의): 필요 시, 입력한 텍스트의 언어를 수동으로 지정할 수 있습니다.
- Speaker boost (화자 부스트): 음성 선명도를 높일 수 있습니다.

모든 설정이 완료되면 최종적으로 음성 파일을 생성합니다.

위치: 화면 하단 우측의 'Generate speech' 버튼.
절차: 버튼을 클릭하면 텍스트가 설정된 화자의 목소리로 변환되며, 화면 중앙 하단에 생성된 음성 파일이 나타납니다. 여기서 재생하여 결과를 확인할 수 있습니다.

PD 김과 마케터 룡 두 화자의 대화 스크립트가 있다면, **1번 (Voice 선택)**과 3번 (텍스트 입력) 절차를 반복하여 각 화자의 대사 부분을 개별적인 음성 파일로 생성해야 합니다.

예를 들어,

이 절차 중 특정 부분에 대해 더 자세한 설명이 필요하신가요?

#가나 투데이 #ganatoday