📝 ElevenLabs - Text to Speech 과정(+상세 절차, 구현 과정에 대한 팁)
📝 ElevenLabs - Text to Speech 과정(+상세 절차, 구현 과정에 대한 팁)
ElevenLabs의 "Text to Speech" 인터페이스 이미지를 바탕으로, 사전에 등록된 두 화자(PD 김, 마케터 룡)의 목소리를 사용하여 텍스트를 음성으로 변환하는 상세 절차를 안내해 드리겠습니다.
1. 🎤 화자 (Voice) 선택
가장 먼저, 사전에 등록 및 확인한 Voice ID를 선택해야 합니다.
위치: 화면 오른쪽 'Settings' 패널의 'Voice' 섹션.
절차:
현재 선택된 이름(이미지에서는 'Rachel') 옆의 화살표 > 를 클릭합니다.
드롭다운 목록이나 검색창에서 사전에 등록한 PD 김 (예: PD_Kim) 또는 마케터 룡 (예: Marketer_Rong) 의 Voice ID를 찾아 선택합니다.
이 과정을 통해 변환할 음성의 주 화자가 설정됩니다.
2. 🧠 모델 (Model) 설정
목소리 변환에 사용할 엔진 모델을 선택합니다.
위치: 'Settings' 패널의 'Model' 섹션.
권장 사항: 이미지에 기본 설정된 'Eleven Multilingual v2' 모델은 범용성이 좋고 표현력이 뛰어나므로, 한국어를 포함한 다양한 언어에 적합하여 보통 그대로 사용합니다. 필요하다면 'Try $\text{v3 alpha}$' 등 다른 모델을 테스트해 볼 수 있습니다.
3. ⌨️ 텍스트 입력
음성으로 변환하고 싶은 스크립트 텍스트를 입력합니다.
위치: 화면 중앙의 큰 텍스트 입력 영역 ("Start typing here...").
절차:
PD 김 또는 마케터 룡의 목소리로 변환하고 싶은 대본이나 문장을 해당 영역에 입력하거나 붙여넣습니다. (최대 5,000자 제한)
4. ⚙️ 음성 설정 파라미터 조정
음성의 특징(속도, 안정성, 유사성 등)을 세밀하게 조정합니다.
위치: 'Settings' 패널의 슬라이더들.
주요 파라미터:
Speed (속도): 슬라이더를 움직여 음성의 말하는 속도를 조절합니다.
Stability (안정성): 음색의 일관성을 조절합니다. (일반적으로 중간 정도로 두거나, 감정이 없는 톤이 필요하면 높게 설정합니다.)
Similarity (유사성): 원본 Voice ID 목소리 특징과의 유사성을 조절합니다. (등록된 화자의 목소리 특징을 최대한 유지하려면 높게 설정합니다.)
추가 설정 (Optional):
Style Exaggeration (스타일 과장): 감정 표현의 정도를 조절합니다.
Language Override (언어 재정의): 필요 시, 입력한 텍스트의 언어를 수동으로 지정할 수 있습니다.
Speaker boost (화자 부스트): 음성 선명도를 높일 수 있습니다.
5. ▶️ 음성 생성
모든 설정이 완료되면 최종적으로 음성 파일을 생성합니다.
위치: 화면 하단 우측의 'Generate speech' 버튼.
절차: 버튼을 클릭하면 텍스트가 설정된 화자의 목소리로 변환되며, 화면 중앙 하단에 생성된 음성 파일이 나타납니다. 여기서 재생하여 결과를 확인할 수 있습니다.
💡 다음 작업: 두 화자 교차 작업
PD 김과 마케터 룡 두 화자의 대화 스크립트가 있다면, **1번 (Voice 선택)**과 3번 (텍스트 입력) 절차를 반복하여 각 화자의 대사 부분을 개별적인 음성 파일로 생성해야 합니다.
예를 들어,
Voice: PD_Kim 선택, Text: PD 김의 대사 입력 후 'Generate speech'
Voice: Marketer_Rong 선택, Text: 마케터 룡의 대사 입력 후 'Generate speech'
생성된 두 파일을 다운로드하여 외부 편집 프로그램에서 합치면 대화가 완성됩니다.
이 절차 중 특정 부분에 대해 더 자세한 설명이 필요하신가요?
#가나 투데이 #ganatoday
그린아프로




