이해하기
이 문서는 카카오 음성 API를 소개합니다.
기능 소개
사용자는 마이크와 스피커를 이용해 입력된 사람의 음성 언어를 인식하거나 합성할 수 있습니다. 음성 API는 사람이 말하는 음성 언어를 컴퓨터가 해석해 그 내용을 문자 데이터로 변환하는 음성-문자 변환, 문자 데이터를 사람이 이해할 수 있는 음성 언어로 변환하는 문자-음성 변환 기능을 제공합니다.
제휴 안내
카카오 이미지 표시 의무
- 개인 또는 법인이 상업적 용도로 카카오 음성 API를 사용하고자 할 때 아래 카카오(powered by kakao) 이미지를 삽입하여 카카오가 서비스 제공자임을 표시해야 합니다.
- 모바일 화면에서 상하좌우측 또는 중간에 표시합니다.
- 이미지 사이즈는 최소 가로 102 픽셀, 세로 15 픽셀 이상이어야 합니다. 더 크게 표시할 경우 가로 세로 배율을 유지해야 합니다.
음성 합성 규칙
음성 합성 API에서 내부적으로 음성을 합성하는 기준과 규칙은 다음과 같습니다.
1. 표준어 및 한글 사용
- "카카오 음성 합성 엔진"은 한국어 문장 합성기로, 영어 문장 합성은 지원하지 않습니다.
다만 흔히 사용하는 영어 단어, 약어, 유명인 이름, 기업명 등은 예외적으로 한국식 발음으로 읽습니다.
- 사투리나 은어, 비속어, 오타 등은 합성음이 부자연스러울 수 있습니다.
- "URL"은 "링크", "이메일 주소"은 "이메일 주소" 라는 발음으로 변환됩니다.
- 미리 정의된 "ㅋㅋ", "ㅎㅎ" 등의 대화체 단어는 아래와 같이 합성됩니다.
단어 |
합성음 |
ㅎㅎ |
흐흐 (3개 이상부터 "흐흐흐"로 통일) |
ㅋㅋ |
크크 (3개 이상부터 "크크크"로 통일) |
ㅇㅋ |
오케이 |
ㅇㅇ |
응 |
ㄴㄴ |
노 |
ㅃㅇ |
빠이 |
ㅎㅇ |
하이 |
2. 적절한 문장 부호 사용
- 쉼표, 마침표, 느낌표, 물음표 등의 문장부호를 적절하게 사용합니다.
- 특히 쉼표를 이용하여, 합성음에서의 인위적인 끊어읽기를 유도할 수 있습니다.
3. 특수기호
- 흔히 쓰이는 특수기호를 제외하고는, 합성시 무시됩니다.
- 마침표(.), 물음표(?), 탭(\t). 뉴라인(\n)을 기준으로 문장을 분리합니다.
- 한글 자소, 한자 및 외래어 등은 합성시 무시됩니다.
- 흔히 사용되는 특수기호는 다음과 같습니다.
특수기호 |
합성음 |
$ |
달러 |
¥ |
엔 |
£ |
파운드 |
€ |
유로 |
₩ |
원 |
° |
도 |
℃ |
섭씨 |
℉ |
화씨 |
4. 허용하지 않는 문장
- 피싱에 사용될 가능성이 높은 문장
- 음란성 문장
지원하는 기능
- 각 API 및 기능의 Kakao SDK 지원 여부는 지원 범위에서 확인할 수 있습니다.
API 및 기능 |
설명 |
음성 인식하기 |
사람이 말하는 음성 언어를 컴퓨터가 해석해, 그 내용을 문자 데이터로 변환합니다. |
음성 합성하기 |
문자 데이터를 사람이 이해할 수 있는 음성 언어로 변환합니다. |
이 API는 스마트폰을 통한 음성 입력 또는 음성 데이터를 이용하므로 iOS, Android SDK 및 REST API 방식을 지원합니다.