페이지 이동경로
  • 문서>
  • 음성>
  • 이해하기

음성

이해하기

이 문서는 카카오 음성 API를 소개합니다.

기능 소개

사용자는 마이크와 스피커를 이용해 입력된 사람의 음성 언어를 인식하거나 합성할 수 있습니다. 음성 API는 사람이 말하는 음성 언어를 컴퓨터가 해석해 그 내용을 문자 데이터로 변환하는 음성-문자 변환, 문자 데이터를 사람이 이해할 수 있는 음성 언어로 변환하는 문자-음성 변환 기능을 제공합니다.

제휴 안내

카카오 이미지 표시 의무

  • 개인 또는 법인이 상업적 용도로 카카오 음성 API를 사용하고자 할 때 아래 카카오(powered by kakao) 이미지를 삽입하여 카카오가 서비스 제공자임을 표시해야 합니다.
  • 모바일 화면에서 상하좌우측 또는 중간에 표시합니다.
  • 이미지 사이즈는 최소 가로 102 픽셀, 세로 15 픽셀 이상이어야 합니다. 더 크게 표시할 경우 가로 세로 배율을 유지해야 합니다.
카카오 이미지

음성 합성 규칙

음성 합성 API에서 내부적으로 음성을 합성하는 기준과 규칙은 다음과 같습니다.

1. 표준어 및 한글 사용
  • "카카오 음성 합성 엔진"은 한국어 문장 합성기로, 영어 문장 합성은 지원하지 않습니다.
    다만 흔히 사용하는 영어 단어, 약어, 유명인 이름, 기업명 등은 예외적으로 한국식 발음으로 읽습니다.
  • 사투리나 은어, 비속어, 오타 등은 합성음이 부자연스러울 수 있습니다.
  • "URL"은 "링크", "이메일 주소"은 "이메일 주소" 라는 발음으로 변환됩니다.
  • 미리 정의된 "ㅋㅋ", "ㅎㅎ" 등의 대화체 단어는 아래와 같이 합성됩니다.
단어 합성음
ㅎㅎ 흐흐 (3개 이상부터 "흐흐흐"로 통일)
ㅋㅋ 크크 (3개 이상부터 "크크크"로 통일)
ㅇㅋ 오케이
ㅇㅇ
ㄴㄴ
ㅃㅇ 빠이
ㅎㅇ 하이
2. 적절한 문장 부호 사용
  • 쉼표, 마침표, 느낌표, 물음표 등의 문장부호를 적절하게 사용합니다.
  • 특히 쉼표를 이용하여, 합성음에서의 인위적인 끊어읽기를 유도할 수 있습니다.
3. 특수기호
  • 흔히 쓰이는 특수기호를 제외하고는, 합성시 무시됩니다.
  • 마침표(.), 물음표(?), 탭(\t). 뉴라인(\n)을 기준으로 문장을 분리합니다.
  • 한글 자소, 한자 및 외래어 등은 합성시 무시됩니다.
  • 흔히 사용되는 특수기호는 다음과 같습니다.
특수기호 합성음
$ 달러
¥
£ 파운드
유로
°
섭씨
화씨
4. 허용하지 않는 문장
  • 피싱에 사용될 가능성이 높은 문장
  • 음란성 문장

지원하는 기능

  • 각 API 및 기능의 Kakao SDK 지원 여부는 지원 범위에서 확인할 수 있습니다.
API 및 기능 설명
음성 인식하기 사람이 말하는 음성 언어를 컴퓨터가 해석해, 그 내용을 문자 데이터로 변환합니다.
음성 합성하기 문자 데이터를 사람이 이해할 수 있는 음성 언어로 변환합니다.

이 API는 스마트폰을 통한 음성 입력 또는 음성 데이터를 이용하므로 iOS, Android SDK 및 REST API 방식을 지원합니다.