본문 바로가기메인 메뉴 바로가기사이드 메뉴 바로가기

kakao developers

관련사이트

사이드 메뉴

플랫폼 API

API 제공

전용 API

어드민 API

이 문서는 음성 API를 소개합니다.

음성 API는 서비스 사용자의 음성을 인식하거나, 문자로 된 서비스 콘텐츠를 음성 합성하는 기능을 제공합니다. 사람이 말로 제어하는 음성 인터페이스, 받아쓰기, 자막 처리, 텍스트 추출 등 다양한 기능 구현을 위해 사용할 수 있습니다.

서비스 사용자의 음성을 인식하고 문자 데이터로 변환합니다. 실시간 스트리밍 방식으로 사용자의 음성을 입력받아 전송하거나, 녹음된 음성 파일을 업로드해서 음성 인식을 요청할 수 있습니다.

주어진 문자 데이터의 내용을 읽어주는 음성 파일을 제공합니다. 음성 합성 시 사용할 목소리 종류, 문자를 읽는 규칙을 설정할 수 있습니다. 사용 가능한 설정의 종류는 활용하기를 참고합니다.

  • 음성 인식
    • 용량: 최대 116MB
    • 길이: 최대 1시간
  • 음성 합성
    • 문자 데이터
    • 포맷: SSML(Speech Synthesis Markup Language, 음성 합성 마크업 언어)
  • 음원 코덱
    • RAWPCM
    • Bit depth: 16bit
    • Sample rate: 8kHz, 16kHz
    • Channel: mono
    • MP3, AAC
    • Bit depth: 16bit
    • Sample rate: 16kHz, 24kHz
    • Bit rate: 32bit
    • Channel: mono

음성 API는 API 사용 권한이 주어진 앱에서만 사용할 수 있습니다. 음성 인식 API, 음성 합성 API 각각 권한을 신청해야 합니다. 아래 권한 신청 방법을 참고합니다.

  1. 음성 인식 합성 API 및 라이브러리 아지트에서 [카카오 사내 음성 API 신청] 양식 제출 후 협의 완료
  2. [서비스] API플랫폼 아지트에서 [KAPI 카카오/공동체 권한・쿼터 신청] 양식 제출 후 권한 획득

음성 API는 더 나은 사용자 경험을 위해 쿼터(Quota, 제공량 제한)가 적용됩니다. 현재 적용 중인 쿼터 정보는 쿼터에서 확인할 수 있습니다.

API설명문서
음성 인식단문 인식: 웹 소켓짧은 발화 내용을 인식해 문자로 변환합니다. 실시간 스트리밍 방식으로, 여러 차례 단문 인식을 요청할 수 있습니다.REST API
장문 인식: 웹 소켓긴 발화 내용을 인식해 문자로 변환합니다. 실시간 스트리밍 방식으로, 대화와 같이 여러 차례 중단점이 있는 장문 인식을 지속적으로 요청할 수 있습니다.REST API
동기 인식: 파일 업로드짧은 발화 내용을 인식해 문자로 변환합니다. 동기 방식으로, 발화 내용이 담긴 음성 파일을 업로드한 후 결과를 응답받기까지 네트워크 연결을 유지합니다.REST API
비동기 인식: 파일 업로드긴 발화 내용을 인식해 문자로 변환합니다. 비동기 방식으로, 발화 내용이 담긴 음성 파일을 업로드해 요청합니다. 음성 파일 업로드 상태 조회 후, 인식 종료된 결과 파일을 다운로드할 수 있습니다.REST API
음성 파일 업로드 상태 조회음성 인식을 위해 업로드한 음성 파일의 분석 상태를 확인합니다. 비동기 인식: 파일 업로드 시 사용합니다.REST API
음성 합성주어진 문장을 음성으로 변환합니다. 원하는 목소리나 읽기 규칙을 설정할 수 있습니다.REST API

도움이 되었나요?