사이드 메뉴
커뮤니케이션
API 제공
어드민 API
음성
이해하기
이 문서는 음성 API를 소개합니다.
음성 API는 서비스 사용자의 음성을 인식하거나, 문자로 된 서비스 콘텐츠를 음성 합성하는 기능을 제공합니다. 사람이 말로 제어하는 음성 인터페이스, 받아쓰기, 자막 처리, 텍스트 추출 등 다양한 기능 구현을 위해 사용할 수 있습니다.
서비스 사용자의 음성을 인식하고 문자 데이터로 변환합니다. 실시간 스트리밍 방식으로 사용자의 음성을 입력받아 전송하거나, 녹음된 음성 파일을 업로드해서 음성 인식을 요청할 수 있습니다.
주어진 문자 데이터의 내용을 읽어주는 음성 파일을 제공합니다. 음성 합성 시 사용할 목소리 종류, 문자를 읽는 규칙을 설정할 수 있습니다. 사용 가능한 설정의 종류는 활용하기를 참고합니다.
- 음성 인식
- 용량: 최대 116MB
- 길이: 최대 1시간
- 음성 합성
- 문자 데이터
- 포맷:
SSML(Speech Synthesis Markup Language, 음성 합성 마크업 언어)
- 음원 코덱
RAWPCM- Bit depth: 16bit
- Sample rate: 8kHz, 16kHz
- Channel: mono
MP3,AAC- Bit depth: 16bit
- Sample rate: 16kHz, 24kHz
- Bit rate: 32bit
- Channel: mono
음성 API는 API 사용 권한이 주어진 앱에서만 사용할 수 있습니다. 음성 인식 API, 음성 합성 API 각각 권한을 신청해야 합니다. 아래 권한 신청 방법을 참고합니다.
- 음성 인식 합성 API 및 라이브러리 아지트에서 [카카오 사내 음성 API 신청] 양식 제출 후 협의 완료
- [서비스] API플랫폼 아지트에서 [KAPI 카카오/공동체 권한・쿼터 신청] 양식 제출 후 권한 획득
음성 API는 더 나은 사용자 경험을 위해 쿼터(Quota, 제공량 제한)가 적용됩니다. 현재 적용 중인 쿼터 정보는 쿼터에서 확인할 수 있습니다.
| API | 설명 | 문서 | ||
|---|---|---|---|---|
| 음성 인식 | 단문 인식: 웹 소켓 | 짧은 발화 내용을 인식해 문자로 변환합니다. 실시간 스트리밍 방식으로, 여러 차례 단문 인식을 요청할 수 있습니다. | REST API | |
| 장문 인식: 웹 소켓 | 긴 발화 내용을 인식해 문자로 변환합니다. 실시간 스트리밍 방식으로, 대화와 같이 여러 차례 중단점이 있는 장문 인식을 지속적으로 요청할 수 있습니다. | REST API | ||
| 동기 인식: 파일 업로드 | 짧은 발화 내용을 인식해 문자로 변환합니다. 동기 방식으로, 발화 내용이 담긴 음성 파일을 업로드한 후 결과를 응답받기까지 네트워크 연결을 유지합니다. | REST API | ||
| 비동기 인식: 파일 업로드 | 긴 발화 내용을 인식해 문자로 변환합니다. 비동기 방식으로, 발화 내용이 담긴 음성 파일을 업로드해 요청합니다. 음성 파일 업로드 상태 조회 후, 인식 종료된 결과 파일을 다운로드할 수 있습니다. | REST API | ||
| 음성 파일 업로드 상태 조회 | 음성 인식을 위해 업로드한 음성 파일의 분석 상태를 확인합니다. 비동기 인식: 파일 업로드 시 사용합니다. | REST API | ||
| 음성 합성 | 주어진 문장을 음성으로 변환합니다. 원하는 목소리나 읽기 규칙을 설정할 수 있습니다. | REST API | ||