음성

이해하기

이 문서는 음성 API를 소개합니다.

기능 소개

음성 API는 서비스 사용자의 음성을 인식하거나, 문자로 된 서비스 콘텐츠를 음성 합성하는 기능을 제공합니다. 사람이 말로 제어하는 음성 인터페이스, 받아쓰기, 자막 처리, 텍스트 추출 등 다양한 기능 구현을 위해 사용할 수 있습니다.

음성 인식

서비스 사용자의 음성을 인식하고 문자 데이터로 변환합니다. 실시간 스트리밍 방식으로 사용자의 음성을 입력받아 전송하거나, 녹음된 음성 파일을 업로드해서 음성 인식을 요청할 수 있습니다.

음성 합성

주어진 문자 데이터의 내용을 읽어주는 음성 파일을 제공합니다. 음성 합성 시 사용할 목소리 종류, 문자를 읽는 규칙을 설정할 수 있습니다. 사용 가능한 설정의 종류는 활용하기를 참고합니다.

사양

음성 인식
- 용량: 최대 116MB
- 길이: 최대 1시간
음성 합성
- 문자 데이터
- 포맷: SSML(Speech Synthesis Markup Language, 음성 합성 마크업 언어)
음원 코덱
- RAWPCM
- Bit depth: 16bit
- Sample rate: 8kHz, 16kHz
- Channel: mono
- MP3, AAC
- Bit depth: 16bit
- Sample rate: 16kHz, 24kHz
- Bit rate: 32bit
- Channel: mono

이용 정책

사용 권한 신청

음성 API는 API 사용 권한이 주어진 앱에서만 사용할 수 있습니다. 음성 인식 API, 음성 합성 API 각각 권한을 신청해야 합니다. 아래 권한 신청 방법을 참고합니다.

음성 인식 합성 API 및 라이브러리 아지트에서 [카카오 사내 음성 API 신청] 양식 제출 후 협의 완료
[서비스] API플랫폼 아지트에서 [KAPI 카카오/공동체 권한・쿼터 신청] 양식 제출 후 권한 획득

쿼터

음성 API는 더 나은 사용자 경험을 위해 쿼터(Quota, 제공량 제한)가 적용됩니다. 현재 적용 중인 쿼터 정보는 쿼터에서 확인할 수 있습니다.

제공 API

API			설명
음성 인식	단문 인식: 웹 소켓	짧은 발화 내용을 인식해 문자로 변환합니다. 실시간 스트리밍 방식으로, 여러 차례 단문 인식을 요청할 수 있습니다.	REST API
	장문 인식: 웹 소켓	긴 발화 내용을 인식해 문자로 변환합니다. 실시간 스트리밍 방식으로, 대화와 같이 여러 차례 중단점이 있는 장문 인식을 지속적으로 요청할 수 있습니다.	REST API
	동기 인식: 파일 업로드	짧은 발화 내용을 인식해 문자로 변환합니다. 동기 방식으로, 발화 내용이 담긴 음성 파일을 업로드한 후 결과를 응답받기까지 네트워크 연결을 유지합니다.	REST API
	비동기 인식: 파일 업로드	긴 발화 내용을 인식해 문자로 변환합니다. 비동기 방식으로, 발화 내용이 담긴 음성 파일을 업로드해 요청합니다. 음성 파일 업로드 상태 조회 후, 인식 종료된 결과 파일을 다운로드할 수 있습니다.	REST API
	음성 파일 업로드 상태 조회	음성 인식을 위해 업로드한 음성 파일의 분석 상태를 확인합니다. 비동기 인식: 파일 업로드 시 사용합니다.	REST API
음성 합성		주어진 문장을 음성으로 변환합니다. 원하는 목소리나 읽기 규칙을 설정할 수 있습니다.	REST API

오픈 문서

시작하기

카카오디벨로퍼스

로그인

커뮤니케이션

인공지능

플랫폼 API

API 제공

전용 API

어드민 API

더 보기

이해하기

기능 소개

음성 인식

음성 합성

사양

이용 정책

사용 권한 신청

쿼터

제공 API

도움이 되었나요?

이해하기

기능 소개

이용 정책

제공 API

사이드 메뉴

오픈 문서

시작하기

카카오디벨로퍼스

로그인

커뮤니케이션

인공지능

플랫폼 API

API 제공

전용 API

어드민 API

더 보기

이해하기

기능 소개

음성 인식

음성 합성

사양

이용 정책

사용 권한 신청

쿼터

제공 API

도움이 되었나요?

이해하기

기능 소개

이용 정책

제공 API