/////
Search
Duplicate
📚

STT 실시간 개발

해야 할 것

1.
STT
wav, mp3 파일을 활용하여 STT하여 보기 - 구글 API 나 MIC API를 활용하면 금방 끝남
2.
실시간 변환
STT가 파일이 아닌 실시간으로 변환이 되어야 함 - 대부분의 내용이 API활용 방안
3.
Kospeech 활용
Kospeech 라이브러리를 활용하여 제작하여야 함 - 우리가 쓸 확장자 및 정리를 하고 시작하여야 함

Kospeech clone 생성 후

kospeech저장된 음향 오디오 파일에서 STT하는 음성인식 모델이나 실시간으로 바꿔주는 기능은 없는 것 같음
실시간으로 넘어갈려면 일정크기 단위로 쪼개어 바로바로 인식이 되어야 하는데
외부 API를 사용하면 금방 작업하지만 API호출 횟수가 증가하므로 비용적 측면이 커짐
고로 speech_recognition을 우리가 개발하여서 여러번 호출하는 함수를 만들어야함
speech_recognition은 openspeech의 라이브러리를 활용하여 사용하기로 함
한번 받는 시간을 줄이고 반복으로 받게 해야 할 것 같다.