////
Search
Duplicate
💡

2022.04.03 회의록 - 주제 제안서 작성

생성일
2023/02/16 14:02
참여자
태그
주제선정
속성

주제 제안서

종합설계 제목 : E2E 음성인식 엔진을 활용한 Real Time LipSync
지도교수 : 조행래 교수님
팀장 : 21411861 신수형
팀원 : 21611732 박인수 , 21812067 홍서경 , 21913660 김형준
설계제한조건 :
안정성 - 크로스플랫폼에서 활용할 수 있도록 다양한 아키텍쳐에서 테스트 환경을 제작한다.
경제성
데이터 모델링 시에 필요한 엔지니어링 비용을 너무 부담스럽지 않게 설계하여야 한다.
클라이언트가 서비스를 실행할 때, 클라이언트 측 성능을 최소한으로 사용하도록 설계한다.
윤리성 - 모델링 당시 사용했던 자료들은 외부에 유출되지 않도록 안전하게 보관한다.
프로젝트 목표
최근 음성인식 기술이 RNN-T의 등장으로 빠르게 발전하고 있습니다. 또한 Streaming이 가능하고 높은 정확도로 온디바이스 음성인식 서비스들이 많이 등장하고 있습니다.
저희 팀도 이 RNN-T 기술을 활용해서 Real Time LipSync 엔진의 프로토타입을 제작하려고 합니다. 1차 목표는 2D 이미지를 활용한 립싱크 엔진의 개발이고, 추후 에니메이션 더빙, 비대면 회의 등 다양한 분야에서 사용할 수 있도록 발전 시키는 것이 최종 목표입니다.
프로젝트 기능
① 사용자가 음성을 실시간으로 입력할 수 있다.
② 입력한 음성을 음성인식 엔진을 활용해 Text로 변환하고, 자모를 분석한다.
③ 자모를 분석해서 해당 발음에 매핑되는 이미지로 립싱크 서비스를 제공한다.
접근 방법 및 도구 :
AI Hub 한국어 음성 데이터센터에서 모델링에 필요한 음성 데이터를 습득한다. 해당 음성 데이터를 분석하여 최소한의 모델로 정확도가 95%이상 나오는 엔진을 개발한다.
음성인식 엔진은 Python을 활용해 개발을 진행하고, Kotlin 혹은 React를 활용해 비주얼라이저를 개발한다.
특허 / 문헌 조사 :
AI Hub 한국어 음성 데이터
espnet github
Real Time LipSync
LipSync demo
RNN-T 한국어 Transducer
CTC 개념 소개
CTC Algorithms ref
음성 인식 기초 개념 모음
E2E 음성인식 기술 소개
최종 결과물 : E2E 음성 인식을 활용한 Real Time LipSync 엔진