💡

2022.04.03 회의록 - 주제 제안서 작성

생성일

2023/02/16 14:02

참여자

태그

주제선정

속성

주제 제안서

종합설계 제목 : E2E 음성인식 엔진을 활용한 Real Time LipSync

지도교수 : 조행래 교수님

팀장 : 21411861 신수형

팀원 : 21611732 박인수 , 21812067 홍서경 , 21913660 김형준

설계제한조건 :

•

안정성 - 크로스플랫폼에서 활용할 수 있도록 다양한 아키텍쳐에서 테스트 환경을 제작한다.

•

경제성 

◦

데이터 모델링 시에 필요한 엔지니어링 비용을 너무 부담스럽지 않게 설계하여야 한다.

◦

클라이언트가 서비스를 실행할 때, 클라이언트 측 성능을 최소한으로 사용하도록 설계한다.

•

윤리성 - 모델링 당시 사용했던 자료들은 외부에 유출되지 않도록 안전하게 보관한다.

프로젝트 목표

최근 음성인식 기술이 RNN-T의 등장으로 빠르게 발전하고 있습니다. 또한 Streaming이 가능하고 높은 정확도로 온디바이스 음성인식 서비스들이 많이 등장하고 있습니다.

저희 팀도 이 RNN-T 기술을 활용해서 Real Time LipSync 엔진의 프로토타입을 제작하려고 합니다. 1차 목표는 2D 이미지를 활용한 립싱크 엔진의 개발이고, 추후 에니메이션 더빙, 비대면 회의 등 다양한 분야에서 사용할 수 있도록 발전 시키는 것이 최종 목표입니다.

프로젝트 기능

① 사용자가 음성을 실시간으로 입력할 수 있다.

② 입력한 음성을 음성인식 엔진을 활용해 Text로 변환하고, 자모를 분석한다.

③ 자모를 분석해서 해당 발음에 매핑되는 이미지로 립싱크 서비스를 제공한다.

접근 방법 및 도구 :

AI Hub 한국어 음성 데이터센터에서 모델링에 필요한 음성 데이터를 습득한다. 해당 음성 데이터를 분석하여 최소한의 모델로 정확도가 95%이상 나오는 엔진을 개발한다.

음성인식 엔진은 Python을 활용해 개발을 진행하고, Kotlin 혹은 React를 활용해 비주얼라이저를 개발한다.

특허 / 문헌 조사 :

•