💡

2022.04 회의록 - DRD 작성

생성일

2022/06/06 14:06

참여자

태그

기획

속성

Introduction - Openspeech v0.3.0 documentation

Openspeech provides reference implementations of various ASR modeling papers and three languages recipe to perform tasks on automatic speech recognition. Our aim is to make ASR technology easier to use for everyone. Openspeech is backed by the two powerful libraries - PyTorch-Lightning and Hydra.

https://openspeech-team.github.io/openspeech/notes/intro.html

2. DRD작성방법 및 양식.hwp

1724.5KB

DRD 회의

DRD 제작할 때 해야할 것

자료조사

•

시장조사 - 음성인식 시장 or 메타버스 플랫폼

•

문헌조사

•

유사 상품과의 비교 (wav2lip)

•

관련 특허 조사

그림자료(차트)제작

•

문서작성 완료된 후 제작하기

문서 작성

•

과제개요 (Executive Summary) : 1 페이지 - 가장 마지막에 작성

•

개론

◦

문제, 동기 혹은 과제 정의

◦

과제의 목적

◦

클라이언트나 소비자가 원하는 요구사항 및 기능을 요약설명

◦

현실적 제한조건

◦

Specification (SW)

•

문헌조사, 유사 상품과의 비교, 관련 특허 조사  

•

설계과제의 기능 (개념을 분석해 트리구조의 표현)

•

해결방안 (여러개 있을 경우 장단점과 소요 비용 비교)

•

연구비 

•

시장성 

•

최종 결과물 (클라이언트가 완성도를 평가할 수 있는 Check-Off List)

•

작업 나눔은 Work Breakdown 차트로 표시

•

각자의 책임감 명시는 Linear responsibility 차트로 표시

•

작업 일정의 상세한 일정을 Gantt 차트로 표시

•

참고 문헌

PPT

DRD 작성하고 나면 PPT 제작 → PPT 제작 4일정도 예상

디자인 플랫폼 미리캔버스

ppt, 카드뉴스, 포스터, 유튜브 섬네일 등 5만개 이상의 무료 템플릿으로 원하는 디자인 제작

https://www.miricanvas.com/

4월 23 토요일 할 것

4월 24 일요일 할 것

4월 25 월요일 할 것

4월 26 화요일 할 것

4월 27일 수요일 할 것

4월 28일 목요일 할 것

DRD

목차

개론

•

개발배경 

◦

최근 글로벌 최대 메타버스 서비스인 ‘로볼록스'는 2022년도 1분기 일일 활성 이용자(DAU) 수가 4,210만 명으로 집계되고, 이들이 플랫폼에 머무른 시간이 무려 97억 시간에 달하는 것으로 나타났다. 현실에서 친구나 가족과 보내는 시간보다 가상공간인 로블록스에서 보내는 시간이 더 많은 것이다.

◦

가상, 증강현실 기술의 발달로 메타버스는 ‘차세대 인터넷' 시대를 주도할 새로운 패러다임으로 떠오르면서 사회, 경제적 활동이 게임, 엔터테인먼트, 음악, 컨텐츠 산업 등을 중심으로 확산 중이다. 특히 코로나19 발생 이후 비대면 전환이 가속화되면서 생활양식과 산업현장, 또한 교육 분야에서도 언택트화를 넘어 3차원 가상공간인 메타버스화로 빠르게 변화하고 있다. 

◦

또한 정부에서도 한국판 뉴딜 2.0 정책을 발표하며, 핵심 과제로 메타버스 등 향후 글로벌 시장을 선도할 미래 신사업을 육성하기 위해 ‘개방형 메타버스 플랫폼'을 구축할 계획이다.

◦

이러한 메타버스에 대한 관심이 늘어나면서 온라인 상에서도 서로 화면을 보고 소통하는 플랫폼들 또한 점점 많아지고 있다. 

◦

하지만 기존에 만들어진 서비스들은 플랫폼 내에 자신의 캐릭터 이미지만 움직여서 여러 사람이 한번에 말하면 누가 말하고 있는지 확인이 어려워 불편한 점이 많았다.

◦

그래서 우리 팀은 실제 사용자가 말하는 음성을 사용자의 캐릭터가 립싱크를 할 수 있는 기술을 활용해, 사람이 직접 앞에서 말하는 듯한 효과를 주고 싶었고, 이후 만든 엔진을 통해서 다양한 서비스를 만들어 광범위 적으로 이용하게 하고 싶어서 이번 프로젝트를 계획하게 되었다.

◦

기대효과도 적으면 좋을듯 

▪

자신의 음성에 맞게 캐릭터가 입모양 립싱크 하게 되면 보다 상대에게 활동적이게 보여질 수 있고, 이는 곧 어떠한 분야에서 사용하더라도 더욱 더 생산성 있는 효과, 결과로 이어질 것으로 예상된다.

▪

나아가 청각관련 장애가 있으신 분들 또한 조금 더 원활하게 화상 회의를 참여할 수 있도록 도움을 주어, 사회적으로도 긍정적인 효과로 이어질 것으로 예상된다.

▪

메타버스 뿐만 아니라 우리 근처의 다양한 분야에서 활용가능하다라는 점에서, 다목적성 면에서도 긍정적인 효과를 줄 수 있다.  ex) 가상 화상회의, 가상 전시회, 인터넷강의, 게임

•

개발목표

◦

해당 서비스는 실시간 통신이 가장 중요하기 때문에, 엔진의 성능을 최우선적으로 고려할 것이다. 사용자가 입력하는 음성이 해당 음성의 립싱크 이미지와 동일한 타임라인에 출력되어야 하기 때문에 음성 출력과 이미지 출력간의 싱크를 맞춰주는 것에 초점을 맞출 것이다. 

◦

해당 엔진은 다양한 서비스(웹 또는 어플리케이션)에서 모두 사용할 수 있는 api로  제작할 것이다.

◦

다양한 캐릭터들을 사용할 수 있는 방안으로 구성할 예정이다

◦

청각장애인을 비롯한 음성을 꺼둔 사람들을 배려하여 음성인식 시 텍스트로도 출력되게 만들 예정이다.

◦

실시간으로 사람과 사람끼리 양방향 소통이 가능하게 만들 예정이다.

◦

주요 사용 언어는 한국어를 사용할 예정이다.

•

시스템 기능

◦

TTI(Text to Image)

▪

문자 입력을 받아서 립싱크 이미지를 출력한다.

◦

STI(Speech to Image) 

▪

말하는 걸 실시간으로 립싱크 이미지를 출력한다.

◦

양방향&실시간 소통

▪

실시간으로 양방향으로 소통이 가능하다.

▪

서로의 캐릭터의 입모양이 움직이는게 보인다.

•

STT(Speech to Text )

◦

음성 입력을 받아서 텍스트로 출력한다.

◦

RNN-T 한국어

▪

한국어로 번역해주는 Trance기능

•

설계 제한사항

산업표준	부적절하게 수집한 음성 자료들을 데이터 학습과정에 활용하지 않는다.
미학	사용할 이미지 에셋에 대한 저작권을 명확하게 인지하고 해당 범위에 맞는 활용을 하여야 한다.
안정성	크로스플랫폼에서 활용할 수 있도록 다양한 아키텍쳐에서 테스트 환경을 제작한다.
경제성	• 데이터 모델링 시에 필요한 엔지니어링 비용을 너무 부담스럽지 않게 설계하여야 한다. • 클라이언트가 서비스를 실행할 때, 클라이언트 측 성능을 최소한으로 사용하도록 설계한다.
윤리성	• 모델링 당시 사용했던 자료들은 외부에 유출되지 않도록 안전하게 보관한다. • 서비스를 사용하는 유저들의 음성자료를 무단으로 수집하지 않는다.

Specification

설계하고자 하는 상세한 specification을 상세히 명시한다. 구현 기능별로 기술한다.

•

웹브라우저 

◦

IE 지원 안함

◦

크롭 7 이상 ,

◦

파이어폭스 99.0 이상,

◦

사파리 13.1 이상,

◦

네이버 웨일 2.7 이상,

◦

엣지 90 이상,

◦

js 사용 설정 

◦

마이크 입력

◦

사운드 출력

•

센서 및 도구 :  마이크  , 3.5파이 단자 마이크나 ,usb형 마이크

•

사용자  :  기능설명 

엔진

마이크 사용 시

음성 인식(인식 범위, 언어), 텍스트 변환, 텍스트 출력(출력시간, 텍스트 크기 : 10px, 언어 : 한국어, 글씨체 : 돋움, 글씨 색상 : 검정) , 이미지 선택(사이즈 64×48, 기본 표정, 아, 에, 이, 오, 우 사진), 이미지 출력(사이즈 64×48, 기본 표정, 아, 에, 이, 오, 우 사진 , 출력시간 : 1초)

텍스트 입력 시 

텍스트 출력 (출력시간 : 2초, 텍스트 크기 : 10px, 언어 : 한국어, 글씨체 : 돋움, 글씨 색상 : 검정), 이미지 선택(사이즈 64×48, 기본 표정, 아, 에, 이, 오, 우 사진), 이미지 출력(사이즈 64×48, 기본 표정, 아, 에, 이, 오, 우 사진, 출력시간 : 1초)

•

아’ ‘에’ ‘이’ ‘오’ ‘우’ 5가지의 입모양이 기본베이스

•

문자 입력시 ‘아’ ‘에’ ‘이’ ‘오’ ‘우’ 5가지의 입모양 이미지 중 선택하여 출력

•

문자 입력시 학습된 음성에서 문자에 맞게 소리 출력

•

마이크 입력시 아’ ‘에’ ‘이’ ‘오’ ‘우’ 5가지의 입모양 이미지 중 선택하여 출력

문헌조사, 유사 상품과의 비교, 관련 특허 조사

문헌조사

•

beam search 알고리즘

•

E2E 음성인식 기술 소개

•

RNN-T 한국어 Transduce

•

CTC Algorithms ref

•

Real Time LipSync 

•

순환신경망

유사상품

•

어도비 AI 오토 립싱크 프로그램 : https://www.adobe.com/kr/creativecloud/video/discover/animation-lip-sync.html

어도비 자체에서 개발해낸 실시간 캐릭터 립싱크 프로그램으로 Character Animator에서 Adobe Sensei AI 기술을 사용하여 입 모양을 입 사운드에 적용할 수 있습니다.

입 모양 만들기 스트리밍을 위한 기법

•

Voki : https://www.voki.com/site/create

•

Toonrastic 3D : https://toontastic.withgoogle.com/

Market 현황 및 전망

•

전세계 음성 인식 시장의 성장 전망

전 세계 음성 인식 시장 규모가 2026년까지 연평균 21.6% 성장할 것으로 전망되었다. 2021년 약 83억 달러로 예측된 시장 규모는 2026년에 22억 달러까지 증가할 것으로 추정된다. 스마트 기기의 사용증가와 함께 인공지능 기술의 발전 및 적용 범위가 확대되면서, 음성 인식을 기반으로 한 서비스와 사용자 경험의 확대가 시장 성장을 이끌 것으로 예측되었다.

마켓앤마켓(MarketsandMarkets)이 ‘2026년까지 발화 및 음성 인식 시장 (Speech and Voice Recognition Market - Global Forecast to 2026)’ 보고서를 발표하였는데, 조사 대상 항목은 전달 방법, 배포 모드, 기술, 지역 등으로 구분해 진행하였다. 배포 모드는 클라우드와 온프레미스 / 임베디드, 기술은 발화 인식 (Speech Recognition)과 음성 (Voice Recognition)으로 조사 대상을 세분화했다.

→ 2026년까지 발화(Speech) 및 음성(Voice) 인식 시장이 연평균 21.6% 성장할 것으로 마켓앤마켓은 전망하였다 (자료출처 : MarketsandMarkets)

스마트 홈 장치, 모바일 장치, 웨어러블 장치, 모빌리티 시장에서의 보급이 빠르게 증가하면서, 개인 및 가정은 물론 기업 부문에서도 발화 및 음성 인식 기능이 빠른 성장 곡선을 그리고 있다. 그중에서도 ASR (Automatic Speech Recognition)은 예측 기간 가장 높은 연평균 성장률을 기록할 것으로 보고서는 내다보고 있다.

또한 보고서는 각종 사이버 공격의 보안 솔루션에 대해서도 음성 인식을 채택하고 있는 비율이 늘어가고 있다는 점과, 시장면에서 소비자 부문의 수요와 성장 속도가 빠르다는 점, 그리고 애플(Apple - 시리), 마이크로소프트(Microsoft - 코타나), 구글(Google - 나우), 아마존(Amazon - 알렉사) 등 글로벌 기업들에서도 음성인식 시장에 대거 뛰어들고 있다는 점에서 앞으로의 음성 인식 시장의 성장률이 무궁무진 할 것으로 예상하였다.

→ (자료출처 : 한국신용정보원 ‘AI 기술, 시장 동향' : 핵심기술, 시장규모, 사업리스크 중심으로’ 보고서 발췌)

관련특허

•

Apache License 2.0 - http://www.apache.org/licenses/

•

특허정보넷 키프리스http://kportal.kipris.or.kr/

음성인식 엔진을 이용한 실시간 지능형 자막화 서비스 제공 시스템

출원번호/일자 :1020190109428 (2019.09.04)

출원인 : (주)소프트기획

설명: 본 발명은 음성인식 엔진을 이용한 실시간 지능형 자막화 서비스 제공 시스템에 관한 것이다. 보다 상세하게는 음성 인식 엔진을 기반으로 실시간 음성신호를 인식하고 이를 자막으로 실시간 생성하여 제공하는 음성인식 엔진을 이용한 실시간 지능형 자막화 서비스 제공 시스템에 관한 것이다.

이를 위해, 본 발명은 실시간으로 재생되는 음성 또는 영상정보로부터 음성신호를 추출하여 음성 데이터를 생성하는 음성신호인식모듈; 음성데이터과 대응되는 스크립트(script)를 생성하는 스크립트 생성모듈; 음성 데이터를 수초 단위로 잘라 학습이 용이한 크기로 처리하고 해당 음성에 대응되는 스크립트에 따라 텍스트 데이터를 불러와 음성데이터와 텍스트 데이터를 싱크(sync)시켜 하나의 학습데이터 쌍으로 가공하는 학습전처리모듈; 학습전처리모듈을 거쳐 하나의 쌍으로 형성된 학습데이터를 기계학습에 의해 학습시키는 학습모듈; 음성데이터에 대응되는 자막데이터를 생성하는 자막생성모듈을 포함하고, 학습전처리모듈은 음성 데이터의 특정 시간대에 특정 텍스트 문자열이 발생되는 위치를 확률로 산출하여 가장 적절한 상태열을 탐색하여 정렬시키도록 하는 것을 포함하고, 학습모듈에 의해 학습된 언어모델과 음성모델을 토대로 실시간 음성 데이터를 인식하여 실시간으로 자막을 생성하고, 생성된 언어모델과 음성모델은 데이터베이스에 저장되며, 학습모듈에 의해 새로운 데이터가 학습될 때마다 일정 주기를 두고 업데이트되는 것을 포함하는 음성인식 엔진을 이용한 실시간 지능형 자막화 서비스 제공 시스템을 제공한다.

음성 신호에 대한 립싱크 동기화 방법 및 장치

출원번호/일자 : 1020080001103 (2008.01.04)

출원인 : 주식회사 이머시스

설명 :본 발명은 음성신호를 아바타의 립싱크에 동기화하기 위한 데이터 처리 방법 및 장치에 관한 것으로서, 입력되는 음성 신호를 처리하여 보다 사실적인 립싱크가 이루어지게 한다.

본 발명은, 입력되는 음성신호를 처리하여 립싱크 동기화를 하기 위한 데이터 처리 방법에 있어서, 입력 장치를 통해 입력된 입력 신호에 대해 주변 환경으로부터 입력되는 배경 노이즈를 저감시켜서 음성신호를 찾는 노이즈저감 및 음성인식 단계; 상기 음성신호에서 모음 부분을 추출하는 모음정보 추출 단계; 상기 모음 정보를 이용하여 상기 모음의 발성시의 입술의 움직임에 대한 정보를 추출하는 입술모션 추출단계; 상기 입술의 움직임 정보를 립싱크용 데이터로 변환하는 입술 모션정보 인코딩 단계를 포함하는 것을 특징으로 한다.

본 발명을 이용하면 음성과 관련된 별도의 텍스트 데이터를 입력받지 않고 실시간으로 입력된 음성 신호만을 이용하여 아바타에 좀 더 사실감 있는 립싱크를 제공하는 것이 가능하여 영상통화시 사용하는 대체화면의 립싱크에 적용할 경우 음성과 입모양이 어색하게 되는 것을 방지할 수 있어 통화 시 만족도를 높일 수 있다.

애니메이션 립싱크 자동화 장치 및 방법

출원번호/일자 : 1020130052593 (2013.05.09)

출원인 :중앙대학교기술지주 주식회사

설명:애니메이션 립싱크 자동화 장치 및 방법이 개시된다. 음성 입력부로 애니메이션 영상의 대본에 대응하고 상기 애니메이션 영상을 구성하는 프레임에 동기가 맞춰진 음성 파일이 입력된다. 음성 인식부는 음성 파일로부터 각각의 어소를 구성하는 자음, 모음 및 소리의 높낮이를 파악하여 음성 인식 결과를 출력한다. 입모양 선택부는 음성 인식 결과를 기초로 각 어소에 대응하는 발음 분류를 결정하고, 결정된 발음 분류에 대응하는 입모양을 한국어의 발음특성을 고려한 일정 개수의 입모양이 발음 분류에 대응되어 저장되는 입모양 저장부에서 선택한다. 그리고 입모양 선택부는, 묵음 구간의 입모양으로 양입술이 붙어있는 제1입모양을 선택하고, 음성이 시작되기 제1개수의 프레임 전에 양입술이 제1크기만큼 떨어져 있는 제2입모양을 선택하고, 음성이 시작되는 시점부터 각 어소에 대해 결정된 발음 분류에 대응하는 입모양을 선택하고, 음성이 종료된 시점부터 제2개수의 프레임동안 최종적인 입모양을 유지한 이후에 다음 음성이 시작될 때까지의 입모양으로 제1입모양을 선택한다. 본 발명에 따르면, 한국어의 발음 구조와 애니메이션의 제작 특성을 정확하게 반영하여 애니메이션 캐릭터의 입모양을 성우의 발음과 완벽하게 일치시킬 수 있고, 실시간으로 애니메이션 캐릭터의 립싱크를 자동으로 구현할 수 있다.

설계과제의 기능(개념을 분석해 트리구조의 표현)

스크린샷 2022-04-26 오후 7.22.11.png

273.4KB

수행방법

설계 및 개발환경

이 프로젝트는 엔진과 클라우드 서버, 클라우드 GPU로 구성된 시스템에서 프로젝트를 수행하여야 한다.

음성 인식 및 분석 엔진은 파이썬과 구글 코랩을 활용해서 개발한다.

엔진

•

OS/Processor

◦

Linux / x86_64

•

파이썬 환경

◦

3.7 이상의 버전

•

학습 환경 (Run Time)

◦

GPU 16Gib Ram

•

PyTorch 1.110 ver~

•

CUDA 11.3 ver~

서버

•

OS

◦

Ubuntu 18.04

◦

Ram 500Mb

◦

SSD 30GB

설계 및 개발 도구

•

aws - 클라우드 서버

•

colab - 클라우드 gpu

해결방안 (여러개 있을 경우 장단점과 소요 비용 비교)

아래 내용은 표로 제작하면 좋을듯

결정 : aws

이유 : 기존에 aws를 활용한 팀원이 있고, 서버 구성에 걸리는 시간이 가장 짧다고 판단.

서버	장점	단점	예상 소요비용	예상 소요시간
aws	• 팀원 중 aws를 사용해 서비스를 배포해본 경험이 있음 • 나머지 서비스들 보다 레퍼런스가 월등히 많음 • 서버 구성 시간이 가장 적게 듦	트래픽 1gb당 비용이 다른 서비스들 보다 비쌈	4	1
gcp	• 현재 credit을 많이 가지고 있어서 초기 비용 부담이 적음 • 콘솔이 잘 되어있어서 관리가 편함	팀원 중 gcp를 사용해본 경험이 있는 사람이 없음	3	2
azure	나머지 서비스 중 비용이 가장 저렴함	• 나머지 서비스 중 레퍼런스가 가장 적음 • 팀원 중 azure를 사용해본 경험이 있는 사람이 없음	2	3
개인서버	• cloud 서비스보다 지속 유지 비용이 저렴함 • 저렴한 비용으로 고성능 서버를 구성할 수 있음	• 초기 세팅 비용이 많이 듬 • 유지보수를 팀원이 직접 해야함 • 네트워크 관련 이슈, 서버 pc 보관 관련 이슈가 생길 수 있음	1	4

결정 : colab

이유 : 모든 팀원이 동일한 환경에서 학습에 참여할 수 있다는 것이 이번 프로젝트에서 가장 중요하다고 판단, 비용 부담이 있지만 colab을 활용하기로 결정

학습환경	장점	단점	예상 소요비용	예상 소요시간
colab	• 모든 팀원이 동일한 환경에서 작업할 수 있음 • 모든 팀원이 성능에 대한 걱정없이 사용할 수 있음	• 월단위 구독료가 발생 • 계정 하나를 생성해 공유하여야함 (보안문제 발생 가능)	2	1
개인환경	◦ 비용 부담이 없음 ◦ 기타 도구에 대한 공부 과정이 필요없음	• gpu성능이 팀원마다 모두 달라 동일한 환경에서 학습이 불가능함 • 개인 환경 세팅이 불가능한 팀원은 학습 활동 참여가 불가능함	1	2

개발 비용

소프트웨어 도구 사용료

•

google colab 사용료

◦

월 ₩ 12,522

•

google drive 확장 사용료

◦

월 ₩ 5,000

서버유지비

•

AWS lightsail

◦

월 ₩ 6,300

장비

•

마이크

◦

최소 ₩ 10,000 이상의 마이크

인건비

•

2022년도 적용 SW초급기술자 노임단가 기준 :  ₩ 238,787 (M/D)

•

상여금, 제수당 제외 한 기본급여 :  ₩ 238,787 * 0.7 = ₩ 167,151

•

초급기술자 4명 : ₩ 167,151 * 150 * 4 = ₩ 100,290,540

총 합계

•

₩ 100,317,362

참고자료

평균임금 - 한국소프트웨어산업협회

https://www.sw.or.kr/site/sw/ex/board/View.do?cbIdx=304&bcIdx=51393&searchExt1=

판매 예측

cloud.google.com

https://cloud.google.com/api-gateway/pricing?hl=ko

Maps, geocoding, and navigation APIs & SDKs | Mapbox

Our APIs, SDKs, and live updating map data give developers tools to build better mapping, navigation, and search experiences across platforms. Learn about Maps → Plan and optimize your route at the snap of a photo

https://www.mapbox.com/

단가예측 ec2 - 트래픽 몇기가전송에 얼마

•

아시아 태평양 서울 기준 : Client에서 EC2로 데이터를 요청했을 때 

◦

1GB 당 $ 0.126 (약 159원 - 2022년 4월 기준)

•

EC2에서 동일 지역 내에서, 여러 가용 영역에 걸쳐 송수신 되는 데이터

◦

1GB 당 $0.01 $ (약 12원)

•

동일 가용 영역에서 송수신되는 데이터

◦

무료

음성 1분 + txt 데이터 트래픽 몇기가인지

용량 ⇒ 약 901 KB + 10 KB

1분 ⇒ 약 1 MB

하루 이용자 ⇒ 한명이 약 20분 쓴다고 가정

•

1MB x 20 = 20MB

•

0.020GB x $ 0.126 = $ 0.0025 (약 ₩ 2.51 - 2022년 4월 기준)

로블록스 일 이용자 약 42만명

•

420,000 x 20MB = 약 8,400,000 MB ⇒ 약 8,203 GB

제페토 7만

•

70,000 x 20MB = 약 1,400,000 MB ⇒  약 1,367 GB

게더타운 5만 → (게더타운 기준으로 사용비용 예측)

•

50,000 x 20MB = 약 1,000,000 MB ⇒ 약 976.5 GB

•

976.5 x $0.126 = 약 $ 123.04 (약 ₩ 154,354 - 2022년 4월 기준)

기업에서 쓴다 ⇒ 사용자 한명당 몇분 ⇒ 용량예측 ⇒ 저희가 지불해야하는 비용 ⇒ 70% 마진 남기는 비용

→ 한명당 약 20분 쓴다고 가정 ⇒ 약 20MB 용량 예측 ⇒ ₩ 154,354 x 30(한 달) = ₩ 4,500,000 AWS에 지불 ⇒ 기업에서 사용한다고 가정, 약 ₩ 8,000,000 받으면 70% 마진 남음

API 게이트웨이 가격책정 (AWS API 게이트웨이 요금 기준)

결제 계정당 월 API 호출 수 ⇒ API 호출 1백만 회당 비용

•

처음 3억 3천 3백만 건 ⇒ $3.50

•

다음 6억 6천 7백만 건 ⇒ $3.19

•

다음 190억 건 ⇒ $2.71

•

200억 건 초과 ⇒ $1.72 

200억이면 100만으로 나누면 2만번

사용자 당

api 호출당 ⇒ 20ns단위로 잘라서 호출 ⇒ 사람당 평균 100번정도 호출

월 사용자 몇명이면 얼마 수익예상 : 5만명 기준 500만번 하루에 호출

한 달에 1.5억번 비용은 150 x $3.5 = $525

기업 하나당 $525

3개기업에서 쓴다 그러면 한기업 X3 = $1575

Amazon API Gateway 요금 | API 관리 | Amazon Web Services

Amazon API Gateway를 사용하면 API를 사용할 때만 비용을 지불하면 됩니다. 최소 요금이나 사전 약정은 없습니다. HTTP API와 REST API의 경우 수신한 API 호출과 전송한 데이터 양에 대해서만 요금을 지불하면 됩니다. 프라이빗 API에 대한 데이터 전송 요금은 없습니다. 하지만 Amazon API Gateway에서 프라이빗 API를 사용하는 경우에는 AWS PrivateLink 요금이 적용됩니다.

https://aws.amazon.com/ko/api-gateway/pricing/

AWS : EC2 / S3 / CloudFront 트래픽 요금 분석

EC2로 발생하는 Traffic 요금과 S3로 발생하는 Traffic 요금, 그리고 CloudFront로 발생하는 Traffic요금 중 어떤 방식이 가장 저렴한지 조사를 해보았습니다. EC2는 AWS에서 제공하는 클라우드 컴퓨팅 시스템입니다. 이 서비스를 통해서 아마존이 각 세계에 구축한 데이터 센터의 서버용 컴퓨터들의 자원을 원격으로 사용할 수 있습니다. 쉽게 말해, 아마존으로 부터 한 대의 컴퓨터를 임대하는 것입니다.

https://jw910911.tistory.com/110

시장성

•

B2B로 api를 호출횟수당 비용을 매기는 방식 - 월정액? , 광고 수익?

◦

엔진을 적용시키면 호출 횟수당 비용을 산정한다.

◦

월정액 형태 적용가능

•

sdk 형태는 1회 구매 - 구매형태?

◦

엔진 자체를 판매하는 형태로 한다.

•

Lisence 판매 ex) 한글

◦

회사와 lisence계약을 하여 그 회사망 안에서만 활용할 수 있게 만든다.

최종 결과물

(클라이언트가 완성도를 평가할 수 있는 Check-Off List)

QA하는 것처럼 리스트 만들기

보통 실행 순서에 맞추어서 check- off 리스트를 제작한다.

실행부터 시작하여 실행 때 일어날 수 있는 일들

그다음 실행 때 일어날 수 있는 일들을 순차적으로 적는다.

check-off List	작동	미작동
1.서비스 실행이 되는가
2.서비스 실행 후 캐릭터가 화면에 나오는가
3.마이크 인식이 제대로 되는가
4.음성 출력이 제대로 되는가
5.음성 입력 후 텍스트로 변환이 맞게 되는가
6.음성 입력 시 이미지로 변환이 맞게 되는가
7.텍스트 입력이 되는가
8.텍스트 입력 후 이미지로 변환이 맞게 되는가
9.상대방의 캐릭터가 보이는가
10.상대방의 텍스트를 볼 수 있는가
11.상대방의 입모양을 볼 수 있는가
12.상대방의 목소리가 들리는가
13.상대방이 종료하면 캐릭터가 없어지는가
14.종료 버튼이 있는가
15.종료가 가능한가

Work Breakdown (표로 작성할 것)

서버

•

도메인 설정

◦

도메인 구매

◦

호스팅 서버 연결

•

API 설계

◦

Restful API 설계

◦

API 서버 호스팅

•

로깅

◦

호출 내역 로깅

◦

에러 로깅

엔진

•

음성 처리

◦

음성 입력

◦

음성 분석

◦

음성 출력

•

텍스트 처리

◦

텍스트 입력

◦

텍스트 출력

•

이미지 처리

◦

이미지 출력

문서작업

•

제안서

•

회의록

•

DRD작업

•

PPT작업

•

DSD작업

•

최종 보고서 작업

디자인

•

UI 제작

•

캐릭터 제작

Linear responsibility (중요도는 숫자가 낮을수록 높음)

	신수형	박인수	김형준	홍서경
요구사항 이해
ㄴ 문제 정의	1	2	3	4
ㄴ 기능 요구사항	1	2	3	4
기계학습
ㄴ 데이터 전처리	1	4	3	2
ㄴ 데이터 학습	1	4	3	2
ㄴ 모델 평가 및 분석	2	1	4	3
립싱크 엔진
ㄴ 음성 분석	1	3	4	2
ㄴ 음성 입력	3	1	2	4
ㄴ 이미지 출력	3	1	2	4
ㄴ API 호출 / 응답	4	3	2	1
서버
ㄴ API 설계	4	3	2	1
ㄴ API 서버 호스팅	4	3	2	1
Application
ㄴ API 호출 및 응답	4	3	2	1
ㄴ UI	4	2	1	3
ㄴ Asset	4	2	1	3
ㄴ 프론트 서버 호스팅	4	2	1	3
프로젝트 관리
ㄴ 주간 회의	1	4	3	2
ㄴ 각종 보고서	1	4	2	3
ㄴ 발표 자료 제작	1	4	2	3

글로 정리 후 도표로 정리 할 예정

Gantt (12월까지의 계획으로 수립해야됨)

나눌것 문서작업, 서버, 엔진개발, 그래픽,

Timeline

간트차트

3월 - 주제제안서

4월 - DRD 작성 ,DRD ppt 작성

5월 - DSD 작성 , DSD ppt 작성

6월 - 1학기 중간 보고서, 중간 ppt 작성

7월

8월

9월

10월

11월 - 프로젝트 최종 PPT

12월 - 프로젝트 최종 보고서 작성