PDF문서ETRI_DB2.pdf

닫기

background image

비영리사용자

대기업

중소기업

full set의 20% 배

1

휴대폰

1000명

16.0 백만원

8.0 백만원

0.8 백만원

2

유선전화

1000명

16.0 백만원

8.0 백만원

0.8 백만원

3

VoIP

1000명

16.0 백만원

8.0 백만원

0.8 백만원

4

PC마이크/저가

1000명

8.0 백만원

4.0 백만원

0.4 백만원

5

PC마이크/중가

1000명

8.0 백만원

4.0 백만원

0.4 백만원

6

PC 헤드셋

1000명

16.0 백만원

8.0 백만원

0.8 백만원

7

휴대폰

1000명

16.0 백만원

8.0 백만원

0.8 백만원

8

유선전화

1000명

16.0 백만원

8.0 백만원

0.8 백만원

9

VoIP

1000명

16.0 백만원

8.0 백만원

0.8 백만원

10

PC마이크/저가

1000명

8.0 백만원

4.0 백만원

0.4 백만원

11

PC마이크/중가

1000명

8.0 백만원

4.0 백만원

0.4 백만원

12

PC 헤드셋

1000명

16.0 백만원

8.0 백만원

0.8 백만원

13

VoIP

1000명

12.0 백만원

6.0 백만원

0.6 백만원

14

PC마이크/저가

1000명

6.0 백만원

3.0 백만원

0.3 백만원

15

PC마이크/중가

1000명

6.0 백만원

3.0 백만원

0.3 백만원

16

PC 헤드셋

1000명

12.0 백만원

6.0 백만원

0.6 백만원

17

음성인식용 문장

(대화체)

250명이 총 2,500 대화음성 및 대화체 텍스트. Call
center에서 고객과 상담원 대화 녹취(가상 시나리오사
용)

성별, 연령별,지역별, 휴대폰 종류, 전
화망 인터페이스보드(디지털, 아날로
그), 주변환경 고려

휴대폰, 유선전화

250명

24.0 백만원

12.0 백만원

1.2 백만원

18

음성인식용 문장

(텍스트)

일간지 신문 2,000만어절 수동 철자/띄어쓰기 수정.
4,000만어절 자동 철자/띄어쓰기 수정.

XML 형식으로 저장

신문기사

2000만어절수

동/4000만어절자동

24.0 백만원

12.0 백만원

1.2 백만원

19

음성합성용

(정보전달용낭독체)

남녀 성우 각 1인 트라이폰 분포 고려한 10,000문장
발성(44.1kHz 또는 16kHz). 피치추출용 래링고 데이터
동시 녹취.남녀 각  2,000문장 음소분할됨. 다이폰/반
음절 단위 음성 추가 발성. 어절경계 트라이폰을 고려
한 발성 추가

남녀 성우 20여명 후보에서 ETRI내 선
호도 평가후 2명 선정

고성능마이크

2명

24.0 백만원

12.0 백만원

1.2 백만원

20

휴대폰

250명

12.8 백만원

6.4 백만원

0.6 백만원

21

유선전화

250명

12.8 백만원

6.4 백만원

0.6 백만원

22

VoIP

250명

12.8 백만원

6.4 백만원

0.6 백만원

23

PC마이크/저가

250명

6.4 백만원

3.2 백만원

0.3 백만원

24

PC마이크/중가

250명

6.4 백만원

3.2 백만원

0.3 백만원

25

PC 헤드셋

250명

12.8 백만원

6.4 백만원

0.6 백만원

(온라인신청 Site => https://itec.etri.re.kr/itec/sub02/sub02_01.do=> 'DB' 검색 => 기술명 '한국어 공통음성 DB…)' 선택)

한국어 공통음성DB (1)

화자수

영리사용자

음성인식용 단어

1,000명 발성. 10set. 총 100,000단어. 발성내용은 주
식상장회사명, 지명, 인명, 제품명, PC명령어, PDA 명
령어, 일반명사로 구성

성별, 연령별,지역별, 휴대폰 종류, 전
화망 인터페이스보드(디지털, 아날로
그), 주변환경 고려

성별, 연령별, 지역별 분포 고려

음성인식용 숫자

1,000명 발성. 10set. 총 100,000단어. 발성내용은
1~10연숫자.번호독식/봉독식 발성, 계좌번호,  단위,
전화번호로 구성

성별, 연령별,지역별, 휴대폰 종류, 전
화망 인터페이스보드(디지털, 아날로
그), 주변환경 고려

성별, 연령별, 지역별 분포 고려

음성인식용 문장

(낭독체)

번호

DB명칭

(구분)

발성내용

구축조건

수집환경

1,000명이 50문장씩 발성한 방송뉴스 총 50,000문장

성별, 연령별, 지역별 분포 고려

화자인식용

발성목록은 2연숫자 100단어, 4연숫자 1,000단어, 단
문 20문장으로 구성. 250명이 2연숫자 10단어, 4연숫
자 50단어, 단문 20문장씩 반복 5회, 시차별(1주, 1달,
3달) 4회 발성. 총 2연숫자 50,000단어, 4연숫자
250,000단어. 단문 100,000문장. (참고: 100명 화자 1
주간격 4회 발성. 100명 화자 1달간격 4회발성, 50명
화자 3달간격 4회발성 )

성별, 연령별,지역별, 휴대폰 종류, 전
화망 인터페이스보드(디지털, 아날로
그), 주변환경 고려

성별, 연령별, 지역별 분포 고려


background image

비영리사용자

대기업

중소기업

full set의 20% 배

1

휴대폰

1000명

16.0 백만원

8.0 백만원

0.8 백만원

2

유선전화

1000명

16.0 백만원

8.0 백만원

0.8 백만원

3

VoIP

1000명

16.0 백만원

8.0 백만원

0.8 백만원

4

PDA

500명

4.0 백만원

2.0 백만원

0.2 백만원

5

PC마이크/저가

500명

4.0 백만원

2.0 백만원

0.2 백만원

6

PC마이크/중가

1000명

8.0 백만원

4.0 백만원

0.4 백만원

7

PC 헤드셋

1000명

16.0 백만원

8.0 백만원

0.8 백만원

8

휴대폰

1000명

16.0 백만원

8.0 백만원

0.8 백만원

9

유선전화

1000명

16.0 백만원

8.0 백만원

0.8 백만원

10

PDA

500명

4.0 백만원

2.0 백만원

0.2 백만원

11

PC마이크/저가

1000명

4.0 백만원

2.0 백만원

0.2 백만원

12

PC마이크/중가

1000명

8.0 백만원

4.0 백만원

0.4 백만원

13

PC 헤드셋

1000명

16.0 백만원

8.0 백만원

0.8 백만원

14

VoIP

1000명

12.0 백만원

6.0 백만원

0.6 백만원

15

PDA

500명

3.0 백만원

1.5 백만원

0.2 백만원

16

PC마이크/저가

500명

3.0 백만원

1.5 백만원

0.2 백만원

17

PC마이크/중가

1000명

6.0 백만원

3.0 백만원

0.3 백만원

18

PC 헤드셋

1000명

12.0 백만원

6.0 백만원

0.6 백만원

19

음성인식용 문장

(대화체)

550명이 총 5,500 대화음성 및 대화체 텍스트. Call
center에서 고객과 상담원 대화 녹취(가상 시나리오사
용)

성별, 연령별,지역별, 휴대폰 종류, 전
화망 인터페이스보드(디지털, 아날로
그), 주변환경 고려

휴대폰/유선전화

550명/5500대화

24.0 백만원

12.0 백만원

1.2 백만원

20

음성인식용 문장

(텍스트)

일간지 신문 2,500만어절 수동 철자/띄어쓰기 수정.

XML 형식으로 저장

신문기사

2500만어절

24.0 백만원

12.0 백만원

1.2 백만원

21

낭독체 음성합성용

(정보전달용)

남녀 성우 각 1인 트라이폰 분포 고려한 10,000문장
발성(44.1kHz 또는 16kHz). 피치추출용 래링고 데이터
동시 녹취.남녀 각  2,000문장 음소분할됨. 다이폰/반
음절 단위 음성 추가 발성. 어절경계 트라이폰을 고려
한 발성 추가

남녀 성우 20여명 후보에서 ETRI내 선
호도 평가후 2명 선정

남녀 각 1인

각 20시간

24.0 백만원

12.0 백만원

1.2 백만원

22

대화체 음성합성용

발성목록은 2연숫자 100단어, 4연숫자 1,000단어, 단
문 20문장으로 구성. 250명이 2연숫자 10단어, 4연숫
자 50단어, 단문 20문장씩 반복 5회, 시차별(1주, 1달,
3달) 4회 발성. 총 2연숫자 50,000단어, 4연숫자
250,000단어. 단문 100,000문장. (참고: 100명 화자 1
주간격 4회 발성. 100명 화자 1달간격 4회발성, 50명
화자 3달간격 4회발성 )

성별, 연령별,지역별, 휴대폰 종류, 전
화망 인터페이스보드(디지털, 아날로
그), 주변환경 고려

남녀 각 2인

각 8시간

24.0 백만원

12.0 백만원

1.2 백만원

23

영어 낭독체 음성합

영어 모국어화자 어나운서가 발성한 낭독체 문장 10
시간 분량(5,000여 문장)

여성화자 1인

고성능마이크

문장 10시간

12.0 백만원

6.0 백만원

0.6 백만원

(온라인신청 Site => https://itec.etri.re.kr/itec/sub02/sub02_01.do => 'DB' 검색 => 기술명 '한국어 공통음성 DB…)' 선택)

음성인식용 문장

(낭독체)

1,000명이 50문장씩 발성한 방송뉴스 총 50,000문장

성별, 연령별, 지역별 분포 고려

한국어 공통음성DB (2)

번호

DB명칭

(구분)

발성내용

구축조건

수집환경

화자수

영리사용자

음성인식용 단어

1,000명 발성. 10set. 총 100,000단어. 발성내용은 주
식상장회사명, 지명, 인명, 제품명, PC명령어, PDA 명
령어, 일반명사로 구성

성별, 연령별,지역별, 휴대폰 종류, 전
화망 인터페이스보드(디지털, 아날로
그), 주변환경 고려

성별, 연령별, 지역별 분포 고려

음성인식용 숫자

1,000명 발성. 10set. 총 100,000단어. 발성내용은
1~10연숫자.번호독식/봉독식 발성, 계좌번호,  단위,
전화번호로 구성

성별, 연령별,지역별, 휴대폰 종류, 전
화망 인터페이스보드(디지털, 아날로
그), 주변환경 고려

성별, 연령별, 지역별 분포 고려