HWP문서[ETRI 보도자료] ETRI, 5개국어 음성 및 영어대역문장 DB 배포_190226.hwp

닫기

Embargo

없음

배포일자 : 2019.02.27.(수)

배포번호 : 2019-06호

SW콘텐츠연구소

지능정보연구본부장

박상규(042-860-6340)

E-mail : parksk@etri.re.kr

지능정보연구본부

음성지능연구그룹장

이윤근(042-860-6370)

E-mail : yklee@etri.re.kr

음성지능연구그룹

PL(프로젝트 리더)

윤 승(042-860-5835)

E-mail : syun@etri.re.kr

커뮤니케이션전략부

성과홍보실장

정길호(042-860-0670)

E-mail : khchong@etri.re.kr

성과홍보실

행정원

정이찬(042-860-0812)

E-mail : echanzug@etri.re.kr

매수 : 보도자료 3매(그림 5매, 참고자료 4매, 그래픽 2매)

배포처 : ETRI 성과홍보실

<태국·말레이·인니·베트남·아랍어 언어음성 DB 제공한다>

ETRI, 5개 국어 음성 및 영어대역문장DB 배포

- 대화체 200만 발화 음성DB 대역 300만 문장DB 제공

- 13년 간 네이버, 삼성, SKT 등에 367건 배포550억 절감 효과

- 기술 해외 의존도 낮추고 관련 기술 활용 및 수출 증진 기대

한국전자통신연구원(ETRI)이 국내에서 처음으로 태국어, 말레이어, 인도네시아어의 음성 데이터베이스(DB)와 영어대역문장 DB를 일반에 배포한다. 아랍어 및 베트남어도 함께 배포하는데 기존보다 데이터양을 대폭 늘렸다. 이로써 음성인식 및 번역엔진 해외 의존도를 줄이고 해당 언어를 활용한 다양한 서비스 개발에 큰 도움이 될 것으로 예상된다.

본 음성 DB는 최근 인기 있는 인공지능(AI) 스피커, 내비게이션, 사물인터넷(IoT) 등 음성인식 및 번역 SW개발에 기초가 되는 자료다.

따라서 가능한 품질이 좋고 많은 언어의 DB를 구축하는 것이 서비스 다양화와 고부가가치 서비스기술 창출의 핵심이라 할 수 있다.

하지만 그동안 DB를 확보하는 과정에 여러 장벽이 있었다. 해외 업체로부터 외국어 음성 DB를 구입할 수 있지만 비용이 많이 든다. 그마저도 관련 자료가 없는 나라의 언어는 자체적으로 수집하는 수밖에 없었다.

이에 ETRI태국어 말레이어 인도네시아어 아랍어 베트남어 대화체 음성DB 200만 발화(發話)영어태국어 영어말레이어 영어인도네시아어 영어아랍어 영어베트남어대화체 대역(對譯)문장DB 300만 문장을 배포한다. 태국어, 말레이어, 인도네시아어 자료는 국내 최초로 제공되며 아랍어 및 베트남어는 ETRI 기존 자료에 데이터양을 늘려 배포한다.

국내 관련 업체들은 ETRI가 제공하는 자료를 받아 DB구축 비용을 대폭 절감할 수 있다. 해외 업체로부터 DB를 구입하는 경우, 언어 당 1~2억 원 정도의 비용이 소요된다. 하지만 ETRI는 해외 DB 가격 대비 5% 수준에서 제공할 예정이다.

특히 이번 DB는 최대한 많은 사람들의 언어 데이터를 얻기 위해 크라우드 소싱(Crowd sourcing) 기법을 도입했다. 포인트를 제공하여 일반 사용자들의 참여를 유도한 결과, 총 25,000여 명이 발화에 참여했으며 같은 예산으로 기존보다 최대 8배 많은 데이터를 수집할 수 있었다.

단순히 데이터 양만 늘린 것이 아니라 높은 정확도까지 확보했다. 외부 감리 업체 측정 결과 99% 이상의 높은 품질을 인증 받았다. 기존보다 더욱 많은 양을 축적한 데이터를 토대로 집단 지성에 의한 검증 시스템을 도입했기 때문이다.

ETRI 음성지능연구그룹 윤승 박사는DB를 활용하여 언어음성기술을 개발할 경우, 다양한 외국 신규시장 진출 및 국가 경쟁력 강화에 큰 기여를 할 것으로 예측한다고 설명했다.

그간 ETRI는 외국 기술 잠식을 차단하고 국내 기업들의 관련 기술 수출 증진을 위해 지능형 언어음성 데이터를 꾸준히 확보해왔다. 2011년부터 ···중 등 다국어 언어음성DB를, 2014년에는 프랑스어, 2015년에는 독일어, 러시아어, 아랍어, 베트남어를 구축 및 배포한 바 있다.

현재까지 삼성전자, LG전자, KT, 네이버, 카카오, 엔씨소프트, 보이스웨어, 셀바스AI, 시스트란 인터내셔널, 솔트룩스 등 국내 60개 기관에 367건의 DB를 배포하며 총 550억 원에 해당하는 비용 절감 성과를 얻었다. 이번 DB 역시 국내 10개 기관에 배포할 경우, 최소 150억 원의 수입대체 효과를 얻을 수 있다.

ETRI가 배포 중인 DB목록은 총 45종으로 ETRI 홈페이지(ETRI소식 지사항 검색창에언어음성입력)에서 쉽게 찾아볼 수 있다. 이번 추가 공개하는 DBETRI 홈페이지를 통해 확인이 가능하다.

향후 연구진은 기존 배포 언어들의 정확도 및 데이터 품질 개선에 나서는 한편 영어, 중국어, 일본어 음성 데이터 구축을 위해 노력할 예정이다.

본 연구는 행정안전부가 한국정보화진흥원을 통해 추진한 2018 국가중점데이터 개방 사업의 일환인다국어 5종의 음성과 영어대역문장 DB 구축 및 개방사업의 일환으로 진행되었다. <보도자료 본문 끝>

참고 1

2018년 구축 다국어 언어음성DB 설명자료

배포용 DB의 종류

o 크라우드 소싱 기반 모바일 환경 베트남어 문장음성 490 시간

o 크라우드 소싱 기반 모바일 환경 태국어 문장음성 625 시간

o 크라우드 소싱 기반 모바일 환경 인도네시아어 문장음성 580 시간

o 크라우드 소싱 기반 모바일 환경 말레이어 문장음성 650 시간

o 크라우드 소싱 기반 모바일 환경 아랍어 문장음성 525 시간

o 크라우드 소싱 기반 영-베트남어 대역 60만 문장

o 크라우드 소싱 기반 영-태국어 대역 60만 문장

o 크라우드 소싱 기반 영-인도네시아어 대역 60만 문장

o 크라우드 소싱 기반 영-말레이어 대역 60만 문장

o 크라우드 소싱 기반 영-아랍어 대역 60만 문장

기존 배포 중인 DB의 목록

구축년도

원시자료명

원시자료 주요내용

자료

형태

수량

2004

개체명 사전 DB

정보검색을 위한 개체명 사전

텍스트

250만 엔트리

2005

질문대화 말뭉치

질의응답용 질문대화 말뭉치

텍스트

100만엔트리

5,000 대화셋

2005

구문구조부착 말뭉치

품사 및 구문정보를 포함한 말뭉치

텍스트

10만 문장

2004~

2005

연어 대역 패턴 DB

한영 자동번역용 연어 대역 패턴

텍스트

280만 패턴

2004

특허문서 전문용어 DB

한영 특허문서 자동번역용 전문용어 DB

텍스트

220만엔트리

2004~

2005

원거리/다채널 음성인식 단어/문장 DB

지능형로봇용 음성인터페이스 개발용 원거리/다채널 음성인식 단어/문장 DB

음성

200시간

2005

Lombard 모델용 음성인식 단어/문장 DB

지능형로봇용 음성인터페이스 개발용 Lombard 효과 음성인식 단어/문장 DB

음성

80시간

2005

핵심어 검출용 음성인식 문장 DB

지능형로봇용 음성인터페이스 개발용 핵심어 검출용 음성인식 문장 DB

음성

120시간

2004~

2005

자동차 환경에서의 음성명령어 및 정보검색용 대화체 문장DB

텔레매틱스 음성인터페이스 개발용 자동차 환경에서의 음성명령어 및 정보검색용 대화체 문장 DB

음성

200시간

2005

양태가 풍부한 대화체 음성합성 DB

지능형로봇, 텔레매틱스 음성인터페이스 개발용 양태가 풍부한 대화체 음성합성 DB

음성

60시간

2005

멀티모달 환경에서의 음성명령어 및 정보검색용 대화체 문장 DB

지능형로봇 음성인터페이스 개발용 멀티모달 환경에서의 음성명령어 및 정보검색용 대화체 문장 DB

음성/영상

80시간

2006

다국어 대역사전

중한 대역사전

텍스트

22만 엔트리

2006

특허전문용어사전

영한 전문용어 사전 확장

텍스트

165만 엔트리

2006

영어(미국)/중국어/일본어 다채널 및 자동차환경 음성인식용 단어/문장 음성 DB

지능형로봇, 텔레매틱스 음성인터페이스 개발용 영어/중국어/일본어 다채널 및 자동차환경 음성인식용 단어/문장 음성 DB

음성

27만 발화

2006

한국어 감정표현 음성합성용 대화체문장 음DB

한국어 감정표현 음성합성용 대화체문장 음DB

음성

60 시간

2006

한국어 대화체 텍스트 DB

한국어 대화체 텍스트 DB

텍스트

100만 문장

2007

영어 /일본어/ 중국어 다채널 및 자동차 환경 음성인식용 단어/문장 음성 DB

텔레매틱스 음성인터페이스 개발용 자동차 환경 영어/중국어/일본어 다채널 단어/문장 음성 인식용 DB

음성

15만 발화

2007

대화음성 및 태깅 코퍼스

대화체 음성 및 대화 정보 태깅 코퍼스 DB

음성/텍스

2만발화/2천대화

2007

영/한 한/영 과학기술분야 전문용어 사전

과학기술분야 전문용어사전 확장

텍스트

96만 엔트리

데이터명

주요 내용

제공경로

제공방식 (제공형태)

2011 구어체 한/영 병렬 말뭉치

한/영 대화체 병렬 말뭉치 10만 문장쌍

포털/우편

USB

2011 구어체 한/중 병렬 말뭉치

한/중 대화체 병렬 말뭉치 10만 문장쌍

포털/우편

USB

2011 구어체 한/일 병렬 말뭉치

한/일 대화체 병렬 말뭉치 10만 문장쌍

포털/우편

USB

2011 한국어 대화체 음성 DB

표준어 사용자 대상 한국어 음성 5.25만 발화

포털/우편

USB

2011 영어 대화체 음성 DB

미국 현지 구축 5.25만 발화

포털/우편

USB

2011 중국어 대화체 음성 DB

중국어 북경 표준어 사용자 대상 5.25만 발화

포털/우편

USB

2011 일본어 대화체 음성 DB

일본 표준어 대상 현지 구축 5.25만 발화

포털/우편

USB

2013 일본어 대화체 음성 DB

일본 표준어 대상 현지 구축 5.25만 발화

포털/우편

USB

2013 중국어 대화체 음성 DB

중국어 북경 표준어 사용자 대상 현지 구축 6만 발화

포털/우편

USB

2013 스페인어 대화체 음DB - 1

스페인 표준어 사용자 대상 현지 구축 5.25만 발화

포털/우편

USB

2013 스페인어 대화체 음DB - 2

스페인 표준어 사용자 대상 현지 구축 5.25만 발화

포털/우편

USB

2013 구어체 한/스 병렬 말뭉치 - 1

구어체 한/스 대화 병렬 말뭉치 10만 문장쌍

포털/우편

USB

2013 구어체 한/스 병렬 말뭉치 - 2

구어체 한/스 대화 병렬 말뭉치 10만 문장쌍

포털/우편

USB

2014 남미스페인어 대화체 음성 DB

남미스페인 표준어 사용자 대상 현지 구축 6만 발

포털/우편

USB

2014 프랑스어 대화체 음DB - 1

프랑스 표준어 사용자 대상 현지 구축 6만 발화

포털/우편

USB

2014 프랑스어 대화체 음DB - 2

프랑스 표준어 사용자 대상 현지 구축 6만 발화

포털/우편

USB

2014 구어체 한/프랑스 병렬 말뭉치

구어체 한/프랑스 병렬 말뭉치 10만 문장쌍

포털/우편

USB

2015 독일어 대화체 음성 DB - 2

독일 표준어 사용자 대상 현지 구축 4.5만 발화

포털/우편

USB

2015 독일어 대화체 음성 DB - 2

독일 표준어 사용자 대상 현지 구축 4.5만 발화

포털/우편

USB

2015 러시아어 대화체 음DB - 1

러시아 표준어 사용자 대상 현지 구축 4.5만 발화

포털/우편

USB

2015 러시아어 대화체 음DB - 2

러시아 표준어 사용자 대상 현지 구축 4.5만 발화

포털/우편

USB

참고 2

다국어 언어음성DB의 역할 및 활용