바로가기 메뉴
본문 바로가기
주요메뉴 바로가기
ETRI소식 상상을 현실로, 진화하는 ICT세상, 고객과 함께 ICT미래를 열어가겠습니다.

연구개발보도자료

ETRI,표준형 한국어 공통음성 DB구축으로 음성정보처리 기술의 저변확대

ETRI, 표준형 한국어 공통음성 DB 구축으로 음성정보처리 기술의 저변확대

- 생체정보인식 분야에서도 크게 활용 기대 -

한국전자통신연구원(ETRI, http://www.etri.re.kr) 음성정보연구센터(센터장 이영직)는 정보통신부가 출연한 음성정보처리기반기술개발과제의 일환으로 텔레뱅킹, 인터넷 뱅킹, PC 보안 등의 음성정보기술에 활용될 "표준형 한국어 공통음성 DB"를 구축하여 관련 산업체 및 학계에 배포한다.

이번에 구축된 표준형 한국어 공통음성 DB는 유/무선 전화망, PC 마이크/헤드셋, VoIP 등의 다양한 환경에서 1,000명의 화자가 발성한 단어, 숫자, 문장 DB와 시차별로 250명이 발성한 화자인식용 단어/문장 DB, 남녀 성우가 발성한 합성용 문장 DB, 언어모델링용 텍스트 DB 등 총 25종의 음성 및 텍스트 DB로 구성되어 있다.

특히 화자인식용 DB는 화자의 변이를 고려하기 위해 시차별(1주, 1개월, 3개월)로 발성한 음성을 수집하였기 때문에 발성자가 누구인가를 알아내는 화자식별(Speaker identification), 화자확인(Speaker verification) 등 생체정보 인식분야에서 크게 활용될 것으로 보인다.

음성정보기술은 21세기를 선도하는 유망 신기술로서, 선진 각국들은 관련 기술개발에 대규모 투자를 하고 있으며, 국내에서도 보이스웨어, SL2 등 100여개 음성정보기술 관련 산업체가 활발히 사업을 추진하고 있다. 그러나 음성정보처리기술 개발을 위한 필수요소인 음성 DB 구축은 대규모 인원의 화자 녹음, 수집시스템 구축, DB 검증 등에 막대한 시간과 비용이 소요되고 초기 투자 비용면에서 많은 위험을 안고 있어 영세한 국내업체에게는 매우 어려운 실정이었다. 이런 상황에서 ETRI 음성정보연구센터는 공통음성 DB구축을 주요 목표로 음성산업계, 학계의 다양한 의견을 수렴, 업체에서 필요로 하는 공통음성 DB의 규격을 확정하여 총 25종, 약 700GB 크기의 음성DB를 구축한 것이다.

이번에 구축한 음성 DB는 음성정보 관련업체에서 음성인식, 음성합성, 화자인식 기술 개발에 직접적으로 활용될 수 있다. 음성인식의 활용분야로는 음성으로 전화를 걸어주는 서비스, 대화형 음성 인터페이스를 통한 증권정보조회 및 쇼핑몰 서비스, 음성을 이용한 홈 오토메이션 등의 기술이 있다. 또한 음성합성분야는 주식정보, 일기예보, 교통정보 등을 음성으로 들려주는 음성정보시스템 및 장애인용 정보시스템 등에 활용된다. 그리고, 화자인식활용분야에는 홈뱅킹이나 네트워크 음성 인증, PC 보안 등의 기술 개발에 활용된다. 특히 전자상거래에 음성인식, 음성합성, 화자인식의 음성정보 기술들을 복합 적용하면, 상품의 홍보, 소비자 상담 및 제품 소개, 주문접수 처리, 결재 처리 등을 자동화하여 양질의 서비스를 제공할 수 있다.

ETRI 이영직 센터장은 "이번 DB 배포를 통해 국내 산업체간 음성/텍스트 DB 구축의 중복 투자를 제거하여 국가적으로 효율적인 자원 활용을 유도하는" 것이라며 "국내 음성정보처리업체의 경쟁력을 한층 강화시킬 수 있는 계기가 될 것"으로 전망했다.

한편, ETRI의 한국어 공통음성 DB는 지난 10월 1차 기술이전 신청을 받아 13개 업체, 5개 대학 등 총 18개 기관에 CD로 제작하여 DB를 배포하였고, 이번에 2차 신청(2002.12.15~2003.1.15)을 받을 예정이다. 이와 관련 http://voice.etri.re.kr에서 DB 상세규격, 배포조건, 기술이전절차 등 상세한 내용을 검색할 수 있다.

TOP