바로가기 메뉴
본문 바로가기
주요메뉴 바로가기
ETRI소식 상상을 현실로, 진화하는 ICT세상, 고객과 함께 ICT미래를 열어가겠습니다.

연구개발보도자료

ETRI, 지능형 웹 문서 추출·생성 시스템 개발

ETRI, 지능형 웹 문서 추출·생성 시스템 개발

- 관련 업체에 기술이전 계획 -

 한국전자통신연구원(ETRI, http://www.etri.re.kr) 지식처리연구팀(팀장 윤보현 박사)은 정보통신 선도기반기술개발사업인 국제 표준 ebXML/ebWML 프레임웍 기술 개발 과제의 일환으로, 기존의 인터넷 웹 문서에서 원하는 종류의 정보만 추출, XML(확장성 인터넷 언어) 문서 형태로 자동 생성·저장하는 랩퍼(wrapper, 포장 담당직원이라는 뜻) 기반 정보 추출 시스템 기술을 개발하였다.

이 기술은 인터넷에서 필요한 정보를 추출, 새로운 XML 웹 문서로 조합하고 실시간 업데이트하는 기술로서, 각종 예매 사이트, 가격비교 인터넷 쇼핑몰, 컨텐츠사업자(CP, Contents Provider) 등에게 필수적인 기술이다.

ETRI는 오는 11월 8일 금요일 오후 2시, 정보통신기술이전센터(서울 서초동 소재)에서 본 기술에 대한 기술이전설명회를 갖는다.

 ● 기술의 정의 및 활용분야 

ETRI의 랩퍼 기반 정보 추출 시스템은 여러 개의 관련 사이트에서 원하는 분야의 정보들을 수집하고 이를 한 개의 통합 웹 문서로 묶어 제작하는 일련의 과정을 자동으로 수행하는 소프트웨어이다.

이 기술은 특정 분야 정보를 종합해 제공해야 하는 예매 전문 사이트, 가격비교 쇼핑 사이트 등의 포탈 사이트 운영업체는 물론, 고객들에게 저마다 다른 정보서비스를 제공해야 하는 온라인 뉴스업체, 컨텐츠 사업체(CP) 등으로 하여금 훨씬 적은 노력으로 보다 전문화된 컨텐츠 서비스를 제공할 수 있게 해준다.

 ETRI의 랩퍼 기반 정보 추출 시스템은 에이전트 기술과 결합되어 정보 가공 및 서비스를 위한 통합 패키지를 구성할 수 있으며, 상품 정보를 추출하여 가격비교 시스템을 구축하기 위한 모듈로 활용할 수도 있다.

 ● 기능 - 필요한 내용물만 찾아 한 페이지에 모아준다. 

ETRI의 랩퍼 기반 정보 추출 시스템의 사용자는; 

① 검색어, 분야 등 찾고자 하는 정보의 대상영역(예: 영화예매)
② 수집 항목(예: 영화제목, 포스터 사진, 가격, 좌석 현황 등),
③ 수집 대상 인터넷 주소(예: 극장, 他 영화예매 인터넷 사이트)를 미리 설정한다.

 그러면 ETRI의 랩퍼 기반 정보 추출 시스템은 지정된 조건에 따라 추출규칙, 즉 랩퍼(wrapper, 포장 담당직원이라는 뜻)를 자동생성시키고, 이 랩퍼가 지정된 사이트들로부터 문자, 링크정보 등을 추출, 재배치하여 XML형식의 웹 문서로 통합, 웹 서버에 저장시킨다.

또한, ETRI의 랩퍼 기반 정보 추출 시스템은 자체적인 학습능력을 갖고 있어서, 표식(label)이 없는 자료, 홈페이지 개편 등으로 배치가 바뀐 자료 등도 정확히 찾아 추출할 수 있다.

 ● "새로운 정보서비스 출현 촉진" 

ETRI 지식처리연구팀장 윤보현 박사는, "컨텐츠사업자 등의 사업자는 서비스 목적에 부합하는 정보만을 수집하여 구축할 수 있고 일반 사용자들은 가독성이 높은 정보를 제공받을 수 있어, 정보 인지와 획득에 드는 비용이 절감될 것"이라며, "XML 문서변환 컴포넌트 기술, 맞춤형 모바일 웹서비스를 위한 기반기술 등으로 응용될 수 있다."고 말했다. 

[용어설명]

□ XML, WML, ebXML/ebWML 

XML(확장성 표기언어, eXtensible Markup Language)는 차세대 인터넷 문서형식으로서, 데이터베이스들이 구조화되어 있어 내용물간의 관계를 표시할 수 있고, 이는 홈페이지 구축, 검색기능, 데이터 처리 등을 훨씬 편리하고 신속하게 수행할 수 있게 해준다.

WML(무선 표기언어, Wireless Markup Language)는 이동단말기용 인터넷 문서형식인데, 휴대폰에 사용되므로 작은 용량으로 설계되어 있다.

XML과 WML을 전자상거래를 위해 응용한 인터넷 문서형식이 바로 ebXML과 ebWML인데, eb는 e-business, 즉 전자상거래를 의미한다.

□ 구조화 문서 

정보 추출 시스템에서는 문서를 구조화, 준구조화, 비구조화의 세가지 형태로 분류하는데, 구조화 문서는 자연어 문장 이외에 정보의 구조와 의미를 파악할 수 있는 메타정보를 포함하여 조직화된 문서를 말한다. 온라인 쇼핑몰의 상품 상세 정보를 표시한 문서가 좋은 예이다. 

□ ETRI 랩퍼 기반 정보 추출 시스템의 역할과 랩퍼의 의미 

ETRI의 랩퍼 기반 정보 추출 시스템은 테이블, 태그, 그림 등으로 구성된 구조화 문서를 대상으로, 문서의 구조와 정보 출현 패턴을 분석하여 규칙화한 후 규칙을 문서에 적용하여 정형화된 정보를 추출한다.

문서의 분석을 통해 생성돼 추출작업에 적용되는 이 추출규칙을 랩퍼(wrapper, 포장 담당직원이라는 뜻)라고 하며, 랩퍼에는 추출 대상인지를 식별하기 위한 표식(label)과 식별자(delimiter), 정보의 타입 등이 포함된다.

□ 표식(label) 

표식은 정보의 이름과 같은 것으로, 특정 도메인에서의 의미성 유무에 따라 정보 추출 여부를 판단하는 주요 기준이 된다.  하나의 표식은 여러 문서에서 서로 다르게 나타날 수 있다. 영화명이 여러 문서에서 영화제목, 제목, 상영작 등으로 표현되는 것이 그 좋은 예이다. 

 

TOP