A Study on Automatic Indexing System Using natural language Processing, Statistical Technique, Relevance Verification

자연어 처리, 통계적 기법, 적합성 검증을 이용한 자동색인 시스템에 관한 연구

  • 유춘식 (전북대학교 컴퓨터과학과) ;
  • 우선미 (전북대학교 컴퓨터과학과) ;
  • 유철중 (전북대학교 컴퓨터과학과) ;
  • 이종득 (서남대학교 전자계산학과) ;
  • 권오봉 (전북대학교 컴퓨터과학과) ;
  • 김용성 (전북대학교 컴퓨터과학과)
  • Published : 1998.06.01

Abstract

형태소 분석(Morphological Analysis)과 같은 언어학적 처리에 의존하는 기존의 한국어 문헌에 대한 자동색인 기법들은 품사의 애매모호함이나 복합명사의 처리 등으로 부담(overhead)이 크다. 또한 불용어 처리에 사용되는 불용어 리스트가 대상 문헌의 주제 분야별로 따로 구축되어야 하며 그 크기가 방대하다는 문제점이 있다. 이러한 문제점들을 해결하기 위해, 본 논문에서는 각 문헌의 텍스트에 대해 복합명사 처리나 애매모호함에 대한 엄격한 분석을 수행하지 않는 간단한 형태의 형태소 분석을 수행하여 단순명사들을 추출한다. 그런 후 이들 단순명사들을 이용하여 유한 오토마타(Finite Automata)를 구성하고, 구성된 유한 오토마타와 각 명사의 단어빈도(Term Frequency)에 의해 각 색인어 후보들의 중요도를 계산하는 자동색인 기법을 제안한다. 그 결과 품사의 애매모호함에 대한 처리나 복합명사의 처리에따른 부담을 줄일 수 있었으며, 선정된 색인어들과 수작업으로 선정한 색인어들의 비교 실험에 의해 제안한 자동색인 기법의 성능을 검증하였다.

Keywords