지도학습 기반의 단어 의미 모호성 해소 연구에서는 사전이나
시소러스 등을 활용하여 희소 데이터 문제를 효과적으로 처리하고 있다. 이 중에서, 군집화된 의미 레이블을 시퀀스 레이블링 기반 모델에 사용하는 방법이 높은 성능과 빠른
처리속도를 보였다. 본 연구에서는, 시소러스 등의 언어자원보다 비교적 쉽게 구할 수 있는 기초 언어자원을 사용해 군집화된 의미 레이블의 품질을 개선하는 방법을 제안한다. 이를
위해, 어휘의 의미 분류를 군집 초기화에 사용하고, 원시문장 말뭉치를 사용해 벡터의 품질을 향상시켰다. 이 개선된 의미 레이블을
BERT
기반 단어 의미 모호성 해소 모델에
적용하여 성능을 평가했다. 실험 결과, 제안 방법을 사용한 모델은 F1 70.6%의 성능을 보여 제안 방법을 사용하지 않은 기존 모델의 F1 69.1% 보다 높은 성능을
보였다.
따라서,
"기초 언어자원을 추가로 사용하여 군집화된 의미 레이블의 품질을 향상시킬 수 있음을 보였다."-출처:한국과학기술정보연구원 (2022) : 논문 연구분야 분류 데이터
In word sense
disambiguation(WSD), supervised learning methods have been complemented by using thesaurus or
dictionary to process sparse data effectively. In particular, high evaluation score and fast
processing speed are attained by using clustered sense labels for WSD model. This study proposes a
method to improve further the quality of clustered sense labels by using basic language resources
instead of other costly language resources such as thesaurus. The method uses the category of
lexical senses to initialize the sense label clusters more appropriately, and uses the context
information of raw texts to improve the quality of sense vectors for clustering. We made clustered
sense labels using proposed method and applied them to BERT-based WSD model. As a result of
experiment, it showed that the performance of our model is F1 70.6%, which is higher than F1 69.1%
the one of the existing model not using our method. Therefore, it showed that the quality of
clustered sense labels can be improved by using basic language resources.