KISTI 종합링킹시스템

Quality Improvement of Clustered Sense Labels using Basic Language Resources KCI 원문보기

기초 언어자원을 활용한 군집화된 의미 레이블의 품질 향상

Park, Jeongyeon Shin, Hyeong-Jin Lee, Jae-Sung Jeong, Jaeseung
저자Authorclose
정재승 / Jeong, Jaeseung
(한국과학기술원
기관Organizationclose
한국과학기술원
)
초록
지도학습 기반의 단어 의미 모호성 해소 연구에서는 사전이나 시소러스 등을 활용하여 희소 데이터 문제를 효과적으로 처리하고 있다. 이 중에서, 군집화된 의미 레이블을 시퀀스 레이블링 기반 모델에 사용하는 방법이 높은 성능과 빠른 처리속도를 보였다. 본 연구에서는, 시소러스 등의 언어자원보다 비교적 쉽게 구할 수 있는 기초 언어자원을 사용해 군집화된 의미 레이블의 품질을 개선하는 방법을 제안한다. 이를 위해, 어휘의 의미 분류를 군집 초기화에 사용하고, 원시문장 말뭉치를 사용해 벡터의 품질을 향상시켰다. 이 개선된 의미 레이블을 BERT
소프트웨어Softwareclose
BERT
기반 단어 의미 모호성 해소 모델에 적용하여 성능을 평가했다. 실험 결과, 제안 방법을 사용한 모델은 F1 70.6%의 성능을 보여 제안 방법을 사용하지 않은 기존 모델의 F1 69.1% 보다 높은 성능을 보였다. 따라서, "기초 언어자원을 추가로 사용하여 군집화된 의미 레이블의 품질을 향상시킬 수 있음을 보였다."-출처:한국과학기술정보연구원 (2022) : 논문 연구분야 분류 데이터
연구데이터DataSet close
논문 연구분야 분류 데이터
In word sense disambiguation(WSD), supervised learning methods have been complemented by using thesaurus or dictionary to process sparse data effectively. In particular, high evaluation score and fast processing speed are attained by using clustered sense labels for WSD model. This study proposes a method to improve further the quality of clustered sense labels by using basic language resources instead of other costly language resources such as thesaurus. The method uses the category of lexical senses to initialize the sense label clusters more appropriately, and uses the context information of raw texts to improve the quality of sense vectors for clustering. We made clustered sense labels using proposed method and applied them to BERT-based WSD model. As a result of experiment, it showed that the performance of our model is F1 70.6%, which is higher than F1 69.1% the one of the existing model not using our method. Therefore, it showed that the quality of clustered sense labels can be improved by using basic language resources.

참고문헌 (4)

  1. 1. N. R. On et al., "An Analysis of the Factors Affecting User Satisfaction in Computational Science and Engineering Platforms: A Case Study of EDISON", Journal of Internet Computing and Services (JICS), Vol. 20, No.6, pp.85-93, 2019. http://dx.doi.org/10.7472/jksii.2019.20.6.00 
    참고문헌Referencesclose
    An Analysis of the Factors Affecting User Satisfaction in Computational Science and Engineering Platforms: A Case Study of EDISON
  2. 2. J. Kim, "Impacts and Countermeasures of the Fourth Industrial Revolution on the Public Sector", Industry focus, Vol. 42, pp. 2-6, 2017. Retrieved from https://www2.deloitte.com/content/dam/Deloitte/kr/Documents/public-sector/2017/kr_ps_issue-highlights_20170327.pdf 
  3. 3. S. Jun et al., "The possibility of using search traffic information to explore consumer product attitudes and forecast consumer preference", Technological Forecasting & Social Change, Vol 86, pp.237-253, 2014. https://doi.org/10.1016/j.techfore.2013.10.021 
  4. 4. S. Jun et al., "Ten years of research change using Google Trends: From the perspective of big data utilizations and applications", Technological Forecasting & Social Change, Vol 130, pp.69-87, 2018. https://doi.org/10.1016/j.techfore.2017.11.009 

관련 정보

원문보기

라이선스 및 과제

원문 URL 링크

원문 PDF 파일 및 링크정보가 존재하지 않을 경우 KISTI DDS 시스템에서 제공하는 원문복사서비스를 사용할 수 있습니다. (원문복사서비스 안내 바로 가기)