Abstract
In this research, instead of building the Korean semantic tagged corpora, which requires huge expense and time, we propose a new method trying to basically label the semantic roles by expanding 21st century Sejong Predicate Dictionary. We represent an individual verb with a vector by comparing its case frames to others'. At that time, we use Jacaard Coefficient to measure the similarity between case frame information of verbs. We, then, cluster multiple verbs into a single entry by using k-means and EM algorithm. Each cluster is defined as an entry of the expanded case frame dictionary. With this newly constructed verb dictionary, we try to label the semantic role of the adverbial arguments of verbs. The semantic roles are determined by applying the 4 phase method sequentially, based on the expanded dictionary. We measure the performance of this approach with the coverage and the accuracy. We acquire 78% of coverage and 65% of accuracy in this research.
본 연구에서는 의미 표지 부착 말뭉치의 구축에 있어 많은 비용과 시간이 요구되기 때문에, 21세기 세종 계획 용언 사전의 동사 격틀 정보를 확장하여 기본적인 한국어 의미 역 결정을 시도하는 방법을 제시한다. 이를 위하여 첫째, 용언 사전의 개별 동사가 보유하는 격틀을 각 동사별로 상호 비교하고 그 결과를 개별 동사의 벡터로 표현한다. 이 때 각 동사가 보유하고 있는 격틀 정보의 유사성을 추정하기 위해 Jacaard Coefficient를 이용한다. 그리고 이 개별 동사의 벡터들을 k-means와 EM 알고리즘을 이용해 클러스터링을 시도한다. 이처럼 유사 격틀 정보를 공유하는 동사들의 클러스터를 격틀 사전의 하나의 항목으로 정의한다. 의미 역은 이와 같이 확장된 격틀 사전을 참고하여 4가지 단계를 순차적으로 적용하여 결정된다. 본 방법론의 성능은 적용력과 정확도의 두 가지 기준으로 측정되는데, 본 연구에서는 약 78%의 적용력과, 약 65%의 정확도를 얻을 수 있었다.