DOI QR코드

DOI QR Code

An Empirical Study on Improvement model for Measuring of Project Similarity

과제 유사도 측정 개선모형에 관한 실증적 연구

  • Received : 2011.11.08
  • Accepted : 2011.12.06
  • Published : 2011.12.31

Abstract

The annual R&D investment in Korea increased by an average of 12.2percent during the last 5 years. Therefore, prevention of duplicate projects being performed became an important factor in promoting the efficiency of R&D investment and the originality of R&D projects. On measuring the similarity of projects, the measurement model used to estimate the accuracy of the similarity is crucial. In this paper, we propose an advanced measurement model on checking the similarity of R&D projects for promoting the efficiency of R&D investment. The proposed model is made up of the following steps for the model measurement, sampling and analyzing. During the sampling step, we append the abstract of R&D reports on the search engine based on document vector. We then measure the similarity on projects to use research title network which is consists of the compound keyword and the weight of items on during the analysis. The proposed method improved the accuracy for measuring the similarity of projects by an average of 0.19 over the existing search engine and by 9.25 over the simple keyword search on R&D projects. On searching the similarity with the appending conditions and high sampling, it improved the accuracy of measuring the similarity of R&D projects.

지난 5년간 우리나라 R&D투자는 연평균 12.2%씩 증가하고 있다. 연구개발 중복 투자 방지와 독창성 도출을 위해서는 유사 중복과제 수행의 사전방지가 필요하고, 이를 위해 과제 유사도의 정확도를 개선할 필요가 있다. 본 논문에서는 유사 중복과제 수행의 사전방지를 위한 과제 유사도 측정 개선모형을 제안한다. 과제 유사도 측정 개선모형은 크게 두 단계로 정의된다. 먼저 추출단계에서 Document Vector를 기반으로 한 검색엔진에 연구보고서 초록을 추가한다. 다음은 분석단계에서 과제 키워드에서 복합 키워드 중심으로 생성한 과제의 연구주제망과 항목별 가중치를 활용하여 유사도를 측정한다. 실험결과 과제정보만을 활용한 기존방식보다 연구보고서 초록을 활용한 개선모형의 유사도가 평균 0.19이상 개선되었고, 단순키워드를 활용한 기존방식보다 복합 키워드 기반의 연구주제망과 항목별 가중치를 활용한 개선모형의 유사도가 평균 9.25이상 감소되었다. 연구보고서 초록이 유사도에 영향을 미치고 있고, 복합 키워드 기반의 연구주제망을 활용함으로써 유사도에 대한 정확도를 판단할 수 있는 범위가 확대되는 것을 확인하였다. 또한, 추가된 사항의 폭이 넓으면 넓을수록 유사도의 정확도가 높아지는 것과 과제정보 등 검색대상의 모집단이 클수록 과제 유사도의 정확도가 높아지는 것도 실험을 통해 확인하였다.

Keywords

References

  1. 안정은, 윤종민, "형태학적 특성 기반의 유사문헌 검증기법을 이용한 표준특허 사례연구", 한국정보과학회 2010 한국컴퓨터종합학술발표논문집, 2010
  2. 박동진, 최기석, 이명선, 이상태, "유사과제 파악을 위한 검색 알고리즘의 개발에 관한 연구", 한국콘텐츠학회논문지, Vol.9 No. 11, 2009
  3. 김윤종, "데이터마이닝 기법을 활용한 대학연구센터 지원사업의 유사성 검토방안 연구"
  4. 지정훈, 우균, 조환규, "굼벨분포 모델을 이용한 표절프로그램 자동탐색 및 추적", 정보처리학회논문지, 제16-A권 제6호, 2009
  5. 황인수, "인터넷 검색과 형태소분석을 이용한 표절검사시스템의 개발에 관한 연구", JOURNAL OF INFORMATION TECHNOLOGY APPLICATIONS & MANAGEMENT, 제16권 제1호, 2009
  6. 류창건, 김형준, 조환규, "한글 말뭉치를 이용한 한글 표절 탐색 모델 개발", 정보과학회지 제14권 제2호, 2008
  7. Y. Yang and X Liu, A reexamination of text categorization methods, In SIGIR-99, 1999
  8. 이홍주, Mark Klein, "유사도 알고리즘을 활용한 시맨틱프로세스 검색방안", 경영정보학연구 제18권 제1호, 2008
  9. 백종범, 김성민, 이수원, "특허 정보 검색을 위한 대체어 후보 추출 방법", 정보과학회논문지 : 컴퓨팅의 실제 및 레터, 제15권 제4호, 2009
  10. 조정현, 정현기, 김유섭, "웹 검색과 문서 유사도를 활용한 2 단계 신문 기사 표절 탐지 시스템", 정보처리학회논문지 B, 제16-B권 제2호, 2009
  11. 최성필, 정창후, 전홍우, 조현양, "시맨틱 구문 트리 커널을 이용한 생명공학 분야 전문용어간 관계 식별 및 분류연구", 한국문헌정보학회지, 제45권 제2호, 2011
  12. 강보영, 김대원, "개선된 클러스터 유사도를 이용한 범주형 데이터의 계층적 클러스터링", 정보과학회논문지 : 소프트웨어 및 응용, 제38권 제1호, 2011
  13. 고방원, 김영철, "패턴매칭을 이용한 유사도 비교 분석", 한국컴퓨터정보학회논문지, 제15권, 제1호, 2010
  14. 하정요, 최미영, 최형일, "색상과 형태를 이용한 내용 기반 영상 검색", 한국컴퓨터정보학회논문지, 제13권, 제1호, 2008
  15. 조혜정, 김지은, 손채봉, 정광수, 오승준, "통계적 분석 기반 불법 복제 비디오 영상 감식 방법", 방송공학회논문지,제14권 제6호 , 2009
  16. 최호섭, "어휘망 구축작업에서 발견되는 한국어사전의 문제와 그 해결",국어학회 전국학술대회, 제34회, 2007

Cited by

  1. A Model for Measuring the R&D Project Similarity using Patent Information vol.18, pp.5, 2014, https://doi.org/10.6109/jkiice.2014.18.5.1013
  2. Quantification of Similarity Using the Edit-distance Method for Searching Cooperative Programs Related to Disaster and Safety Management vol.18, pp.3, 2018, https://doi.org/10.9798/KOSHAM.2018.18.3.151