DOI QR코드

DOI QR Code

Email Extraction and Utilization for Author Disambiguation

저자 식별을 위한 전자메일의 추출 및 활용

  • 강인수 (경성대학교 컴퓨터정보학부)
  • Published : 2008.06.28

Abstract

An author of a paper is represented as his/her personal name in a bibliographic record. However, the use of names to indicate authors may deteriorate recall and precision of paper and/or author search, since the same name can be shared by many different individuals and a person can write his/her name in different forms. To solve this problem, it is required to disambiguate same-name author names into different persons. As features for author resolution, previous studies have exploited bibliographic attributes such as co-authors, titles, publication information, etc. This study attempts to apply email addresses of authors to disambiguate author names. For this, we first handle the extraction of email addresses from full-text papers, and then evaluate and analyze the effect of email addresses on author resolution using a large-scale test set.

논문의 저자는 일반적으로 저자명으로 표현되며, 저자명을 통한 저자의 표현 및 관련 논문의 검색은 해당 시스템의 정확률과 재현율을 저하시키게 된다. 이는 같은 저자명을 적는 여러 다른 형태가 존재할 뿐만 아니라, 같은 저자명으로 논문에 기술되었으나 실제 서로 다른 사람일 수 있기 때문이다. 이 문제의 해결을 위해서는, 논문의 저자로 출현하는 동일한 인명 표현을 실세계의 서로 다른 개체로 구분하는 저자 식별처리가 필요하다. 기존 저자 식별의 자질로, 논문의 기본 서지 항목들인 저자, 논문제목, 출처 등이 사용되었으나, 저자 식별 성능 개선을 위해서는 새로운 자질의 도입이 요구된다. 이 연구에서는 한 개인의 고유 식별자로 기능할 수 있는 저자의 전자메일주소 자질을 저자 식별 문제에 적용하고자 한다. 이를 위해 논문원문으로부터의 저자 메일주소의 추출 문제를 다루고, 추출된 메일주소 자질이 저자 식별에 미치는 영향을 대용량 테스트셋을 통해 평가하고 분석한다.

Keywords

References

  1. N. Aswani, K. Bontcheva, and H. Cunningham, "Mining information for instance unification," ISWC-2006, pp.329-342, 2006.
  2. A. Culotta, P. Kanani, R. Hall, M. Wick, and A. McCallum, "Author disambiguation using error-driven machine learning with a ranking loss function," IIWeb-2007, 2007.
  3. R. Guha and A. Garg, "Disambiguating people in search," WWW-2004, 2004.
  4. J. Huang, S. Ertekin, and C. Giles, "Efficient name disambiguation for large scale databases," PKDD-2006, pp.536-544, 2006.
  5. P. Kanani, A. McCallum, and C. Pal, "Improving author coreference by resource-bounded information gathering from the Web," IJCAI-2007, 2007.
  6. D. Lee, B. On, J. Kang, and S. Park, "Effective and scalable solutions for mixed and split citation problems in digital libraries," IQIS-2005, pp.69-76, 2005. https://doi.org/10.1145/1077501.1077514
  7. Y. Song, J. Huang, I. Councill, J. Li, and C. Giles, "Efficient topic-based unsupervised name disambiguation," JCDL-2007, 2007. https://doi.org/10.1145/1255175.1255243
  8. V. Torvik, M. Weeber, D. Swanson, and N. Smalheiser, "A probabilistic similarity metric for Medline records: a model for author name disambiguation," J. of the American Society for Information Science and Technology, Vol.56, No.2, pp.140-158, 2005. https://doi.org/10.1002/asi.20105
  9. W. Winkler, "Overview of record linkage and current research directions," Research Report Series #2006-2, Statistical Research Division, U.S. Census Bureau., 2006.

Cited by

  1. A Comparative Study on Authority Records for Japanese Writers in Japan and the United States of America vol.48, pp.1, 2014, https://doi.org/10.4275/KSLIS.2014.48.1.149