DOI QR코드

DOI QR Code

Efficient Similarity Joins by Adaptive Prefix Filtering

맞춤 접두 필터링을 이용한 효율적인 유사도 조인

  • Received : 2012.09.07
  • Accepted : 2012.12.01
  • Published : 2013.04.30

Abstract

As an important operation with many applications such as data cleaning and duplicate detection, the similarity join is a challenging issue, which finds all pairs of records whose similarities are above a given threshold in a dataset. We propose a new algorithm that uses the prefix filtering principle as strong constraints on generation of candidate pairs for fast similarity joins. The candidate pair is generated only when the current prefix token of a probing record shares one prefix token of an indexing record within the constrained prefix tokens by the principle. This generation method needs not to compute an upper bound of the overlap between two records, which results in reduction of execution time. Experimental results show that our algorithm significantly outperforms the previous prefix filtering-based algorithms on real datasets.

데이터 정제나 복사 탐지와 같은 많은 응용들을 가진 중요한 연산인 유사도 조인은 도전적인 주제로 데이터집합에서 주어진 한계치 이상의 유사도를 가지는 모든 쌍의 레코드들을 찾는 것이다. 우리는 빠른 유사도 조인을 위해 후보 쌍들의 생성 시에 접두 필터링 원리를 강한 제약 조건으로 사용하는 새 알고리즘을 제안한다. 그 원리에 의해 한정된 접두 토큰들내에서 탐색 레코드의 현재 접두 토큰이 인덱싱 레코드의 접두 토큰을 공유할 때에만 후보 쌍이 생성된다. 이 생성 방법은 두 레코드들 사이에 공통부분의 상한 값을 계산할 필요가 없어서 실행시간을 감소시킨다. 실제 데이터 집합에 적용된 실험 결과는 제안된 알고리즘이 이전의 접두 필터링 방법의 알고리즘들에 비해 상당히 우수함을 보여준다.

Keywords

References

  1. A.Z. Broder, "On the resemblance and containment of documents," In Proceedings of the SEQS Conference. pp. 21-29, 1997.
  2. S. Chaudhuri, V. Ganti, and R. Kaushik. "A primitive operator for similarity joins in data cleaning." In ICDE, pp.5-16, 2006.
  3. M.R. Henzinger, "Finding near-duplicate web pages: A large-scale evaluation of algorithms," In Proceedings of ACM SIGIR. pp.284-291, 2006.
  4. R.J. Bayardo, Y. Ma, and R. Srikant, "Scaling up all pairs similarity search," In WWW'07, pp.131-140, 2007.
  5. C. Xiao, W. Wang, X. Lin, and J.X. Yu, "Efficient Similarity Joins for Near Duplicate Detection." In WWW'08, pp.131-140, 2008.
  6. L.A. Ribeiro and T. Harder, "Generalizing prefix filtering to improve set similarity joins," Information Systems 36, pp.62-78, 2011. https://doi.org/10.1016/j.is.2010.07.003
  7. C. Xiao, W. Wang, X. Lin, J.X. Yu, and G. Wang, "Efficient Similarity Joins for Near-Duplicate Detection," ACM TODS, Vol.36, No.3, Article 15, August, 2011.