DOI QR코드

DOI QR Code

Measures of Abnormal User Activities in Online Comments Based on Cosine Similarity

코사인 유사도 기반의 인터넷 댓글 상 이상 행위 분석 방법

  • Kim, Minjae (Center for Information Security Technologies(CIST), Korea University) ;
  • Lee, Sangjin (Center for Information Security Technologies(CIST), Korea University)
  • 김민재 (고려대학교 정보보호대학원) ;
  • 이상진 (고려대학교 정보보호대학원)
  • Received : 2013.11.08
  • Accepted : 2014.02.07
  • Published : 2014.04.30

Abstract

It is more important to ensure the credibility of internet media which influence the public opinion. However, there are vague suspicions in public from the examples of manipulation of online reviews with anonymity. In this study, we explore the possibility of manipulating public opinion in online web sites. We investigate the characteristics of comments posted by users on web sites and compare each comments by using the cosine similarity function. Our result shows followings. First, we found a correlation between the similarities of comments and the article ranks in the web sites. Second, it is possible to identify abnormal user activities indicating excessive multiple posting, double posting and astroturf activities.

인터넷의 발달로 대중의 여론에 영향을 주는 인터넷 매체의 신뢰성이 중요해지는 반면 최근의 익명성을 이용한 리뷰 조작 등의 사례는 대중들에게 막연한 의구심을 들게 한다. 본 연구에서는 이러한 사이버 여론 조작과 관련된 현상이 인터넷 게시판 등 웹사이트에도 존재하는지 여부를 수치적으로 살펴보기 위하여 댓글의 요소를 분석하고 내용을 코사인 유사도를 이용하여 비교하였다. 분석 결과 첫째, 댓글 내용의 유사성은 댓글 순위에 의한 게시글의 랭킹과 상관관계가 있었으며 분석 대상 2개 웹사이트에 대해서는 14.1%와 2.6%가 유사한 댓글로 구성되어 있었다. 둘째, 사이버 여론 조작에 일반적으로 이용되는 기법인 과다한 중복 게시 행위와 실제로는 동일인이지만 여러 명으로 위장한 것으로 추정되는 사용자를 파악 할 수 있었다.

Keywords

I. 서론

최근 사이버 상의 정보 획득의 기회와 활용이 증가됨에 따라 개인 및 대중의 의견 및 태도에 영향을 주는 매체의 신뢰성이 중요해지는 반면 인터넷 표현의 자유성과 익명성은 여론 조작을 용이하게 하고 방법과 실체를 숨기는 것을 가능하게 한다.

여론 조작은 전통적으로 매스미디어를 이용하여 대중의 심리 또는 의견 형성에 직간접적으로 영향을 주는 기법으로 동원되었으며 최근에는 개인의 금전적 이윤을 위한 웹사이트 리뷰 조작부터 대규모 조직에 의해 고용된 정치, 사회적 목적의 사이버 여론 조작까지 다양한 현상으로 나타난다.

이러한 여론의 유통과 관련된 사이버 미디어에 대한 역기능 방지 대책은 기존의 웹 스팸을 방지하는 필터링 기법처럼 즉시 차단 방법과는 달리 가용성도 고려하여야 하므로 사후 대책으로서 이상 행위가 어느 정도 존재하는지 우선 파악이 필요할 것이다.

본 연구에서는 이러한 사이버 여론 조작과 관련된 이상 행위가 존재하는지 여부를 살펴보고자 하며 게시자ID 등의 요소를 분석하고 댓글의 유사성을 코사인 유사도를 이용하여 비교함으로써 조작을 의심하게 하는 패턴을 파악하고자 한다.

II. 배경

2.1 사이버 공간의 특성

일반적으로 여론은 사회 구성원들의 공통된 의견으로서 정치적, 문화적, 경제적 영향력을 가진다. 사이버 공간 상의 토론 게시판 또는 댓글을 이용한 인터넷 매체의 이용은 중요한 정보유통 채널이며 토론에 참여하는 참여자는 물론 참관자에게도 잠재적으로 영향을 미쳐서 이들이 가질 수 있는 의견과 태도에 영향을 준다[1].

사이버 공간의 특징인 익명성은 현실 공간 보다 보장되며 정체를 노출시키지 않고 사회관계들을 유지하는 데에 전혀 문제가 없고 오히려 익명성이 더 바람직하게 간주되기도 한다[2].

2.2 사이버 여론 조작

이호영[3]은 뉴스 댓글에 대한 인터넷 이용자들의 인식 조사 결과 “댓글이 홍보효과를 높이고자 하는 등 의도적으로 작성되는 것이 많다”고 하였다. Joachim Neander[4]는 미디어에 의한 여론 조작 기법인 주의 분산, 감정 호소, 프레이밍, 허위 선전 등이 과거뿐만 아니라 현재에도 존재함을 주장하였다. 최근 중국에서는 정부가 28만 명을 고용하여 인터넷 여론을 의도한 방향으로 유도하려고 한다는 주장이 제기되었고[5], 상업적으로는 기업에 의해 고용된 일원이면서도 평범한 소비자인 것처럼 가장한 마케팅 기법으로도 이용된 사례가 있다[6].

인터넷 게시판, 소셜 네트워크 등 사이버 상에서는 Table 1.과 같이 구체적인 방법으로 대중의 여론에 영향을 주는 기법들이 이용되고 있다. 애스트로터핑(astroturfing)은 “인조 잔디”라는 뜻으로 정치 분야에서 유래되었고 풀뿌리의 반대되는 개념으로서 조작의 의미를 내포한다. 이 기법은 다수의 익명 ID를 이용하여 시스템을 무력화하는 시빌(sybil) 공격[7]의한 형태로 볼 수 있다.

Table 1. Techniques for Manipulation of Public Opinion in Cyberspace

현재의 사이버 환경에서 주목할 점은 과거에 여론을 조작하기 위하여 들여야 했던 인력과 시간의 비용보다 온라인에서는 저렴한 비용으로 여러 명인 것처럼 보이게 할 수 있다는 것이다.

2.3 관련 연구

Jacob Ratkiewicz[11]는 조작된 리뷰 등에 대한 조치 방안으로써 패턴 분석에 의한 탐지 방식을 제안하였는데 소셜 미디어의 이용자와 리트윗 행위에 기반하여 사용자가 유포하고자 하는 콘텐츠 분석을 통한 오피니언 마이닝의 결과를 수치화하여 정상 이용자와 비정상 이용자를 구분하였다.

Jindal[12]은 웹사이트에 게시되는 리뷰에 대해 사용자 ID와 제품 간의 이상 패턴을 분석함으로써 스팸성 리뷰를 탐지하는 방안을 제시하였다.

소셜 네트워크 분야에서 Qiang Cao[9]는 네트워크의 특성에 따른 사용자 ID 간의 연결성과 이용 패턴을 분석하여 “sybilrank”로 수치화함으로써 거짓 계정의 탐지 방안을 제안하였다.

III. 제안하는 방법

본 연구에서는 주요 포털사이트의 댓글을 분석함으로써 사이버 여론 조작의 가능성이 존재하는지 살펴보고자 하며 전체적인 흐름은 Fig.1.과 같다.

Fig.1. Overview of the Main Algorithms

분석의 목적은 댓글의 유사성이 인터넷 이용자들에게 직접 노출되는 정보인 댓글 순위 등의 지표에 영향을 주는지 여부를 판단하고, 일반적으로 사이버 여론조작에 이용되는 기법인 유사글 중복 게시 행위와 애스트로터퍼(astroturfer)로 불리는 실제로는 동일인이지만 여러 명으로 위장하는 사례가 존재하는지 파악하는 것이며 분석 방법은 Table 2.와 같다.

Table.2. Methods and Measurements

3.1 측정 지표에 대한 정의

분석을 위하여 Table 3.와 같이 유사도 구분 경계 값과 유사 댓글 비율을 사전에 정의하였다.

Table.3. Definition of Metrics

유사도 구분 경계값(Similarity Threshold)은 임의의 게시글 내에서 서로 한 개 이상의 유사한 다른 댓글을 가진 유사 댓글 그룹과 그렇지 않은 그룹, 즉 서로 내용이 상이한 댓글로만 구성된 그룹으로 구별하기 위한 값이다.

유사 댓글 비율(Similar Comments Ratio)은 각각의 게시글들이 해당 게시물에 달린 댓글 내에서 얼마나 많은 유사한 댓글들을 포함하고 있는지 나타내기 위한 값이다.

3.2 데이터 획득, 전처리 및 텍스트 마이닝 과정

분석 데이터는 Fig.2. 및 Fig.3.와 같이 2개 포털사이트의 베스트 게시글과 해당 게시글에 달린 댓글을 대상으로 수집하였으며 데이터 획득을 위한 URL은 Table 4.와 같으며 게시글과 댓글의 상세속성을 Table 5.와 같이 정의하였다.

Fig.2. Daum Agora

Fig.3. Naver News

Table.4. Data Aquisition URL

Table.5. Properties of Articles and Comments

분석하고자 하는 데이터는 웹페이지 내 존재하는 비정형화된 데이터이므로 텍스트 마이닝 과정을 거쳐 구조화된 데이터베이스에 입력 가능하도록 가공할 필요가 있다. 기본적인 과정은 게시글 또는 댓글 구조를 탐지하여 추출하고, 불용어를 제거하여 정제한 후 추출된 게시글과 댓글의 속성에 따라 관계형 데이터베이스에 입력하는 것이다.

3.3 코사인 유사도 측정

댓글의 서로 같거나 다름을 구분하기 위해서 댓글을 하나의 개체로 취급하고 유사도(similarity)를 적용하였다. 유사도는 거리(distance)와 서로 반대되는 개념으로서 거리 척도로는 유클리드 거리, 민코브스키 거리가 널리 쓰이며, 유사도 척도로는 피어슨 상 관계수, 코사인 계수와 정보 검색 분야에서 흔히 사용되는 내적 계수 등이 있다[13].

문서 간 유사성을 비교하기 위한 방법으로서 계산의 복잡성이 낮은 코사인 유사도를 채택한 연구 사례가 있고[14], 이 유사도는 문서 검색에 많이 이용되며 단어의 출현 빈도가 특징이 되므로[15] 본 연구에서는 두 개의 댓글 간의 유사도 측정을 위해 코사인 유사도 측정 방법을 사용하였다.

일반적으로 두 문장은 벡터 공간 모델 상에서 문장을 벡터로 간주하여 두 벡터 간의 거리와 코사인 값을 구함으로써 유사도를 측정할 수 있으며[16] 두 개의 댓글 간의 코사인 계수를 구하기 위한 식은 (1)과 같다.

#(1)

코사인 유사도를 측정하는 과정을 요약하면 Fig.4.와 같으며 사례를 통해 설명하고자 한다.

Fig.4. Procedures for Calculating Cosine Similarity

3.3.1 댓글 선택 및 단어 분리 과정

두 개의 댓글은 Table 6.의 예와 같이 선택하여 전처리 및 텍스트 마이닝 과정을 통하여 불용어를 제거하고 관계형 데이터베이스에 입력 후 Fig.5.와 같은 쿼리를 이용하여 단어의 출현 빈도를 Table 7.의 결과와 같이 추출한다.

Table.6. Example of Comments

Table.7. Example of Calculating Frequency of Occurrences

Fig.5. Example of Extracting the Frequency of Occurrence Using a Query

3.3.2 벡터값 계산 및 유사도 측정

추출된 단어의 출현 빈도로부터 Table 8.과 같이 각각의 벡터값을 계산한 후 Fig.6.와 같이 최종적으로 코사인 유사도를 측정할 수 있다.

Table.8. Example of Calculating Vectors

Fig.6. Example of Calculating Cosine Similarity

일반적으로 정보검색 분야에서는 문서 간 유사도 측정 시 검색 효율을 높이기 위하여 검색어와 사전에 생성된 문서의 색인 간 유사도를 측정하는 방법을 취하고 있다. 본 연구에서는 베스트 게시물 내 댓글 간 유사도를 측정하므로 비교 대상이 유한하고 효율성 보다는 정확성을 기하고자 하였으므로 색인을 이용하지 않았다.

IV. 분석 결과

4.1 게시글에 대한 기초 자료

데이터는 다음 아고라와 네이버 뉴스의 베스트 게시글에 노출된 고유한 지표인 댓글 순위 등을 수집하였다. 기간은 해당 웹사이트에 대하여 2013년 6월 20일, 7월 20일, 8월 20일자를 임의 선정하였다. 게시글은 다음 아고라의 경우 베스트글 중 댓글이 많은 상위 20 위 내의 게시글을 대상으로 하였고, 네이버 뉴스의 경우 댓글이 많은 상위 20위 내 게시글 중 게시글 목록에 노출된 댓글수와 실제 댓글수가 크게 차이가 나는 게시글을 제외하고 수집하였다.

포털사이트별 총 60개의 베스트 게시글에 대해 16,129건의 다음 아고라 댓글과 123,282건의 네이버 뉴스 댓글이 수집되었다. 베스트 글의 순위에 따라 해당 게시물에 달린 댓글의 수는 상이하며 하나의 게시글에 다음 아고라의 경우 최소 34개, 최대 3,817개의 댓글이 존재하며 네이버 뉴스의 경우 최소 344개, 최대 7,215개의 댓글이 존재하였다.

4.2 댓글 간 유사도 측정 결과

각 게시글에 달린 댓글들에 대하여 임의로 두 개씩의 댓글을 추출한 후 유사도를 측정하였다. 단, 다음과 같은 경우 측정에서 제외하였는데, 댓글의 길이가 너무 짧은 경우, 예를 들어 “공감합니다”, “나도 찬성”과 같은 문장과 동일한 문장이 발견되었다고 하여 유사 댓글로 판단하기 어렵기 때문이다. 또한, 두 댓글 간의 일치하는 단어의 수가 적은 경우는 너무 짧은 길이의 댓글이거나 길이는 충분하지만 코사인 유사도의 분자 값인 내적의 결과가 작아서 서로 상이한 결과가 예상되므로 측정에서 제외하였다.

유사도 경계값은 유사한 그룹과 그렇지 않은 그룹과의 구분을 위하여 정의한 수치이므로 코사인 계수 0.5 ~ 1 사이에서 선정이 필요하며 서로 유사한 댓글들로만 구성된 그룹의 경향을 분석하기 위해서는 최대한 1에 가깝게 설정하여야 한다. 실험에서는 0.7 ~0.9 사이에서 임의 설정 후 댓글 순위에 대해 유사 댓글 그룹과 그렇지 않은 그룹 간에 차이가 존재하는지를 검정하였다.

두 집단 간의 차이를 검정하는 통계적 방법에는 널리 사용되는 t-테스트가 존재하나 본 실험에서는 샘플로 이용되는 유사 댓글 비율과 댓글 순위가 정규 분포를 따르지 않았으므로 비모수 검정 방법을 이용하였다. “비모수 검정 방법은 모집단의 분포함수에 대하여 모수형의 가정을 하지 않는 즉, 2개 이상의 분포함수를 포함하는 분포함수의 집합에서 성립하는 통계적 방법”[17]으로서 윌콕슨 부호순위 검정, 만-위트니 검정, 크루스칼-왈리스 검정 등이 있고 본 실험에서는 중앙값을 이용하는 만-위트니 검정을 통계 패키지 SPSS를 이용하여 분석하였다. 측정 결과 두 집단 간의 유의미한 차이가 존재하였으므로 경계값 0.9는 타당한 것으로 판단하였다.

유사도 측정 결과는 Fig.7.과 Fig.8.과 같으며 다음 아고라의 경우 14.1%, 네이버 뉴스의 경우 2.6%가 유사 댓글로 측정되었다.

Fig.7. Diagram for Comments Similarities (Daum Agora)

Fig.8. Diagram for Comments Similarities (Naver News)

4.3 댓글 유사성과 게시글 순위의 상관관계

순위가 높은 베스트 게시글 일수록 유사한 댓글로 구성되어 있는지 파악하기 위해 게시글 순위 등 노출 지표와 유사 댓글의 비율 간의 상관 분석하였고 결과가 Table 9.과 Table 10.과 같다. 댓글 순위와 유사 댓글 비율은 다음 아고라의 경우 상관 계수 -0.467로서 p 값이 0.01 수준에서 유의하였고, 네이버 뉴스의경우 상관 계수 -0.296으로 0.05 수준에서 유의한 것으로 분석되었다. 상관 계수가 마이너스로 산출된 이유는 사이트 내 게시글의 순위는 숫자가 낮을수록 랭킹이 높음을 의미하기 때문이다.

Table 9. Pearson Correlation (Daum Agora)

Table 10. Pearson Correlation (Naver News)

결과로부터 다음 아고라 사이트는 게시물의 댓글 순위가 높을수록 유사한 댓글이 어느 정도 많은 보통의 상관관계가 있으며 네이버 뉴스 사이트는 순위와 유사 댓글 비율 사이에 상관관계는 있으나 그 정도가 약함을 알 수 있다.

Fig.9.과 Fig.10.은 게시물의 순위에 따른 유사댓글 비율이 선형적일 것이라 가정한 회귀 분석 결과이며 순위가 높아질수록 유사 댓글의 비율이 높음을 추정할 수 있다.

Fig.9. Correlation between Similar Comments Ratio and Rank (Daum Agora)

Fig.10. Correlation between Similar Comments Ratio and Rank (Naver News)

4.4 이상 행위 분석

한 개의 게시자 ID로 중복된 댓글을 과다하게 게시하거나 여러 개의 익명 ID를 이용하여 유사한 댓글을 게시하는 이용자의 존재 여부를 파악하기 위하여 패턴 분석을 실시하였다. 분석은 다음 아고라에 대해서만 수행하였는데 이유는 네이버 뉴스의 경우 댓글 게시자의 ID가 마스킹 처리되어 있어 게시자를 구분하는데 제한이 있었기 때문이다.

4.4.1 중복글 과다 게시

각각의 베스트 게시글 내에서 유사한 내용으로 중복된 댓글을 과다하게 게시한 이용자가 존재하였고 하루에 최대 174건의 유사한 댓글을 게시한 ID가 존재하였으며 Fig.11.과 같이 게시 건수 기준으로 상위게시자들에게 과다 게시 행위가 집중됨을 알 수 있었다.

Fig.11. Ranking of Users Post Excessive Similar and Multiple Comments

4.4.2 애스트로터퍼(astroturfer)

서로 다른 게시자 ID로 유사한 내용의 댓글을 게시한 사례를 확인한 결과 하나의 ID를 여러 개의 익명 ID로 위장한 애스트로터퍼의 형태를 보이는 게시자가 발견되었다.

Table 11의 사례1과 사례2는 서로 다른 ID로 동일한 게시글(게시글 번호 ‘40’) 내에서 유사한 댓글을 게시한 사례로서 동일인이 총 3개의 ID(서****, An****, ZA****)를 바꾸어가며 유사한 댓글을 게시한 것으로 추정된다.

Table.11. Example of Posting Similar Comments within the Same Article

Table 12.의 사례3은 서로 다른 ID로 여러 게시글에 유사한 댓글을 게시한 사례로서 동일인이 2개의 ID(한******, 남******)를 사용하여 서로 다른 본문 게시물(게시글 번호 ‘56’과 ‘60’)에 유사한 내용의 댓글을 게시한 사례로 추정된다. 또한 사례에서 제시된 해당 ID들은 하루에도 수십 건 이상의 유사한 댓글을 게시하는 과다 게시자이기도 하다.

Table.12. Example of Posting Similar Comments on a Different Article

Ⅴ. 결론

유사글 게시 행위가 웹사이트 내 게시물의 순위에 영향을 주는지 여부와 중복 및 과다 게시 등 이상 행위가 존재하는지 여부를 판단하기 위해 포털사이트의 게시글과 댓글을 분석하였다.

첫째, 상관 분석을 통하여 인터넷 이용자들에게 가장 먼저 노출되는 정보인 댓글 순위에 의해 최상위에 랭크된 게시물 일수록 유사한 댓글로 이루어졌음을 알 수 있었다. 사이트에 따라 상관 계수의 크기는 상이하였으나 유사한 댓글을 게시하는 행위는 순위에 어느 정도 영향을 미치는 것으로 판단할 수 있다.

둘째, 이러한 순위와 관계가 있는 유사한 댓글을 게시하는 사용자들에게 어떠한 이상 행위가 존재하는지 분석하였다. 중복글 게시자는 게시 건수 기준으로 상위자 일부에게 집중되어 있음을 알 수 있었으며 익명성을 이용하여 실체를 위장한 것으로 추정되는 여러 개의 ID로 서로 다른 게시물에 유사한 댓글을 다는 사용자 ID가 발견되었다.

본 연구에서는 사이버 여론 조작으로 의심되는 행위가 존재하는지 여부를 파악하고자 하였으며 코사인 유사도를 이용하여 분석하는 방법을 제안하였다. 포털 사이트 내 정치, 경제, 사회, 연예 등의 구분을 고려하지 않았고 게시하는 이용자의 내용적인 의미는 분류하지 않았으므로 향후 다양한 데이터 마이닝 기법을 추가로 적용하면 더욱 상세한 분석이 가능할 것이다.

사이버 상의 익명성을 이용하며 직접적으로 드러나지 않는 이러한 행위는 인터넷 이용자의 의견 공유, 정보 획득에 영향을 주게 되므로 인터넷의 신뢰성을 저하시킨다. 대응 방안으로서 과다한 현상이 발견되었을 때 익명성을 보완하고 건전한 이용자들이 이러한 현상을 인지할 수 있도록 효과적으로 알리는 방안이 강구되어야할 것이다.

References

  1. Dong-Gi Jo, Young-Suk Oh and Hee-Kyung Cho, "Formation of public opinion and Collective Behavior in Cyberspace," Research Report 01-24, Korea Information Society Development Institute, Dec. 2001.
  2. Eun-Ju Lee and Yoon Jae Jang, "Effects of Others' Comments on Internet News Sites on Perceptions of Reality, " Korean Journal of Journalism & Communication Studies 53(4), pp.51-71, Aug. 2009.
  3. Ho-Young Lee, En-Hee Jung, Mun-Ki Seo, Chang-Ho Lee, "The Study on the Corresponding Expansion of the Social Impact of Internet Portal Site, " Report 08-05, Korea Information Society Development Institute, Dec. 2008.
  4. Neander, Joachim, and Randal Marlin, "Media and Propaganda: The Northcliffe Press and the Corpse Factory Story of World War I.," Global Media Journal - Canadian Edition, vol.3, no.2, pp.67-82, 2010.
  5. Yonhap News, "China, Human Sea Tactics to Improve the Online Reputation," http://www.yonhapnews.co.kr/economy/2010/03/29/0303000000AKR2010032 9051100009.HTML, Mar.2010.
  6. http://kielsgkm.files.wordpress.com/2009/07/blogs-the-corporation6.pdf
  7. Douceur, John R. "The sybil attack," Peer-to-peer Systems, Springer Berlin Heidelberg, pp.251-260, 2002.
  8. Korea Internet & Security Agency, "NetFocus - Social Media Infodemics Issue," Internet & Security Issue, Aug.2010.
  9. Qiang Cao, "Aiding the detection of fake accounts in large scale social online services," Proc. of NSDI, 2012.
  10. Entman, R.M., "Framing: Toward clarification of a fractured paradigm," Journal of communication, vol.43, no.4, pp.51-58, 1993. https://doi.org/10.1111/j.1460-2466.1993.tb01304.x
  11. Jacob Ratkiewicz, "Detecting and Tracking the Spread of Astroturf Memes in Microblog Streams," arXiv preprint arXiv:1011.3768, 2010.
  12. Jindal, Nitin, and Bing Liu, "Opinion Spam and Analysis," Proceedings of the international conference on Web search and web data mining. ACM, 2008.
  13. Young-Mi Jung, Information Retrieval Study, Yonsei University Press, p.170, 2012.
  14. Young-Bin Kwon, Seoung-Do Lee, Hyun Yang and Yo-Han Joo, "The Analysis of the Conferences for the Computer Network Using the Miner and the Cosine Similarity based upon Keywords," Korea Society of IT Services Journal, 11(1), pp.223-238, Mar.2012. https://doi.org/10.9716/KITS.2012.11.1.223
  15. Il-Seok Oh, Pattern Recognition, Kyobo Book Center, p.330, 2012.
  16. Rada Mihalcea, "Text Similarity in NLP and its Applications," http://www.cse.unt.edu/-rada/CSCE5290/Lectures/TextSimilarity.ppt, pp.10-11, 2011.
  17. Dong-Gil An, "Comparison of Statistical Packages about the Nonparametric Test," Master's Thesis., Kyungsung University, 1990.
  18. Galit Shmueli, Data Mining for Business Intelligence, 2nd Ed., E&B PLUS, pp.35-36, 2012.
  19. Matthew A. Russell(Translated by Kim Sang-Jung), Mining the Social Web, B.J Public, pp.244-246, 2012.