DOI QR코드

DOI QR Code

A Method for User Sentiment Classification using Instagram Hashtags

인스타그램 해시태그를 이용한 사용자 감정 분류 방법

  • Nam, Minji (Dept. of SW Convergence Eng., Graduate School of Industrial Technology Convergence, Chosun University) ;
  • Lee, EunJi (Dept. of Computer Eng., Chosun University) ;
  • Shin, Juhyun (Dept. of Control and Measuring Robot Eng., Chosun University)
  • Received : 2015.07.31
  • Accepted : 2015.09.21
  • Published : 2015.11.30

Abstract

In recent times, studies sentiment analysis are being actively conducted by implementing natural language processing technologies for analyzing subjective data such as opinions and attitudes of users expressed on the Web, blogs, and social networking services (SNSs). Conventionally, to classify the sentiments in texts, most studies determine positive/negative/neutral sentiments by assigning polarity values for sentiment vocabulary using sentiment lexicons. However, in this study, sentiments are classified based on Thayer's model, which is psychologically defined, unlike the polarity classification used in opinion mining. In this paper, as a method for classifying the sentiments, sentiment categories are proposed by extracting sentiment keywords for major sentiments by using hashtags, which are essential elements of Instagram. By applying sentiment categories to user posts, sentiments can be determined through the similarity measurement between the sentiment adjective candidates and the sentiment keywords. The test results of the proposed method show that the average accuracy rate for all the sentiment categories was 90.7%, which indicates good performance. If a sentiment classification system with a large capacity is prepared using the proposed method, then it is expected that sentiment analysis in various fields will be possible, such as for determining social phenomena through SNS.

Keywords

1. 서 론

최근 소셜 네트워크 서비스(Social Network Service, SNS)가 스마트폰 사용과 더불어 사용자들의 생활 속 일부분으로 자리 잡으면서 다양한 SNS들이 등장하고 있다. 시대 흐름에 따른 SNS는 3가지 형태로 구분 지을 수 있다. 1세대 SNS는 기존에 형성된 오프라인 인맥을 중심으로 온라인에서 소통하는 방식인 싸이월드(Cyworld)의 미니홈피나 블로그와 같은 형태였다. 2세대 SNS에서는 스마트 폰의 등장과 함께 트위터(Twitter)나 페이스북(Facebook)처럼 타임라인 형식으로 단문형태의 메시지를 실시간으로 주고받는 서비스가 인기를 끌고 있다. 이에 다양한 SNS들이 등장하면서 인맥 중심의 관계와 포괄적인 커뮤니케이션을 이어나가는 기존의 SNS에서 점차 관심사나 취미 등 특정한 주제를 중심으로 공유하는 사용자 맞춤형 서비스인 텀블러(Tumblr), 핀터레스트(Pinterest), 인스타그램(Instagram)과 같은 3세대 SNS까지 다양한 형태의 SNS가 발전하였다[1,2]. 이러한 SNS의 확산은 개인의 관심사와 관련된 사용자간의 정보공유를 가능하게 함으로써 사용자가 게시한 게시물 등을 이용하여 관심사나 감정을 분석을 위한 연구[3,4,5]가 수행되고 있으나, 대부분 기존의 보편화된 SNS를 활용한 연구에 미치고 있다. 따라서 본 연구에서는 3세대 SNS 중 하나인 인스타그램을 대상으로 사용자의 감정분류를 수행하고자 한다. 인스타그램은 사용자가 공유하고 싶은 이미지를 스마트 디바이스를 통해 촬영하거나 기존에 촬영한 이미지를 업로드 할 때 간단한 해시태그(Hashtag)를 덧붙여 글을 게시함으로써 자신의 감정을 표현하고 다른 사용자들과 교류할 수 있는 대표적인 3세대 SNS 이다. 본 논문에서는 인스타그램을 대상으로 오피니언 마이닝에서 활용하고 있는 극성 분류와는 달리 심리학적으로 정의된 감정을 기준으로 감정을 분류하였고, 실제 인스타그램에서 사용되는 감정을 분석하기 위해 인스타그램의 해시태그를 이용하여 감정 카테고리를 제안하였다. 기존 감정 분석에 대한 연구의 경우 텍스트의 감정을 분류하기 위해 감정사전을 이용하여 감정어휘에 대한 극성 값을 부여해 긍/부정을 판별하여 감성을 판단하였으나 제안하는 감정 카테고리를 통해 사용자의 주요 감정을 분석할 수 있어 주관적인 감정에 대한 모호함을 해결할 수 있다. 본 논문의 구성은 다음과 같다. 2장에서는 SNS 데이터를 이용하여 감정 분석을 수행한 기존 연구들과 해시태그에 대하여 설명한다. 3장에서는 인스타 그램을 대상으로 사용자 감정 분류와 분석의 방법에 대해 기술한다. 본 논문에서 제안하는 사용자 감정 분석의 방법으로는 크게 해시태그를 이용한 감정 분류 방법과 제안한 해시태그 기반 감정 카테고리를 사용자의 게시물에 적용하여 감정을 분석하는 방법에 대해 제시한다. 4장에서는 제안한 감정 카테고리에 대한 정확성을 측정하여 성능을 평가하고, 마지막으로 결론 및 향후 연구를 5장에서 제시한다.

 

2. 관련 연구

2.1 감정 분석(Sentiment Analysis)

감정 분석이란 문장이나 문서 등 텍스트 정보에 표현된 사람들의 의견이나 태도, 감정 등을 분석하는 것을 말한다. 기존에는 텍스트 데이터로부터 감성 단어를 긍정과 부정의 양 극단으로 분류하는 극성분류가 대부분이었으나, 최근에는 SNS 데이터를 이용하여 여러 감정으로 분류하는 감정 분석 연구가 활발히 진행되고 있다[5,6,7]. [5]에서는 트위터(Twitter)로 부터 수집한 데이터를 이용하여 기계학습 모델을 적용해 7개의 감정인 ‘분노’, ‘혼란’, ‘우울’, ‘피로’, ‘친근감’, ‘긴장감’, ‘생동감’으로 영화평을 분류하여 영화 장르별 감정특성을 분석하였고, 직관적으로 알아볼 수 있는 결과를 통하여 감정 분석이 데이터의 성격을 넘어서 실제 응용분야에 적용이 가능함을 주장하였다. [6]에서는 트위터와 싸이월드 C로그, 국내 포털사이트인 네이버(Naver)의 영화 리뷰 댓글의 데이터를 이용하여 긍정의 세부 분류 7가지와, 부정의 세부분류 15가지로 분류하였다. [7]에서는 심리학적 감정들을 기반으로 트위터의 텍스트를 분석하여 정의한 감정 정보 프레임을 추출한 후 기본적으로 정의해 놓은 감성을 수정하는 방법을 제안하여 감성의 극성뿐만 아니라 긍정과 부정의 근거가 되는 감성을 재구성함으로써 긍정 9가지, 부정 10가지, 중립 4가지의 감성으로 분류하였다. 기존의 감정 분류 방법은 SNS의 텍스트 데이터를 활용한 방법이었으나, 본 논문에서는 Thayer의 감정 모델을 기반으로 인스타그램의 해시태그를 이용하여 사용자의 감정을 분류하고자 한다.

2.2 해시태그(Hashtag)

해시태그란 ‘#’기호 뒤에 특정 단어를 써서 트위터, 페이스북, 인스타그램 등 SNS상에서 특정 키워드를 편리하게 검색할 수 있도록 도입된 기능이다. 사용자는 게시물에 해시태그를 함께 게시함으로써 특정 주제나 관심사를 표현할 수 있고, 자신의 감정이나 상태에 대한 정보 또한 공유할 수 있다. 이러한 해시태그의 특징을 활용한 대표적인 연구[8,9,10]들이 있다.[8]의 연구는 트위터의 메시지를 감독분류(supervised classification) 방법을 활용하여 해시태그가 주제를 표현하는 중요한 지표로 이용될 수 있다는 것을 실험결과로 보여주었다. [9]의 연구는 트위터 상에서 감성 분석을 하는데 있어서 그래프 모델을 기반으로 해시태그 감성 분류 접근법을 제시하였다. 이때 해시태그의 유형을 주제에 대해 주관적인 의견을 표현하는 감정 해시태그, 주제와 관련된 주제 해시태그, 표현하려는 대상과 감정이 함께 나타난 감정 주체 해시태그로 세 가지 범주로 정의하여 그래프 모델이 나타나는 동시 발생된 관계를 통해 감정의 극성을 결정하였고, 해시태그가 감성 분석의 중요한 요소로 작용한다는 것을 실험적으로 증명하였다. 또한 [10]의 연구에서는 해시태그 기능이 소셜 네트워크 상승의 중요한 역할로 작용함을 언급하였으며 인스타그램에서 나이브 베이즈 분류기(Naive Bayes classifier)를 사용하여 해시태그의 감정 분류를 시도하였다. 따라서 본 논문에서는 이러한 해시태그의 특징을 활용하여 감정 카테고리를 제안하고자 한다.

 

3. 인스타그램 기반 사용자 감정 분류 방법

3.1 시스템 구성도

본 논문에서는 인스타그램에서 심리학적 감정 분류 체계 이론 중 하나인 Thayer의 감정 모델을 기반으로 해시태그를 이용하여 감정을 분류한 뒤 사용자가 작성한 게시글에 분류한 감정 카테고리를 적용하여 감정을 분석하는 방법을 제안한다. Fig. 1은 제안하는 감정 분석의 전체 시스템 구성도이며, 크게 감정을 분류하는 프로세스와 사용자의 감정을 분석하는 프로세스로 나뉜다.

Fig. 1.System Flowchart.

3.2 인스타그램 감정 분류 프로세스

인스타그램에서 사용자는 공유하고 싶은 이미지와 간단한 문구나 몇 가지의 해시태그로 자신의 기분이나 상황을 표현하고 다른 사용자들과 공유한다. 최근 인스타그램의 트렌드를 살펴보면 상세한 설명 대신 해시태그를 나열하는 방식으로 공유하고 싶은 게시물을 설명한다. 이때 해시태그는 게시물의 주제를 담는 키워드가 될 수 있으며 자신의 기분이나 상태를 공유하는 감정을 담는 키워드가 될 수 있다. 본 절에서는 해시태그를 이용하여 인스타그램 내에서 사용자들이 자주 공유하는 감정들을 분류하는 방법에 대해 기술한다. 감정을 분류하기 위해 카테고리를 선정하여 기준을 세우고, 선정된 각각의 대표 카테고리를 감정 형용사로 표현하여 감정 형용사가 포함된 해시태그 데이터를 수집한다. 카테고리의 선정에 사용된 자료는 심리학적으로 정의된 Thayer의 감정 분류 체계[11]로 Fig. 2를 나타낸다.

Fig. 2.Thayer's Emotion Model [11].

Thayer의 모델은 감정을 연구하는 분야에서도 주로 채택되어 사용하고 있으며, 감정을 형용사로 표현하는 것과 특정 카테고리로 분류하는 모호성을 해결해 준다[12]. 본 연구에서는 감정 분류의 정확성 향상과 오분류율을 최소화하기 위해 Thayer의 대표 4가지 감정인 Happy, Angry, Peaceful, Sad를 카테고리로 선정하여 분류 기준을 세우고, 이를 감정 형용사라고 표현하였다. 카테고리의 선정이 끝나면 인스타 그램에서 정의된 감정 형용사가 포함된 해시태그 데이터를 수집하는데 그 과정은 다음과 같다. 인스타그램의 API를 사용하기 위해 필요한 access_token을 받기 위해 인스타그램 개발자 페이지[13]에서 인증절차를 거친다. API를 이용하여 감정 형용사를 포함하고 있는 게시물 정보에서 해시태그만을 수집한다. 이때 수집한 해시태그는 각 감정 형용사 한 개 당 10,000건의 게시물의 해시태그를 무작위로 추출하였고, 총 40,000건의 게시물의 해시태그를 수집하였다. 이를 감정 형용사가 포함된 해시태그의 감정 키워드를 추출하기 위해서는 전처리 과정이 필요하다. 본 연구에서는 수집한 해시태그 데이터를 효과적으로 적용하기 위해 파이썬(Python)의 자연어 처리 라이브러리인 NLTK(Natural Language Toolkit)[14]를 이용한다. 먼저 전처리 과정의 첫 단계로 문장 내에서 단어별로 토큰화 한 뒤 숫자와 기호를 제거하는 불용어 삭제 단계와 POS(Part of Speech) 태깅 단계를 통하여 품사를 파악한다. 전처리 과정을 거친 해시태그 중에서 태그가 JJ인 즉, 형용사의 품사를 가진 단어들만을 추출한다. 이때, 형용사의 품사를 가지고 있는 JJR과 JJS도 함께 이용하여 태깅의 정확도를 높이기로 한다. 전처리 과정을 거쳐 추출된 형용사 리스트에서 감정 키워드를 추출하기 위해서는 먼저 단어들의 빈도수(Term Frequency)를 측정하여 빈도수가 높은 순으로 내림차순 정렬해 감정 키워드를 선정한다. 감정 키워드의 선정은 주요 감정과 동시 출현하는 빈도수의 횟수를 기준으로 수집한 데이터 개수의 0.01% 이상인 빈도수를 갖는 경우를 감정 키워드로 선정하였으며, 감정 형용사와 해당 감정 키워드 리스트의 각각의 단어가 일치하는 경우는 배제시켰다. Table 1은 제안하는 감정 형용사에 따른 해시태그 기반의 감정 카테고리를 나타낸다.

Table 1.Hashtag-based Sentiment Category

제시하는 감정 카테고리는 최상위 감정 키워드를 주요 감정으로 선정하고 이에 대해 각각 선정된 감정 키워드를 볼 수 있다. 즉, 기존의 오피니언 마이닝에서 활용하고 있는 극성 분류와는 달리 심리학적으로 정의된 Thayer의 모델을 바탕으로 실제 인스타그램에서 공유되는 감정을 적용하기 위하여 인스타그램의 핵심적인 요소인 해시태그를 이용하여 주요 감정에 대한 세부적인 감정 키워드를 분류함으로써 인스타그램에서 주로 공유되는 감정을 파악할 수 있다. 다음 절에서는 감정 키워드를 핵심 단서로 이용하여 사용자의 감정을 분석하는 방법에 대해 다룬다.

3.3 감정 카테고리를 활용한 사용자 감정 분석

인스타그램 내에서 사용자들은 Fig. 3과 같이 공유하고 싶은 게시물을 통해 다른 사용자들과 일상이나 의견, 정보 또는 감정 등을 공유하거나 댓글을 통해 공감하거나 공유할 수 있다.

Fig. 3.Instagram User Post.

본 절에서는 Fig. 3을 예로 들어 앞서 제안한 해시태그 기반 감정 카테고리를 인스타그램 사용자 게시물에 적용하여 감정을 분석하는 방법에 대해 기술한다. 먼저 감정을 분석하기 위한 대상으로는 게시물 하나를 기준으로 두었을 때, 게시물에 있는 게시글과 댓글의 정보를 통해 사용자의 감정을 파악할 수 있다는 것을 전제로 인스타그램의 사용자 게시물에서 객관적 판단이 가능한 게시글 자료인 텍스트 정보만을 수집하여 사용한다. 분석하는 기준은 사용자가 올린 게시물 하나를 기준으로 한다. 그 이유는 사용자들이 같은 감정으로 여러 개의 게시물을 게시하는 경우는 드물며 사용자의 게시물 전체나 부분적으로 데이터로 사용할 경우 그에 대한 데이터를 추출하는 데 있어서 기준뿐만 아니라 감정을 정의하는 데 모호한 문제가 있기 때문이다. 또한 각각의 게시물에 대한 시간 정보로 판단하였을 때에도 최근 게시물과 과거의 게시물에 담긴 감정이 지속되지 않기 때문이다. 따라서 각 하나의 게시물에 해당하는 주요 감정을 분석하기로 한다. 먼저, 사용자의 게시글을 추출하는 과정은 앞서 감정 형용사가 포함된 해시태그를 추출하는 과정과 유사하며, 사용자의 게시물을 추출하기 위해서는 userId 값의 고유번호가 필요하다. 이 값을 이용하여 게시물의 정보에서 글의 내용과 태그정보, 댓글 정보를 포함해 순수 텍스트 정보만을 읽어온다. 사용자의 게시글에서 감정 형용사 후보를 추출하기 위해서는 전처리 과정이 필요하다. 본 절에서는 불용어 제거, 토큰화, POS 태깅 단계 순으로 전처리 과정이 수행되며 Table 2는 Fig. 3의 userId 값을 이용하여 추출된 원본 게시글에서 각 단계에 대응하는 전처리 과정의 결과를 보여준다.

Table 2.A Part of Preprocessing Phase.

전처리 과정을 거친 사용자의 게시글에서 감정 형용사 후보를 추출하기 위해 형용사 품사를 가진 단어들을 대상으로 빈도수(Term Frequency)를 측정하여 높은 순으로 내림차순 정렬한 뒤 선정된 감정 형용사 후보를 추출한다. 이때 분석하고자 하는 대상이 게시물 한 개이기 때문에, 빈도수에 따라 상위 5개까지를 감정 형용사 후보로 정의한다. Fig. 3의 사용자 게시글에서는 감정 형용사 후보로 “happy, cute, adorable, beautiful, good'이 추출된다. 이를 제안한 해시태그 기반의 각각의 감정 카테고리와의 유사도 측정을 통해 나온 수치 중 최댓값을 가지는 감정 카테고리로써 사용자의 감정을 분석한다. 유사도란 두 개체의 유사한 정도를 수치적으로 측정할 수 있는 척도를 말한다. 본 연구에서 사용자의 감정을 분석하기 위해 유사도를 측정하기 위한 이유는 분석하고자 하는 사용자 게시글에서 추출한 감정 형용사 후보를 해시태그 기반으로 분류해놓은 감정 카테고리와 서로 어느 정도 유사하는지를 측정할 수 있는 기준이 필요하기 때문이다. 유사도 값을 측정하는 방법으로 코사인 유사도(Cosine Similarity)를 이용하였다. 코사인 유사도는 유사도 측정을 위한 대표적인 척도이며[15] 데이터 마이닝 분야에서 문서간의 유사도를 측정할 때 자주 사용된다. 식 (1)은 코사인 유사도를 계산하는 수식이며 이 값이 클수록 두 개체 사이의 유사도가 높다는 것을 말하고, -1에서 1사이의 값을 가지게 된다. 유사도의 값이 1일 경우는 서로 완전히 같은 경우를 의미하며, 0일 경우는 서로 독립적인 경우를, -1일 경우에는 서로 완전히 반대되는 경우를 뜻한다.

본 논문에서는 코사인 유사도가 문서나 텍스트에 적용될 경우 식 (1)의 벡터 A, B로 해당 텍스트의 단어 출현 빈도가 사용되는 특징을 가지고 있어 제안하는 감정 카테고리에 있는 감정 키워드와 추출된 감정 형용사 후보 각각의 단어 출현 빈도인 벡터 A, 벡터 B로 간주하여 유사도를 측정하기에 적합하다고 판단하였다. 따라서 식 (1)을 통하여 유사도의 값을 측정하고, 각각의 감정 카테고리의 감정 키워드와 유사도를 비교 측정하여 가장 높이 측정된 값을 최종적으로 사용자 게시물의 감정으로 판단하기로 한다. Fig. 4는 Fig. 3의 사용자의 게시글에서 추출된 감정 형용사 후보와 각각 감정 카테고리의 감정 키워드 사이의 유사도를 비교 측정한 결과를 나타낸 것이다.

Fig. 4.Similarity Measurement Result of User Post of Fig. 3.

Fig. 4에서는 Happy 카테고리에 대한 유사도 값이 가장 높게 측정되었으므로 Fig. 3의 게시물에 해당하는 사용자의 주요 감정은 ‘Happy'라고 정의할 수 있다. 이를 통해 한 게시물 내에서도 크게 4지의 감정들이 분포하지만 그 중에서도 한 가지의 주요 감정으로 판단할 수 있게 된다. 일반적인 문서 검색의 응용으로 문서간의 유사도를 구하기 위해 해당 문서를 분석하여 추출한 다수의 단어를 바탕으로 사전에 생성된 색인어와 유사도를 측정한다. 이에 본 논문에서는 인스타그램 내에서 사용되는 해시태그를 이용하여 제시한 감정 카테고리의 감정 키워드와 실제 인스타그램 사용자 게시글의 감정 형용사 후보 간의 유사도를 측정함으로써 감정 카테고리의 감정 키워드를 색인어로 사용하여 비교 대상이 적합하다고 판단되며, 감정 어휘를 나타내는 형용사 품사의 출현 빈도를 속성 값으로 측정한 유사도를 통해 해당 게시물의 사용자 감정을 판단할 수 있어 주관적인 감정에 대한 모호함을 객관적으로 해결할 수 있다.

 

4. 실험 결과 및 고찰

본 논문에서 실험에 사용된 인스타그램의 게시물은 Happy, Angry, Peaceful, Sad 네 개의 범주를 대상으로 제안한 감정 카테고리의 정확률 계산을 위해 각 카테고리 당 게시물 250건씩 수집한 게시물에 순차적으로 번호를 부여하여 총 1,000건의 실험 데이터 셋을 구축하였다. 본 논문의 실험은 제안한 분류 방법인 해시태그 기반 감정 카테고리에 대한 효율성을 평가하기 위해 정확률(Precision)을 이용하였으며, 식 (2)와 같이 계산된다.

정확률은 제안한 감정 카테고리를 이용하여 분류한 결과의 정확성을 평가하는 것이며 본 논문에서는 제시한 감정 카테고리에 의해 분류된 게시물의 수중 감정 카테고리에 의해 올바르게 분류된 게시물의 수로 Precision을 판단하였다. 제안하는 해시태그 기반 감정 카테고리의 성능을 식 (2)의 정확률을 이용하여 평가한 결과를 Fig. 5과 같이 그래프로 나타내었다.

Fig. 5.Precision of Hashtag-based Sentiment Category.

정확성 평가는 각 감정 카테고리별 정확률과 감정 카테고리에 대한 정답률을 평균화하여 도출하였다. 전체적으로 분류된 결과는 평균 90.7%의 정확성을 보여 제안한 감정 카테고리의 효율성을 입증하기에 만족할만한 결과를 보여주었다. 각 감정 카테고리별 결과에서는 Angry 카테고리가 가장 높은 정확률을 보였고, Happy 카테고리가 두 번째를 이은 것으로 보아 감정의 극성이 뚜렷할수록 높은 정확성을 보인다는 것을 알 수 있었다. 각각의 감정 카테고리들의 오분류된 결과를 분석해 본 결과 Happy 카테고리에서 올바르지 않게 분류된 정보는 대부분 Peaceful 카테고리에 해당되었으며, Peaceful 카테고리에서 올바르지 않게 분류된 정보는 대부분 Happy 카테고리에 해당하였다. 이를 통해 두 감정 카테고리가 어느 정도 상관관계가 있다는 것을 알 수 있었다. 그 중 Peaceful 카테고리에서 Happy 카테고리로 오분류된 정보에서는 Happy 카테고리의 감정 키워드인 'good'이라는 키워드가 크게 영향을 미친 것으로 분석되었다. Angry와 Sad 카테고리에서는 오분류된 결과를 분석한 결과 두 카테고리가 대부분 Happy 카테고리에 해당되었다. 이 두 감정 카테고리에서 오분류된 정보들은 대부분 사랑과 관련된 슬픈 글귀나 슬픈 노래가사 등에 자주 등장하는 지나간 사랑의 그리움, 아름다운 추억을 표현하는 ‘beautiful'과 ’good'이라는 키워드가 크게 영향을 미친 것으로 작용하였다. 이러한 점들을 극복하기 위해서는 향후에는 제안하는 감정 카테고리의 감정 키워드를 선정하는 데 있어 ‘good'이나 ’beautiful'과 같이 영향을 많이 미치는 키워드들에 대한 가중치를 부여하거나 더욱 세부적인 기준을 두어 오분류 사례를 줄이는 연구가 필요할 것으로 판단된다.

 

5. 결 론

본 논문에서는 인스타그램의 핵심적 요소인 해시태그를 이용하여 감정을 분류하여 주요 감정에 대한 감정 키워드를 추출하여 감정 카테고리를 제시하였고, 이를 사용자 게시물에 적용하여 게시글의 감정 형용사 후보와 감정 카테고리의 감정 키워드와의 유사도 측정을 통해 감정을 분석하는 방법을 제안하였다. 제안하는 방법의 특징으로는 오피니언 마이닝에서 활용하고 있는 극성 분류와는 달리 심리학적으로 정의된 Thayer의 모델을 기준으로 감정을 분류하였고 해시태그를 이용하여 감정 카테고리를 제안함으로써 실제 인스타그램에서 공유되는 감정을 적용하였다는 점이 있다. 제안 방법에 대한 실험 결과 전체 감정 카테고리에 대한 평균 정확률은 90.7%로 좋은 성능을 보였다. Angry 카테고리에서는 93.2%로 가장 높은 정확률을 보여주었고, Happy 카테고리는 92.8%, Sad 카테고리는 90.4%, Peaceful 카테고리는 86.4% 순으로 분석되었다. 본 연구는 감정 분류의 정확성 향상과 오분류율을 최소화하기 위해 대표 감정으로 Happy, Angry, Peaceful, Sad를 카테고리로 선정하여 감정 카테고리를 제시하였으나 향후에는 4가지 감정 외에 분류될 수 있는 감정을 추가로 선정하여 확장한다면 사용자의 감정을 보다 세밀하게 분석할 수 있는 연구가 될 것이라 생각된다. 본 논문의 향후 연구 방향으로는 감정 카테고리의 감정 키워드를 선정함에 있어 영향을 많이 미치는 키워드들에 대한 오분류율을 줄이는 연구가 필요하다. 또한 본 연구는 텍스트를 이용하여 추출한 감정 형용사만을 가지고 연구하였으나, 감정을 표현할 수 있는 이모티콘이나 감정을 품고 있는 다른 품사를 활용하는 방법 등의 확장된 연구로 이어져야 할 것이다. 제안하는 방법을 통해 대용량의 감정 분류 체계가 갖춰진다면 SNS를 통한 주요 이슈나 사회적 현상 등 다양한 분야에 대한 감정 분석이 가능할 것으로 기대되며 나아가 SNS상에서 사용자 맞춤형 서비스나 추천서비스 또는 감성마케팅 등으로 활용될 것으로 기대된다.

References

  1. GlobalWebIndex, GWI Social Summary, 2014.
  2. B.S. Park, “Global SNS Present Condition and Implications,” Korea Information Society, Development Institute, Information & Communications policy, Vol. 26, No. 2, pp. 22-34, 2014.
  3. M.J. Nam, J.I. Kim, and J.H. Shin, “A User Emotion Information Measurement using Image and Text on Instagram-Based,” Journal of Korea Multimedia Society, Vol. 17, No. 9, pp. 1125-1133, 2014. https://doi.org/10.9717/kmms.2014.17.9.1125
  4. J.I. Kim, D.J. Choi, B.K. Ko, E.J. Lee, and P.K. Kim, “Extracting User Interests on Facebook,” International Journal of Distributed Sensor Networks, Vol. 2014, Article ID 146967, pp. 1-5, 2014.
  5. C.H. Lee, D.H. Choi, S.S. Kim, and S.W. Kang, "Classification and Analysis of Emotion in Korean Microblog Texts,” Journal of Korean Institute of information Scientists and Engineers : Databases, Vol. 40, No. 3, pp. 159-167, 2013.
  6. D.Y. Kim, Y. Wu, and H.R. Park, “Constructing an Evaluation Set for Korean Sentiment Analysis Systems Incorporating the Category and the Strength of Sentiment,” The Journal of the Korea Contents Association, Vol. 12, No. 11, pp. 30-38, 2012. https://doi.org/10.5392/JKCA.2012.12.11.030
  7. M.S. Chang, “Empirical Sentiment Classification using Psychological Emotions and Social Web Data,” Journal of Korean Institute of Intelligent Systems, Vol. 22, No. 5, pp. 563-569, 2012. https://doi.org/10.5391/JKIIS.2012.22.5.563
  8. K.D. Rosa, R. Shah, B. Lin, A. Gershman, and R. Frederking, "Topical Clustering of Tweets," Proceeding of the ACM SIGIR : SWSM, pp. 1-8, 2011.
  9. X. Wang, F. Wei, X. Liu, M. Zhou, and M. Zhang, "Topic Sentiment Analysis in Twitter : A Graph-based Hashtag Sentiment Classification Approach," Proceedings of the 20th ACM International Conference on Information and Knowledge Management, pp. 1031-1040, 2011.
  10. N. Gunawardena, J. Plumb, N. Xiao, and H. Zhang, Instagram Hashtag Sentiment Analysis, University of Utah, Utah, 2013.
  11. R. Thayer, The Biopsychology of Mood and Arousal, Oxford University Press, New York, 1989.
  12. H.S. Lee, A Thesis on Apply Emotion to Location-Based Service, Master's Thesis of KonKuk University, 2013.
  13. Instagram Developer Documentation(2013), https://instagram.com/developer/ (accessed April, 1. 2015).
  14. Natural Language Toolkik(2009), https://www.nltk.org/ (accessed April, 1. 2015).
  15. E.J. Kwon, J.W. Kim, N.J. Heo, and S.G. Kang, "Personalized Recommendation System using Level of Cosine Similarity of Emotion Word from Social Network," Journal of Information Technology and Architecture, Vol. 9, No. 3, pp. 333-344, 2012.

Cited by

  1. An Analysis of Relationship Between Word Frequency in Social Network Service Data and Crime Occurences vol.5, pp.9, 2016, https://doi.org/10.3745/KTCCS.2016.5.9.229
  2. 텍스트 분석 기술 및 활용 동향 vol.42, pp.2, 2017, https://doi.org/10.7840/kics.2017.42.2.471
  3. SNS 특징정보를 활용한 마르코프 논리 네트워크 기반의 단문 텍스트 분류 방법 vol.20, pp.7, 2015, https://doi.org/10.9717/kmms.2017.20.7.1065
  4. 패션 인스타그램의 정보제공 주체(브랜드 vs 소비자)에 따른 소비자 인식 -신뢰성, 유용성, 유희성을 중심으로- vol.42, pp.3, 2015, https://doi.org/10.5850/jksct.2018.42.3.379
  5. SNS의 해시태그를 이용한 감정 단어 수집 시스템 개발 vol.27, pp.2, 2015, https://doi.org/10.5859/kais.2018.27.2.77
  6. 인스타그램(Instagram)에서 브랜드 화장품 정보 제공 유형에 따른 콘텐츠 정보 속성과 이용자의 태도 분석 vol.16, pp.10, 2015, https://doi.org/10.14400/jdc.2018.16.10.399
  7. An Analysis of Instagram Hashtags Related to the Exhibitions in Korea vol.24, pp.3, 2019, https://doi.org/10.9708/jksci.2019.24.03.049
  8. An Analysis of Instagram Hashtags Related to the Exhibitions in Korea vol.24, pp.3, 2019, https://doi.org/10.9708/jksci.2019.24.03.049
  9. 지속가능 패션 브랜드 광고의 색채와 표현형식이 소비자의 감정과 인식에 미치는 영향 - 인스타그램 중심으로- vol.21, pp.4, 2015, https://doi.org/10.5805/sfti.2019.21.4.432
  10. A Study on the Emotion Analysis of Instagram Using Images and Hashtags vol.17, pp.9, 2019, https://doi.org/10.14801/jkiit.2019.17.9.123
  11. The Effects of SNS Characteristics and Clothing Shopping Orientation on Purchase Intention of Fashion Products in Instagram Market vol.28, pp.6, 2015, https://doi.org/10.5934/kjhe.2019.28.6.629
  12. Generative probabilistic model with Dirichlet prior distribution for similarity analysis of research topic vol.23, pp.4, 2015, https://doi.org/10.9717/kmms.2020.23.4.595
  13. Topic2features: a novel framework to classify noisy and sparse textual data using LDA topic distributions vol.7, pp.None, 2021, https://doi.org/10.7717/peerj-cs.677
  14. Using graph embedding and machine learning to identify rebels on twitter vol.15, pp.1, 2015, https://doi.org/10.1016/j.joi.2020.101121
  15. The Effect of Social Media Content Types on User Reactions: Focused on a Case Study of Kew Gardens vol.24, pp.2, 2021, https://doi.org/10.11628/ksppe.2021.24.2.209
  16. Recognition of Emotion from Emoticon with Text in Microblog Using LSTM vol.6, pp.3, 2015, https://doi.org/10.25046/aj060340
  17. Instagram Data Feasibility Study for Analysis of University Reputation vol.19, pp.11, 2015, https://doi.org/10.14801/jkiit.2021.19.11.115