"지도 학습 없고, 비용 발생 적고" 검색 엔진 기반의 감정 분석 시스템

상세페이지

  • HOME > 월별 특집 & 기획

"지도 학습 없고, 비용 발생 적고" 검색 엔진 기반의 감정 분석 시스템

HCI KOREA 2016
HCI KOREA 2016의 키워드는 '인터미션(Intermission)'이다. 콘서트, 뮤지컬 등에서 다음 장으로 넘어가기 전 잠시 갖는 휴식을 뜻하는 말. 지금의 IT 트렌드는 소셜 미디어, 빅데이터, 사물인터넷까지 넥스트 패러다임이 무엇일지 가늠할 수 있는 때, 이제 잠시 멈춰 새롭게 도래할 세상을 기다릴 시간이다. 다음 장이 오고 있음을 아는 채로의 멈춤은 그저 멈춤이 아니니까. 콘퍼런스 스케치부터 주요 프로그램 정리, 그리고 HCI 분야의 젊은 연구자들의 우수 논문까지 직접 선정해 알려드린다.


HCI 학문을 연구하는 석·박사 대학원생의 우수 연구 논문
① "지도 학습 없고, 비용 발생 적고" 검색 엔진 기반의 감정 분석 시스템
② 세게 누르면 튀어나온다? 3D 터치 인지반응 불일치 문제 연구
③ 당신이 모델하우스를 웹에서 본다면, 웹 기반 모델하우스의 활용가능성
④ 새로운 재질이 주는 경험, 젤리 인터랙션 디자인





① "지도 학습 없고, 비용 발생 적고" 검색 엔진 기반의 감정 분석 시스템

HCI KOREA 2016은 HCI 학문을 공부하는 석·박사 대학원생의 연구 논문 발표가 많다. 
그들은 콘퍼런스 참가자 중 가장 열정적이다. 디아이 매거진은 그들의 활약상을 담아보려 했다. 
무수히 많은 페이퍼 세션 중 여러분이 궁금할 것이라 판단한 연구 논문 네 편을 꼽아 발표자와의 인터뷰를 진행했다. 
첫 번째는 지도학습을 위한 비용이 필요 없는 온라인 커뮤니티 감정 분석 시스템을 새롭게 구축한 ‘덕후’들의 이야기다.

글. 이창민 기자 whale@websmedia.co.kr   사진. 이윤정 기자 lyj@websmedia.co.kr  


커뮤니티는 전문 지식을 갖춘 특정 성향의 사람들이 모이는 장소다. 이에 비즈니스 영역에서는 해당 분야의 커뮤니티 동향을 분석해 앞으로의 사업 방향에 활용할 수도 있다. 이를 ‘커뮤니티 감정 분석 시스템’이라 부른다.
특정 키워드, 예컨대 월드오브워크래프트(이하 WOW)가 ‘드래노어의 전쟁군주’란 이름의 신규 패치라면 이 키워드를 둘러싼 커뮤니티 내 감정어를 분석해 패치에 대한 사용자의 만족도 및 개선점을 도출할 수 있는 것이다. 이에 온라인 커뮤니티 분석을 위한 연구는 지금껏 무척 많았다. 주로 게시물의 조회 수나 댓글을 수집해 빅 테이터로 분석했다. 특정 키워드를 둘러싼 감정어를 분석하는 것도 좋은 방법이었지만, 복잡하고 어려운 분석 툴을 다루기 위한 지도학습이 필요했고, 이게 다 비용이었다. 게다가 이런 시스템은 분석 전 일정 기간 내 수집한 데이터를 활용한 방법인지라 초 단위로 새롭게 만들어지는 신조어에 대응하기도 힘들었다. 또한, 기존의 감정 분석 시스템은 ‘감정어 사전’이란 라이브러리를 활용하는 방식이었다. 국내는 누구나 쓸 수 있는 훌륭한 오픈소스 라이브러리 ‘오픈한글’이 있는데, 이는 방대한 데이터를 사전 수집해 체계화하는 사전 작업이 필요했다.
또한, 오픈한글의 감정 분석 시스템은 감정 키워드를 극정 위주로만 분류하는 방식. 그러니까, 특정 키워드에 대한 ‘호불호’만을 판단할 수 있다는 것이다. 우리의 감정이란 좋거나 혹은 싫거나로 단순하지 않은데. 이에 김영빈 외 4명의 연구자는 새로운 감정 분석 시스템이 필요하다고 생각했다. 감정어 사전이 아닌 검색엔진 기반으로 라이브러리 구축 비용이 없으며 신조어 파악도 가능하다는 장점까지 갖췄다. 단, 구글 검색 엔진은 비용이 발생한다. 50만 쿼리에 2,000달러 수준. 그래서 본 연구팀은 아무도 안 써서 아무리 써도 비용이 들지 않았다는 빙 검색 엔진을 채택했다. 원리는 이렇다. 우선 커뮤니티 크롤러(인터넷의 데이터를 자동으로 수집하는 시스템)를 통해 문서들의 제목, 본문, 작성일, 댓글 및 조회 수를 추출한다. 이중 제목은 감정 분석에, 본문은 키워드 추출에 쓰인다. 나머지는 데이터 중요도의 우선순위 정렬을 위한 기준으로 활용한다. 그렇게 만든 DB에 ‘키워드 + 감정어’로 검색어를 조합해 감정어를 분석한다.
감정어는 인간의 여덟 가지 기본 감정인 즐거움, 믿음, 두려움, 놀람, 슬픔, 혐오, 분노, 기대로 한정한다. 해당 키워드와 감정어의 거리가 가장 가까운 것으로 결과를 도출한다. 이 거리는 문서 내 단어 간의 단어 개수 단위다.
키워드와 감정어 간의 단어 수가 적은 것이 키워드에 대한 커뮤니티 내의 감정이다. ‘드래노어의 전쟁군주’란 키워드에 ‘분노(Anger)’란 감정어가 가장 가깝다는 결과가 나온다면, 블리자드는 패치를 어서 빨리 수정해줘야 할 것이다. 연구 결과 정확도는 70% 내외였다. 김영빈 씨는 알고리듬 고도화를 통해 정확도를 향상할 수 있을 것이라 답했다.
딥러닝(Deep Learning) 기술을 접목한 인공신경망(Neural Network) 모델을 설계해 기계 학습으로 오류 값을 점차 없애나가는 식이다. 본 모델이 완성된다면 앞으로의 감정 분석 시스템은 모두 검색 엔진 기반으로 패러다임이 바뀔 수도 있다. 활용 여지 또한 무궁무진하다. 데이터 수집이 어려운 해외 동향 역시 손쉽게 파악할 수 있어 글로벌 서비스를 운영하는 국내 모바일 스타트업 업계에 큰 보탬이 될 것이다.
김영빈 씨는 의학 커뮤니티 분석에 활용할 것이라 말했다. 사람들이 특정 질병에 가장 관심 있는 것이 예방법인지, 치료법인지, 혹은 증상에 대한 정보인지 등을 분석해 의료 복지를 더욱 고도화할 것이라는 목표다.


paper. 게임 커뮤니티 동향 분석을 위한 감정 분석 시스템
presenter. 김영빈 고려대학교 영상정보처리협동과정 외 4명 
url. conference.hcikorea.org/pds/2016/pdf/EA_014.pdf  

tags 디아이투데이 , ditoday , 월간 DI , 디아이 , DI 매거진 , 디아이 매거진 , 검색 엔진 기반 , 감정 분석 시스템 , 이창민 기자 , hci korea 2016 , 게임 커뮤니티 동향 분석 , 김영빈 , 고려대학교 , 감정

저작권자 © 웹스미디어 무단 전재-재배포 금지

뉴스콘텐츠는 저작권법 제7조 규정된 단서조항을 제외한 저작물로서 저작권법의 보호대상입니다.
본 기사를 개인블로그 및 홈페이지, 카페 등에 게재(링크)를 원하시는 분은
반드시 기사의 출처(로고)를 붙여주시기 바랍니다.
영리를 목적으로 하지 않더라도 출처 없이 본 기사를 재편집해 올린 해당 미디어에 대해서는 합법적인 절차(지적재산권법)에 따라
그 책임을 묻게 되며, 이에 따른 불이익은 책임지지 않습니다.

URL 복사 출력하기 목록보기 스크랩하기

관련기사

최신뉴스
월별 특집 & 기획
2016년은 VR의 시대인가?
월별 특집 & 기획
광고의 극단적 효율화, 프로그래머틱 광고에 대해
월별 특집 & 기획
"지도 학습 없고, 비용 발생 적고" 검색 엔진 기반의 감정 분석 시스템
월별 특집 & 기획
세게 누르면 튀어오른다? 3D 터치 인지반응 불일치 문제
월별 특집 & 기획
당신이 모델하우스를 웹에서 본다면, 웹 기반 모델하우스의 활용가능성

정기구독신청