트위터를 통해 자주 묻는 질문에 대한 대답들을 정리해 놓았습니다.
궁금한 점이 있으면 dw@oiko.cc나 @oikolab으로 질문해 주세요.기본적으로 트위터에서 한국인에 대한 정보를 제공해 주지 않기 때문에 얼마나 많은 한국인이 트위터를 사용하는지에 대한 정보가 없습니다. TKI는 이에 대한 기본적인 정보를 제공해 주는 것이 목적입니다. 한국인이 트위터에서 어떠한 이야기들을 하고 있는지 그 속에 있는 다양한 의견과 정보를 추출해 한글을 사용하거나 한국에 살고 있는 사용자들에게 좀 더 유용한 트위터가 될 수 있게 하는 것이 최종 목표입니다.
한글을 사용하는 경우 (실제 외국인도 한글을 사용하는 경우가 있기 때문에 언어로 한국인이라 판단하기 어렵습니다.)
위치가 한국인 경우 (지명과 GeoTag등의 위치로 판단합니다.)
한국인으로 인식 되었지만 실제 외국인의 경우도 발생할 수 있습니다. 이는 한글이 프로필이나 트윗에 존재할 경우입니다. 특히, 한류로 한국인 연예인을 좋아하는 팬이 상당수 존재하고 있습니다. 이들이 한글을 사용하는 경우가 빈번히 눈에 띄는데 이런 경우 한국인으로 인식합니다. 반대로, 영어나 일본어 등의 외국어만 사용하는 사용자의 경우 한국인으로 인식되지 않습니다.
TKI에서 집계하는 수는 계정수 입니다. 같은 사용자가 다수의 계정을 만들어 사용하는 경우가 있기 때문에 집계 수치를 사용자수라고 하기보다 계정수라고 하는 것이 맞습니다. 하지만, 대부분 1인 1계정을 사용하기 때문에 사용자수와 계정수는 거의 근접하다고 할 수 있겠습니다.
TKI에서 제공하는 트위터 한국인 계정 수는 추정치가 아니라 실제 수집한 수 입니다. 수집된 계정 수 만큼의 계정 정보를 보유하고 있기 때문에 어림짐작의 추정치와는 다릅니다.
TKI에서 제공하는 트위터 한국인 정보는 본 연구소가 구축한 클라우드 기반의 크롤링(Crawling)기술과 데이터마이닝(Data Mining) 기술을 바탕으로 수집하고 있습니다. 지속적인 신뢰성 확보를 위해 알고리즘을 개선하고 있습니다.
현재 로컬 서버 클러스터에서 수집과 분석을 수행하고 있고 상당부분 구글의 클라우드 서비스인 구글 앱엔진(Google AppEngine)과 아마존 웹서비스로 이전을 완료했습니다. 플랫폼은 GAE, AWS EC2/S3/Hadoop을 기반으로 합니다. OikoLab에서는 해당 기술에 대한 기술자문도 하고 있으니 관심있는 분은 문의해 주세요.
100만 명이 넘어서는 시점에서 다시 제공할 예정입니다.
현재 수집 프로세스 및 분석 프로세스는 자동화 되어 24x7로 운영되고 있습니다.
궁금한 점이 있으면 dw@oiko.cc나 @oikolab으로 질문해 주세요.
