아직까지 정확하게 정의내려진 것은 없지만,
빅데이터는 보통의 데이터베이스 소프트웨어로는 수집, 저장, 관리, 분석이 어려울 정도로 많은 데이터를 의미한다.
빅데이터에 대해 이야기할 때에는 보통 다음의 세가지 측면에서 이야기한다.
- 양(Volume): 저장할 데이터의 양과 의미 분석과 데이터 가공을 많이 해야 하는 처리 요구량
- 속도(Velocity): 저장 속도와 처리 속도
- 다양성(Variety): RDBMS에서 사용하는 테이블의 레코드와 같이 정형화되고 사전에 정의할 수 있는 정제된 형태의 데이터뿐만 아니라 텍스트, 이미지와 같은 비정형 데이터
세계적인 컨설팅 기관인 맥킨지 앤드 컴퍼니[Mckinsey & Company]는 2011년 5월에 발간한 보고서 'Big Data : The Next Frontier for Innovation, Competition, and Productivity'에서 "빅 데이터의 정의는 기존 데이터베이스 관리 도구의 데이터 수집, 저장, 관리, 분석하는 역량을 넘어서는 데이터셋(Dataset)규모로, 그 정의는 주관적이며 앞으로도 계속 변화될 것이다. 또한 데이터량 기준에 대해 산업분야에 따라 상대적이며 현재 기준에서는 몇 십 테라바이트에서 수 페타바이트까지가 그 범위다"라고 설명한다.
빅데이터(Big data)의 종류
빅데이터의 데이터 종류는 정형화 정도에 따라 다음과 같이 분류된다.
선형적으로 증가하던 정형 데이터조차 연간 40~60%에 이르는 증가세를 보이고
있다.IT시장조사기관 Gartner는 2011년 1월 발간한 보고서 ‘Big Data Analytics’에서 기존
데이터 처리와 빅 데이터 처리에 대해 다음과 같은 차이점을 설명했다.
- 빠른 의사결정이 상대적으로 덜 요구된다 : 대용량 데이터에 기반한 분석위주로, 장기적/전략적 접근이 필요하다. 따라서 기존의 데이터 처리에 요구되는 즉각적인 처리속도와는 달리, 즉각적인 의사결정이 상대적으로덜 요구된다.
- 처리Processing 복잡도가 높다 : 다양한 데이터 소스, 복잡한 로직 처리,대용량 데이터 처리 등으로 인해 처리 복잡도가 매우 높으며, 이를해결하기 위해 통상적으로 분산 처리 기술이 필요하다.처리할 데이터양이 방대하다 : 클릭스트림Clickstream 데이터를 예로 들면,고객 정보수집 및 분석을 장기간에 걸쳐 수행해야 하므로 기존 방법과비교해 처리해야 할 데이터양은 방대하다.
- 비정형 데이터의 비중이 높다 : 소셜 미디어 데이터, 로그 파일,클릭스트림 데이터, 콜 센터 로그, 통신 CDR 로그 등 비정형 데이터파일의 비중이 매우 높다. 처리의 복잡성을 증대시키는 요인이기도 하다.
- 처리/분석 유연성이 높다 : 잘 정의된 데이터 모델/상관관계/절차 등이없어, 기존 데이터 처리방법에 비해 처리/분석의 유연성이 높은 편이다.또한, 새롭고 다양한 처리방법의 수용을 위해, 유연성이 기본적으로 보장돼야 한다.
- 동시처리량Throughput이 낮다 : 대용량 및 복잡한 처리를 특징으로 하고 있어,동시에 처리가 필요한 데이터양은 낮다. 따라서 (준)실시간처리가 보장되어야 하는 데이터 분석에는 적합하지 않다.
빅데이터(Big data) 분석기법
위의 6가지 빅 데이터 처리의 특징을 만족시키기 위해 다양한 스토리지, 컴퓨팅
기술 및 분석기법들이 빅 데이터 처리를 위해 개발되었다. 빅 데이터 기술은 크게
분석기법과 분석 인프라 측면으로 나누어볼 수 있다.
대부분의 분석기법들은 통계학과 전산학, 특히 기계학습/데이터 마이닝 분야에서
이미 사용되던 기법들이며, 이 분석기법들의 알고리즘을 대규모 데이터 처리에
맞도록 개선하여 빅 데이터 처리에 적용시키고 있다. 최근 소셜미디어 등 비정형
데이터의 증가로 인해, 분석기법들 중에서 텍스트/오피니언 마이닝, 소셜
네트워크 분석, 군집분석 등이 주목을 받고 있다.
Text Mining
텍스트 마이닝은 비/반정형 텍스트 데이터에서 자연어처리Natural Language Processing
기술에 기반하여 유용한 정보를 추출, 가공하는 것을 목적으로 하는 기술이다.
텍스트 마이닝 기술을 통해 방대한 텍스트 뭉치에서 의미 있는 정보를 추출해
내고, 다른 정보와의 연계성을 파악하며, 텍스트가 가진 카테고리를 찾아내는 등,
단순한 정보 검색 그 이상의 결과를 얻어낼 수 있다. 컴퓨터가 인간이 사용하는
언어(자연어)를 분석하고 그 안에 숨겨진 정보를 발굴해 내기 위해 대용량
언어자원과 통계적, 규칙적 알고리즘이 사용되고 있다. 주요 응용분야로 문서
분류Document Classification, 문서 군집Document Clustering, 정보 추출Information Extraction, 문서요약Document Summarization 등이 있다.
Opinion Mining
텍스트 마이닝의 관련 분야로는 오피니언 마이닝, 혹은 평판 분석Sentiment
Analysis라고 불리는 기술이 있다. 오피니언 마이닝은 소셜미디어 등의 정형/비정형
텍스트의 긍정Positive, 부정Negative, 중립Neutral의 선호도를 판별하는 기술이다.
오피니언 마이닝은 특정 서비스 및 상품에 대한 시장규모 예측, 소비자의 반응,
입소문 분석Viral Analysis 등에 활용되고 있다. 정확한 오피니언 마이닝을 위해서는
전문가에 의한 선호도를 나타내는 표현/단어 자원의 축적이 필요하다.
Social Network Analytics
소셜 네트워크 분석은 수학의 그래프 이론Graph Theory에 뿌리를 두고 있다. 소셜
네트워크 연결구조 및 연결강도 등을 바탕으로 사용자의 명성 및 영향력을
측정하여, 소셜 네트워크 상에서 입소문의 중심이나 허브Hub 역할을 하는
사용자를 찾는데 주로 활용된다. 이렇게 소셜 네트워크 상에서 영향력이 있는
사용자를 인플루언서Influencer라고 부르는데, 인플루언서의 모니터링 및 관리는
마케팅 관점에서 중요하다고 할 수 있다.
Cluster Analysis
군집분석은 비슷한 특성을 가진 개체를 합쳐가면서 최종적으로 유사 특성의
군Group을 발굴하는데 사용된다. 예를 들어 트위터 상에서 주로 사진/카메라에
대해 이야기하는 사용자군이 있을 수 있고, 자동차에 대해 관심 있는 사용자군이
있을 수 있다. 이러한 관심사나 취미에 따른 사용자군을 군집분석을 통해 분류할
수 있다.
빅데이터(Big data) 분석의 활용효과
기업은 빅 데이터의 분석을 통해 경쟁환경을 이해하고 효과적으로 전략을 실행할 수 있는 기반을 강화 하고자 한다.
1) 소셜 네트워크의 구조와 정보전달 패턴 파악
소비활동에 영향을 주고 받는 소비자들의 소셜 네트워크 구조를 파악하여 효과적인 마케팅을 위한 기반 정보를 확보
제공 하는 정보를 더욱 신뢰
기업은 빅 데이터의 분석을 통해 경쟁환경을 이해하고 효과적으로 전략을 실행할 수 있는 기반을 강화 하고자 한다.
2) 사건의 징후와 전개 과정 감지
검색엔진이 제공하는 통계와 소셜미디어에 노출되는 메시지 등을 이용해 중요한 사건에 대한 징후와 경과를 파악
3) 경영자의 직관을 보완하여 효과적 의사결정 촉진
의사결정 과정에 투영되는 경영자의 직관을 데이터를 이용해 객관적으로 검증함으로써 의사결의 정확성을 제고
4) 전략실행 효과의 최적화
빅데이터의 수집 및 분석을 체계화하여 현황 파악에 걸리는 시간을 단축하고 전략실행 효과의 예측모형과 시나리오를
도출
5) 소비자와 공동 가치창출
소비자가 소셜미디어와 검색활동, 제품사용을 통해 유발한 정보를 기업경영
활동에 반영함으로써 새로운 가치창출의 접점으로 활용
출처 :
KT 종합기술원 보고서 [Big Data 시대의 기술]
SERI 경영노트 [정보홍수 속에서 금맥 찾기 , 빅 데이터 분석과 활용]
http://helloworld.naver.com/helloworld/29533
댓글 없음:
댓글 쓰기