2012년 4월 10일 화요일

빅 데이터(Big Data)

빅데이터(Big data)

아직까지 정확하게 정의내려진 것은 없지만,
빅데이터는 보통의 데이터베이스 소프트웨어로는 수집, 저장, 관리, 분석이 어려울 정도로 많은 데이터를 의미한다.
빅데이터에 대해 이야기할 때에는 보통 다음의 세가지 측면에서 이야기한다.
  • 양(Volume): 저장할 데이터의 양과 의미 분석과 데이터 가공을 많이 해야 하는 처리 요구량
  • 속도(Velocity): 저장 속도와 처리 속도
  • 다양성(Variety): RDBMS에서 사용하는 테이블의 레코드와 같이 정형화되고 사전에 정의할 수 있는 정제된 형태의 데이터뿐만 아니라 텍스트, 이미지와 같은 비정형 데이터
이 세가지 측면에 데이터를 분석해야만 가치를 발생시킬 수 있다는 관점에서 '가치(Value)' 측면을 추가하기도 한다.

세계적인 컨설팅 기관인 맥킨지 앤드 컴퍼니[Mckinsey & Company]는 2011년 5월에 발간한 보고서 'Big Data : The Next Frontier for Innovation, Competition, and Productivity'에서 "빅 데이터의 정의는 기존 데이터베이스 관리 도구의 데이터 수집, 저장, 관리, 분석하는 역량을 넘어서는 데이터셋(Dataset)규모로, 그 정의는 주관적이며 앞으로도 계속 변화될 것이다. 또한 데이터량 기준에 대해 산업분야에 따라 상대적이며 현재 기준에서는 몇 십 테라바이트에서 수 페타바이트까지가 그 범위다"라고 설명한다.


빅데이터(Big data)의 종류

빅데이터의 데이터 종류는 정형화 정도에 따라 다음과 같이 분류된다.


 이중 비정형 데이터의 증가속도는 누구도 예측할 수 없는 정도이며, 비교적
선형적으로 증가하던 정형 데이터조차 연간 40~60%에 이르는 증가세를 보이고
있다.IT시장조사기관 Gartner는 2011년 1월 발간한 보고서 ‘Big Data Analytics’에서 기존
데이터 처리와 빅 데이터 처리에 대해 다음과 같은 차이점을 설명했다.

  • 빠른 의사결정이 상대적으로 덜 요구된다 : 대용량 데이터에 기반한 분석위주로, 장기적/전략적 접근이 필요하다. 따라서 기존의 데이터 처리에 요구되는 즉각적인 처리속도와는 달리, 즉각적인 의사결정이 상대적으로덜 요구된다.
  • 처리Processing 복잡도가 높다 : 다양한 데이터 소스, 복잡한 로직 처리,대용량 데이터 처리 등으로 인해 처리 복잡도가 매우 높으며, 이를해결하기 위해 통상적으로 분산 처리 기술이 필요하다.처리할 데이터양이 방대하다 : 클릭스트림Clickstream 데이터를 예로 들면,고객 정보수집 및 분석을 장기간에 걸쳐 수행해야 하므로 기존 방법과비교해 처리해야 할 데이터양은 방대하다.
  • 비정형 데이터의 비중이 높다 : 소셜 미디어 데이터, 로그 파일,클릭스트림 데이터, 콜 센터 로그, 통신 CDR 로그 등 비정형 데이터파일의 비중이 매우 높다. 처리의 복잡성을 증대시키는 요인이기도 하다.
  • 처리/분석 유연성이 높다 : 잘 정의된 데이터 모델/상관관계/절차 등이없어, 기존 데이터 처리방법에 비해 처리/분석의 유연성이 높은 편이다.또한, 새롭고 다양한 처리방법의 수용을 위해, 유연성이 기본적으로 보장돼야 한다.
  • 동시처리량Throughput이 낮다 : 대용량 및 복잡한 처리를 특징으로 하고 있어,동시에 처리가 필요한 데이터양은 낮다. 따라서 (준)실시간처리가 보장되어야 하는 데이터 분석에는 적합하지 않다.


빅데이터(Big data) 분석기법

위의 6가지 빅 데이터 처리의 특징을 만족시키기 위해 다양한 스토리지, 컴퓨팅
기술 및 분석기법들이 빅 데이터 처리를 위해 개발되었다. 빅 데이터 기술은 크게
분석기법과 분석 인프라 측면으로 나누어볼 수 있다.

대부분의 분석기법들은 통계학과 전산학, 특히 기계학습/데이터 마이닝 분야에서
이미 사용되던 기법들이며, 이 분석기법들의 알고리즘을 대규모 데이터 처리에
맞도록 개선하여 빅 데이터 처리에 적용시키고 있다. 최근 소셜미디어 등 비정형
데이터의 증가로 인해, 분석기법들 중에서 텍스트/오피니언 마이닝, 소셜
네트워크 분석, 군집분석 등이 주목을 받고 있다.

Text Mining
텍스트 마이닝은 비/반정형 텍스트 데이터에서 자연어처리Natural Language Processing
기술에 기반하여 유용한 정보를 추출, 가공하는 것을 목적으로 하는 기술이다.
텍스트 마이닝 기술을 통해 방대한 텍스트 뭉치에서 의미 있는 정보를 추출해
내고, 다른 정보와의 연계성을 파악하며, 텍스트가 가진 카테고리를 찾아내는 등,
단순한 정보 검색 그 이상의 결과를 얻어낼 수 있다. 컴퓨터가 인간이 사용하는
언어(자연어)를 분석하고 그 안에 숨겨진 정보를 발굴해 내기 위해 대용량
언어자원과 통계적, 규칙적 알고리즘이 사용되고 있다. 주요 응용분야로 문서
분류Document Classification, 문서 군집Document Clustering, 정보 추출Information Extraction, 문서요약Document Summarization 등이 있다.

Opinion Mining
텍스트 마이닝의 관련 분야로는 오피니언 마이닝, 혹은 평판 분석Sentiment
Analysis라고 불리는 기술이 있다. 오피니언 마이닝은 소셜미디어 등의 정형/비정형
텍스트의 긍정Positive, 부정Negative, 중립Neutral의 선호도를 판별하는 기술이다.
오피니언 마이닝은 특정 서비스 및 상품에 대한 시장규모 예측, 소비자의 반응,
입소문 분석Viral Analysis 등에 활용되고 있다. 정확한 오피니언 마이닝을 위해서는
전문가에 의한 선호도를 나타내는 표현/단어 자원의 축적이 필요하다.


Social Network Analytics
소셜 네트워크 분석은 수학의 그래프 이론Graph Theory에 뿌리를 두고 있다. 소셜
네트워크 연결구조 및 연결강도 등을 바탕으로 사용자의 명성 및 영향력을
측정하여, 소셜 네트워크 상에서 입소문의 중심이나 허브Hub 역할을 하는
사용자를 찾는데 주로 활용된다. 이렇게 소셜 네트워크 상에서 영향력이 있는
사용자를 인플루언서Influencer라고 부르는데, 인플루언서의 모니터링 및 관리는
마케팅 관점에서 중요하다고 할 수 있다.


Cluster Analysis
군집분석은 비슷한 특성을 가진 개체를 합쳐가면서 최종적으로 유사 특성의
군Group을 발굴하는데 사용된다. 예를 들어 트위터 상에서 주로 사진/카메라에
대해 이야기하는 사용자군이 있을 수 있고, 자동차에 대해 관심 있는 사용자군이
있을 수 있다. 이러한 관심사나 취미에 따른 사용자군을 군집분석을 통해 분류할
수 있다.




빅데이터(Big data)  분석의 활용효과

기업은 빅 데이터의 분석을 통해 경쟁환경을 이해하고 효과적으로 전략을 실행할 수 있는 기반을 강화 하고자 한다.




1) 소셜 네트워크의 구조와 정보전달 패턴 파악

소비활동에 영향을 주고 받는 소비자들의 소셜 네트워크 구조를 파악하여 효과적인 마케팅을 위한 기반 정보를 확보

       - 소비자들은 기업이 제공하는 정보보다 프로슈머(Prosumer), 커뮤니티의 동료 등이
         제공 하는 정보를 더욱 신뢰

       - 소셜미디어에 나타나는 정보의 경로를 분석하면 잠재적 소비자군과 이들이
       소속되어 있는 다양한 커뮤니티 구조를 파악하는 것이 가능

       - 정보의 발신력이 우수한 오피니언 리더 및 커뮤니티와 이들이 활용하는 정보 발신
       채널에 마케팅 노력을 집중함으로써 효과를 극대화



기업은 빅 데이터의 분석을 통해 경쟁환경을 이해하고 효과적으로 전략을 실행할 수 있는 기반을 강화 하고자 한다.


2) 사건의 징후와 전개 과정 감지

검색엔진이 제공하는 통계와 소셜미디어에 노출되는 메시지 등을 이용해 중요한 사건에 대한 징후와 경과를 파악

       - 매스 미디어를 통해 공론화 되지 못한 정보라도 검색엔진의 검색, 질의 기록의 형태로
       남아 있거나 소셜미디어를 통해 여론화되는 경우 빈번

       - 기업에 대한 검색 통계와 소셜미디어에서의 언급빈도 등을 모니터링하여 종래 고객
       소통에서 감지 할 수 없었던 정보를 획득하는 것도 가능


3) 경영자의 직관을 보완하여 효과적 의사결정 촉진

의사결정 과정에 투영되는 경영자의 직관을 데이터를 이용해 객관적으로 검증함으로써 의사결의 정확성을 제고

       - 복잡하고 불확실한 환경, 지나치게 많거나 적은 정보가 야기하는 혼란속에서 경영자는
       은 의사결정을 직관에 의지

       - 빅 데이터로 뒷받침되는 비즈니스 분석은 경영자의 직관을 보다 엄격하고 합리적인
       수준에서 검증


4) 전략실행 효과의 최적화

빅데이터의 수집 및 분석을 체계화하여 현황 파악에 걸리는 시간을 단축하고 전략실행 효과의 예측모형과 시나리오를 도출

       - 빅 데이터에서 관찰되는 다양한 요인이 성과에 미치는 영향을 파악하고, 이들 요인을
       변화시켜가며 여러 시나리오와 기대 성과를 보다 신속하게 계산가능

       - 시나리오별 성과를 비교하여 각각의 장단점을 분석하고 전략적 목표에 가장 부합하는
       최적의대안을 실행


5) 소비자와 공동 가치창출

소비자가 소셜미디어와 검색활동, 제품사용을 통해 유발한 정보를 기업경영 활동에 반영함으로써 새로운 가치창출의 접점으로 활용

       - 기존에는 쉽게 감지되지 않던 관련 정보를 체계적으로 수집하고 반영하는 행동이
       가시화되면 리스크를 최소화하고 기업 평판을 점진적으로 개선하는 것이 가능

       - 기업의 고위 경영진이 직접 소셜미디어 등을 활용하요 소통 채널을 운영하고
       이를 반영 하는 것은 긍정적 측면도 있지만 위헙도 상당

기업에 유용한 지식과 활동상을 가진 소비자드를 발견하여 보다 적극적으로 활동하고 커뮤니티를 만들어갈 수 있도록 지원

       - 빅데이터 분석 결과는 기업과 고객의 관계뿐 아니라, 궁극적으로는 고객과 고객의
       관계 형성을 촉진하는데 활용할 필요



출처 :
KT 종합기술원 보고서 [Big Data 시대의 기술]
SERI 경영노트 [정보홍수 속에서 금맥 찾기 , 빅 데이터 분석과 활용]
http://helloworld.naver.com/helloworld/29533
       

댓글 없음:

댓글 쓰기