ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 멋진 신세계 ③ - 지혜의 신세계, 빅데이터
    동향 공부 2020. 7. 13. 23:38
    반응형

     

    우리가 사는 지금을 빅데이터의 시대라 합니다. 그냥 많은 데이터가 아니고, 엄청나게 많은 데이터가 날마다 홍수처럼 밀려듭니다. 이 어마무시한 데이터들은 더 이상 어떤 사실이나 지식을 뒷받침하던 때를 지나, 데이터를 보고 그에 적합한 사실과 지식을 이끌어내는 시대가 되었습니다. 

     

    미국의 직장평가 기관인 글래스도어(Glassdoor)는 매년 유망 직업(Best Job) 50선을 발표하는데, Data Scientist, 즉 데이터 분석가 (우리나라에서는 데이터 과학자 보다는 데이터 분석가가 더 많이 통용되고 있어 데이터 분석가라고 칭하였습니다) 가 2016 ~ 2019년 4년 연속 1위로 선정되었습니다. (https://www.glassdoor.com/List/Best-Jobs-in-America-2019-LST_KQ0,25.htm)

    비록 올해 2020년에는 두 단계 내려와 3위가 되었지만, 데이터 분석은 현재 비즈니스에서 점점 더 중요해 지고 있습니다.

     

    모든 분야에 있어 데이터는 이제 가장 중요한 요소가 되었습니다.

    이번에는 빅데이터에 대해서 알아보도록 하겠습니다.

     

    1. 관찰

    빅데이터의 정의

    빅데이터란 크고 다양한 데이터에서 필요한 정보를 추출하는 기술이라고 할 수 있습니다.

    위키피디아에서는 다음과 같이 정의하고 있습니다.

    • 빅 데이터(big data)란 기존 데이터베이스 관리도구의 능력을 넘어서는 대량의 정형 또는 심지어 데이터베이스 형태가 아닌 비정형의 데이터 집합조차 포함한 데이터로부터 가치를 추출하고 결과를 분석하는 기술이라고 할 수 있습니다.  즉, 기존의 데이터 베이스로는 처리하기 어려울 정도로 방대한 양의 데이터를 의미합니다. (출처: 위키피디아) 

     

    빅데이터 기술은 Google 에서 시작되었다고 볼 수 있습니다. 

    구글이 맵리듀스(Map Reduce)를 세상에 공표한 2004년이 빅데이터 기술의 원년으로 볼 수 있습니다.

    2006년 빅데이터 처리를 위한 다양한 공개소프트웨어들이 모인 플랫폼인 하둡Hadoop 이 등장하면서, 빅데이터의 처리와 분석이 보다 쉬워졌다고 할 수 있습니다.

     

    빅데이터의 3V 와 4V

    • Volume : 크기
    • Variety : 다양성
    • Velocity : 속도
    • Value : 가치

     

    빅데이터의 주요 기술

    빅데이터의 가치를 이끌어내는 과정은 수집 → 처리 →  분석 의 단계로 진행됩니다. 각 단계의 주요 기술은 다음과 같습니다.

     

    수집

    • 스크래핑(Scraping): 웹페이지에 자동으로 접속하여 필요한 정보만 추출하는 기술

    • 웹 크롤링(Web Crolling): 링크를 타고 다니며 웹페이지 정보를 수집하는 기술

    처리

    • 맵리듀스(Mapreduce): 다량의 데이터를 효과적으로 분산처리 하는 기법으로 분할-정렬-병합을 하는 알고리즘

    • 하둡(Hadoop): 맵리듀스를 바탕으로 오픈소스 기반의 분산처리 컴퓨팅 플랫폼

    분석

    • 비즈니스 인텔리전스(BI, Business Intelligence): 기업이 보유한 많은 데이터를 정리하고 분석하여 효율적인 의사결정을 하는 방법 또는 이를 지원하는 소프트웨어로 빅데이터를 분석하여 가치를 창출하는 기술이라 할 수 있다.

    • 시각화(Visualization): 빅데이터 분석 결과를 쉽고 직관적, 시각적으로 표현하여 전달하는 기술

     

    2. 통찰 - 빅데이터를 해석하라!

    시민 데이터 과학자 (Citizen Data Scientist)란 말이 있습니다. 데이터 분석에 대한 전문가는 아니지만, 현장의 경험을 바탕으로 실제로 비즈니스에 필요한 분석 결과가 무엇인지, 그 결과를 얻기 위해 필요한 데이터가 무엇인지 정확히 파악할 수 있는 사람입니다. 

     

    Gartner에서는 각 산업별 전문 지식을 보유한 업종 전문가가 직접 분석을 수행하는 Citizen Data Scientist 라는 역할을 정의하여, 업종 전문가가 직접 분석을 수행하는 Self-Analytics 환경에 활발해질 때, 비로소 유의미한 데이터 분석이 가능할 것으로 전망하고 있습니다. 더불어 2020년에 이르면 Citizen DS가 수행하는 분석량이, 전문 DS의 분석량을 추월할 것으로도 예상하고 있습니다. (출처: https://www.samsungsds.com/global/ko/support/insights/biz_case_1.html)

     

    데이터 분석은 더 이상 전문가들만의 전유물이 아닙니다.

    나의 영역에서 데이터를 해석할 수 있어야 할 것입니다.

     

     

    3. 성찰 - 큐레이션 능력을 키워라!

    앞서 빅데이터 특징 3V를 Volume, Variety, Velocity 로 정의했습니다.

    • Volume: 데이터 양 방대

    • Variety: 데이터 형식, 내용의 다양성

    • Velocity: 데이터 발생, 진행 속도가 빠름

    또다른 3V 로도 정의할 수 있습니다.

    • Vogue: 빅데이터의 흐름을 주시하며

    • View: 나만의 관점을 가지고

    • Value: 필요한 가치 창출이 중요

    즉, 데이터의 'Big'한 가치를 끌어내는 것이 핵심이며, 이러한 일을 하는 사람을 데이터 사이언티스트라고 합니다.

     

    데이터 사이언티스트(Data scientist) 는 빅데이터를 분석하여 업무 목적을 달성하는 전문가로, 하버드 비즈니스 리뷰에서 '21세기의 가장 섹시한 직업' 으로 선정되기도 한 만큼 새로운 디지털 혁명시대에 어울리는 영역이라고 할 수 있습니다. 또한 넘치는 데이터 홍수 속에서 필요한 내용만 수집하고 처리해 분석하여 가치만 뽑아주는 큐레이터라 할 수 있습니다. 

     

    빅데이터에 있어 가장 중요한 재료는 '개인정보'

    빅데이터는 많은 것을 가능하게 해주고, 우리에게 새로운 가치를 선사하지만, 절대 공짜는 없습니다. 

    빅데이터에 있어 가장 중요한 재료는 단연코 개인정보 입니다. 

    내가 흘린 데이터, 나의 삶의 부스러기들이 빠짐없이 수집되고 있습니다. 나도 모르는 사이에 내 데이터가 분석되고 있습니다. 흔히들 빅브라더라고 하죠. 수집되고 분석된 데이터가 빅브라더의 탐욕을 위한 지혜가 될 수도 있습니다. 결국 누군가의 목적을 위해 이용되고 있음을 인지하고, 두눈 부릅뜨고 지켜보아야 합니다. 

    반응형

    댓글

Designed by Tistory.