데이터와 데이터 사이언티스트 (Data and Data scientist)

 

데이터와 데이터 사이언티스트 (Data and Data scientist)

데이터 과학이란?

데이터의 사전적 의미: 양적, 질적인 변수 형태의 값으로 이루어진 것들

→ 빅데이터 시대에서는 양적, 질적이라고 정의하기 어려운 형태의 텍스트, 음성, 영상 모두 데이터의 범주에 들어가고 있지만, 궁극적으로 데이터 분석을 위해서는 사전적 의미의 잘 정돈된 형태로 정리되어야 한다.

  • 로널드 피셔: 현대적 의미의 데이터 분석의 창시자로, 로담스테드 연구소에서 수행한 수년간의 곡물 관련 실험결과를 연구하면 실험계획법을 창시.
  • 조지 갤럽: 사람들의 생각을 질문이나 문항을 통해 데이터로 수집하기 시작함. 갤럽 여론조사의 시초.
  • 윌리엄 페어 & 얼 아이작: 고객 행동 예측과 의사결정을 연계한 개념을 최초로 소개
    • 과거 결과에 대한 데이터를 활용하여 미래의 행동을 예측
    • 고객의 행동 및 기본 정보를 취득하여 의사결정에 활용
    • 데이터 분석결과로 인간의 편향적인 의사결정을 대체한 점

최근에는 사물에 센서나 데이터 취득이 가능한 인터넷을 연결하여 데이터를 수집하는 사물인터넷(IoT: Internet of Things)의 활용하여 각종 측정 장비나 센서 데이터, 로그 데이터 등을 분석하여 최적 공정조건을 찾거나 장비고장을 예측한다. 품질향상이라는 과제에서 출발하여, 공학자이자 통계학자인 다구찌 박사의 품질관리 이론이 정립되었다.

데이터과학은 데이터를 수집하여 그 의미를 찾아내기 위한 다양한 시도에 의해 형성되어 왔다. 데이터 분석에 국한하지 않고, IT기술 접목을 통해 데이터의 크기나 형태에 상관없이 데이터의 가치를 찾는 능력을 말한다.

 

 

빅데이터의 시대의 도래

빅데이터의 정의: 인터넷 환경위에 다양한 형태와 목적의 관계망을 형성하며 시시각각 정보를 생성, 교환하며 기존 데이터베이스 관리도구의 능력을 넘어서는 대량의 정형 또는 심지어 데이터베이스 형태가 아닌 비정형의 데이터 집합조차 포함한 데이터로부터 가치를 추출하고 결과를 분석하는 기술이다.

 

빅데이터의 특징과 의미

기존의 빅데이터의 공통적 특징은 IBM이 정의한 3V로 설명할 수 있다. 2001년 메타그룹(현재의 가트너)의 애널리스트 더그 레이니는 다음과 같은 3개의 단어로 정의하였다. Variety(다양성),Volume(규모),Velocity(속도). 이 3V 모델은 가장 널리 사용되는 빅데이터의 정의가 되었다. 하지만 2012년 가트너는 기존의 정의를 다음과 같이 개정하였다. “데이터는 큰 용량, 빠른 속도, 그리고(또는) 높은 다양성을 갖는 정보 자산으로서 이를 통해 의사 결정 및 통찰 발견, 프로세스 최적화를 향상시키기 위해서는 새로운 형태의 처리 방식이 필요하다.” 이에 더해, IBM은 정확성(Veracity)이라는 요소를 더해 4V를 정의하였고, 브라이언 홉킨스(Brian Hopkins) 등은 가변성(Variability)을 추가하여 4V를 정의하였다.

  • Variety(다양성): 여러 원천에서 생산되는 모든 데이터를 연결, 통합하여 분석
  • Volume(규모): 대규모의 데이터
  • Velocity(속도): 실시간으로 활용되는 분석결과

새로 추가된 V

  • Veracity(정확성): 데이터의 양이 많아지는 만큼 신뢰성이 떨어지기 쉽다. 따라서 빅데이터를 분석하는데 있어 기업이나 기관에 수집한 데이터가 정확한 것인지, 분석할 만한 가치가 있는지 등을 살펴야 하는 필요성이 대두되었고, 이러한 측면에서 새로운 속성인 정확성(Veracity)이 제시되고 있다.
  • Variability(가변성): 화자가 의도한 내용과 독자가 이해한 데이터가 맥락에 따라 의미가 달라진다고 하여 빅데이터의 새로운 속성으로 가변성(Variability)이 제시
  • Visualization(시각화)

가트너의 3V 정의가 여전히 널리 사용되고 있는 가운데, 데이터와 그것의 사용 방법에 있어서 빅데이터와 경영정보학의 차이가 점차 더 뚜렷하게 구분되고 있다.

경영정보학은 대상을 측정하고 경향을 예측하는 등의 일을 하기 위해 고밀도의 데이터로 구성된 기술적 통계를 활용한다. 빅 데이터는 큰 데이터 집합으로부터 일정한 법칙을 추론하여 결과 및 행동을 예측하기 위해 통계적 추론과 비선형 시스템 식별(nonlinear system identification)의 일부 개념을 활용한다.

빅데이터의 개념이 소개되기 전에 데이터웨어하우스(DW)라는 개념이 소개되었으며, IT와 데이터 분석이 결합된 데이터마이닝이 이미 활용되어져 왔다. 빅데이터는 크기와 형태의 다양성과 빠른 생성이라는 특징으로 데이터 과학자에게 좀 더 다양한 분석기술과 지식을 요구한다.

 

빅데이터 시대를 열었던 주요 기술

그동안 분석하기 위한 데이터 처리, 가공하는데 많은 시간과 비용을 들여야 했던 한계를 기술로 극복하기 시작했다.

구글은 다수의 컴퓨터 클러스터링을 통하여 엄청난 규모의 데이터를 처리, 분석할 수 있는 구글 파일 시스템과 맵리듀스 사상을 세상에 공개하였고, 비슷한 시기의 야후의 더그 커팅이 하둡(hadoop)이라는 프로젝트를 통해 이 두가지 기술을 공개 소프트웨어로 세상에 알리면서 빅데이터 시대가 도래하기 시작했다.

 

 

데이터 과학자란?

빅데이터 시대에는 데이터 분석가(Data Analyst)보다는 데이터 과학자(Data Scientist)라는 호칭을 사용하며 그에 부합하는 사람을 찾기 시작하였다.

  • 데이터 분석가는 주어진 데이터 분석 관련 일들을 전문적이지만 정형화된 방법과 도구로 해결하는 직업적이며 기능적인 호칭
  • 데이터 과학자는 데이터의 구조, 성질, 법칙 등 체계적이면서도 이론적인 지식쳬계로 해결하는 자에 대한 경칭
    → 관찰되는 모든 자연현상과 사회현상을 다루는 진정한 과학자의 능력을 요구

데이터 과학자라는 호칭은 피터 나우어 교수로 부터 비롯되었으며, 1997년 통계학자인 제프 우 교수는 “통계=데이터과학”이라고 정의하였다.

빅데이터 시대에 필요한 융합형 데이터 과학을 본격적으로 알린 사람은 퍼듀 대학의 윌리엄 클리블랜드 교수이며 데이터 과학자란 “통계학+컴퓨터공학”의 능력을 갖춘 사람을 의미한다.

데이터 과학자의 필요성은 빅데이터의 관심이 고조되면서부터 강화되었다고 볼수 있다. 빅데이터의 특징을 고려하여 다섯가지 측면에서 기본의 데이터 밑 데이터 분석과 비교하며 차이점을 정리해보면

기존의 데이터 빅데이터
데이터의 원천 내부(Internal) 외부 또는 소셜(Social + External)
데이터의 형태 구조적(Nearly Structured) 비구조적(Unstructured)
수집대상 데이터 축적된 데이터(data-in-rest) 실시간 생성 데이터(data-in-motion)
분석결과 활용 테이블, 단순 그래프로 구성된 보고서를 작성하는데 보조적인 역할 역동적인 데이터 시각화 및 분석 결과가 의사결정에 직접 적용
처리 및 분석환경 중앙처리 서버(DW+Server) 분산처리 및 클라우드 환경.(Distributed process+Cloud)

다섯가지 빅데이터의 특징을 토대로 데이터 과학자에게 요구되는 기술을 살펴보면 다음과 같다.

  • 데이터 분산처리 및 분석 컴퓨팅 기술
  • 통계엔진을 활용한 분석 구현기술
  • 데이터 시각화 기술
  • 실시간으로 대응하기 위한 비지니스 룰 설계 및 개발기술

 

데이터 과학자가 되려면

스와미 찬드라세카란은 2013년 기고한 데이터 과학자 되기-학과목노선도에서 총 10개의 종착역으로 표현된 주요 기술을 열거함.

Becoming a Data Scientist – Curriculum via Metromap (http://nirvacana.com/thoughts/2013/07/08/becoming-a-data-scientist/)

  1. 기본기술
  2. 통계학
  3. 프로그래밍
  4. 기계학습
  5. 텍스트마이닝/자연어 처리
  6. 데이터 시각화
  7. 빅데이터
  8. 데이터 가공 및 통합
  9. 데이터 표준화/변수 선택 등
  10. 기본 도구 활용

TheMarketingDistillery.com에서는 데이터 과학자 요구기술로 크게 4가지 능력을 갖추고 있어야 한다고 기술하였다.

  1. 수학 및 통계학
  2. 프로그래밍과 데이터베이스
  3. 도메인 지식과 소프트 스킬
  4. 커뮤니케이션과 시각화

 

데이터 과학자의 희소가치가 부각된 것은, 통계학, IT에 대한 숙련된 지식과 문제를 발굴하고 해결할 수 있는 능력 등 다양한 능력을 갖춘 데이터 과학자가 많지 않아 데이터 양에 따른 사회에서의 수요가 부족하기 때문이다.

진정한 데이터 과학자가 되기 위해서는 통계학, IT기술지식과 같은 기술적인 측면도 중요하지만 다양한 경험과 함께 스토리텔링, 문제를 해결하겠다는 집요함, 시각전 전달에 필요한 디자인 능력등 다양한 능력을 고루 갖추려는 노력이 필요하다.

You may also like...

댓글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다