웹 개발 메모장

빅데이터를 시작하기 위해 알아야 할 것들 본문

옛날../CEO를 위한 빅데이터

빅데이터를 시작하기 위해 알아야 할 것들

도로롱주 2018. 10. 9. 17:35







빅데이터를 시작하기 위해 알아야 할 것들




빅데이터를 활용하여 얻을 수 있는 가장 큰 효과는 미래에 대한 예측에 있다.


영화 '더 킹'을 보면 누가 대통령으로 당선될 지를 무당이 예측을 하는 장면이 나오는데 그러한 예측을 데이터를 사용해서 하는 것이 빅데이터에서 이야기하는 예측이며, 예측은 빅데이터가 그 가치를 발휘하는 가장 핵심이 되는 영역입니다.



사람과 조직과 기계와 환경의 변화를 미리 알 수 있다면,  우리가 할 수 있는 것은 너무나 많습니다.

고장날 신호등을 미리 안다면 미리 고쳐두면 고장을 막을 수 있고 겨울에 빙판이 될 교차로를 안다면 미리 제빙조치를 할 수 있으며 어떤 직원이 갑자기 퇴사할 지 안다면 미리 대체인력을 키울 수 있습니다.

공공이든 민간이든 정확한 예측은 경쟁력이 될 수 밖에 없습니다.

이 때문에 이미 많은 조직들이 다양한 분야에 이 데이터를 활용한 예측을 적극적으로 시도하고 있습니다.




빅데이터를 확보한다고 해서 예측이 저절로 되는 것이 아니다.


빅데이터를 분석해야만 가치있는 정보를 얻을 수 있습니다.

빅데이터 분석이란 빅데이터에서 패턴이나 모델 등을 찾는 행위를 말합니다.


우리가 일상적으로 사용하는 패턴이라는 단어는 반복해서 나타나는 모양을 말하는데 반복이 많지 않더라도 일정한 구조가 보이면 패턴이라고 부릅니다.

날씨가 흐리면 잠시 후에 비가 내린다는 것 또한 패턴이 될 수 있습니다.

패턴은 일상에서 흔히 보이는 것이지만 반드시 반복된다는 보장은 없습니다.

날씨가 흐리기만 할 수도 있기 때문이다.




반면 모델은 패턴보다는 반복적으로 일어나는 것을 수학공식처럼 형식을 갖춰 정리한 것입니다.

키는 몸무게와 몇 배의 관계를 가진다는 것이 비록 오차가 크기는 해도 하나의 모델의 예가 될 수 있습니다.




의사결정나무는 경우의 수 내지는 확률을 그림으로 표현한 것으로, 데이터로부터 자동으로 만들어집니다.






정확도가 높으면 좋은게 맞는데 정확도가 무엇인가?


물론 정확도가 좋으면 좋은 것은 맞습니다.

정확도에 대해 오해할 수 있는 부분이 있는데 100개의 신호등한달 내 고장날 신호등을 찾는 정확도에 대해 이야기해봅시다.

모델1, 모델2 두 가지 모델로 예측을 했다고 합시다.

한달 뒤 100개의 신호등 중 10개의 신호등이 고장났습니다.

이 때 모델1은 고장난 10개의 신호등 중 5개를 예측했고, 모델2는 고장난 10개의 신호등 중 9개를 예측했다고 하면 모델1고장 예측률50%가 되고, 모델2고장 예측률90%가 됩니다.

그렇다고 해서 모델2가 더 정확도가 높다고 아직 얘기할 수 없습니다.

고장나지 않은 90개의 신호등에 대해 모델15개가 고장날 것이 라고 예측했고 모델250개가 고장날 것이라고 예측했다면, 이때의 정확도를 구해보면

모델1은 총 100개중 고장날 신호등을 고장날거라고 예측한 5개 + 고장 안난 신호등을 고장 안날거라고 예측한 85개를 맞췄으므로 정확도는 (5+85)/100, 90%가 되고

모델2는 총 100개중 고장날 신호등을 고장날거라고 예측한 9개 + 고장 안난 신호등을 고장 안날거라고 예측한 40개를 맞췄으므로 정확도는 (9+40)/100, 49%가 됩니다.



실제 고장남

실제 고장 안남

모델1

 고장 날 것이라고 예측

5

5

 고장 나지 않을 것이라고 예측

5

85

모델2

 고장 날 것이라고 예측

9

50

 고장 나지 않을 것이라고 예측

1

40



최소한 이 정도 간단한 계산은 할 수 있어야만 데이터를 활용한 경영에서 당신이 최종 의사결정을 내릴 수 있습니다.

아니라면, 매우 중요한 문제에 대해, 틀린 계산을 이유도 모르고 주장하거나 따르게 될 것입니다.




빅데이터를 분석하는 사람들, 데이터 과학자란?


빅데이터에서 원하는 답을 찾는 것은 마법이 아닙니다.

이를 수행하기 위해 데이터 과학자가 필요합니다.

그들이 하는 일은 다음과 같습니다.

조직 내에 있는 데이터뿐만 아니라 추가로 어딘가에 있을 외부 데이터를 수집하고(데이터 확보)

스스로 데이터를 처리해서 최종 결과에 맞도록 변형시키고(데이터 가공)

수많은 실험을 거쳐 방대한 데이터로부터 원하는 패턴을 찾아 모델을 만들어 미래를 예측하고(패턴 발견)

당신이 이해할 수 있는 눈높이에서 요약 및 설명하고 뿐만 아니라 당신이 선택할 수 있는 대안도 개관적으로 제안을 합니다.(설명과 대안 제시)



물론 단점도 있습니다. 실력있는 데이터 과학자는 찾기가 힘들고 찾더라도 몸값이 비쌉니다.

그러나 그 투자는 당신과 조직에 백배의 이득을 주게될 것이며, 그 때문에 전 세계가 데이터 과학자 발굴에 혈안이 되어 있는 것입니다.




데이터가 모두의 이익을 위해 개방된다. 공공 데이터.


공공기관들이 업무상 수집하게되는 많은 데이터들을 외부에 공개하고 있습니다.

그 목적은 크게 두 가지로 볼 수 있는데 하나는 스스로 투명하게 업무를 수행하기 위한 것이고, 하나는 공개된 데이터를 이용해 기업 등 민간 분야에서 새로운 기회를 만들어 내는데 도움이 되고자 함입니다.

도로의 상태를 안다면, 도로에 적합한 타이어를 개발하는데 도움이 될 것이고, 진료내역의 흐름을 안다면 새로운 약을 개발하는데 도움이 될 것입니다.

이는 경제를 활성화시키고 사업과 일자리를 늘리는 결과로 연결될 것이며, 공공부문에서도 기관간의 데이터 공유와 매쉬업 활용을 통해 보다 나은 공공서비스 제공이 가능해질 것입니다.




전 세계가 이러한 공공 데이터를 공동의 자산으로 여기고 적극적으로 개방을 추진하고 있습니다.

이미 개방되어 있는 데이터를 제대로 활용하는 기업은 시장과 환경을 더 빠르고 정확하게 파악해서 경쟁력을 얻을 것이고, 아닌 기업은 도태될 수 밖에 없습니다.




빅데이터로 인한 기업들의 변화가 누군가에게는 기회가 된다.


과거에 큰 작업을 처리하기 위해서 큰 서버를 사용하는 방식이 최근에는 여러 컴퓨터에서 나누어 저장 및 처리하고 결과를 합치는 식으로 분산, 병렬처리하는 방식으로 바뀌어 가고있습니다.

또한 기존에는 데이터베이스에 정형화된 구조로만 데이터를 관리했다면 문서나 영상과 같은 다양한 구조의 데이터도 관리하고 분석합니다.





이 때문에 이런 새로운 기능들에 강점을 가진 업체들이 주목받고 있으며 IBM, 오라클 등뿐 아니라 다소 생소한 클라우데라호튼웍스와 같은 업체들이 등장하였고 통계분석에서도 기존에 잘 알려진 SAS, SPSS 등의 업체들 외에 다양한 업체들이 등장하고 있습니다.


구글Google Analytics라는 이름으로 펼치고 있는 데이터 분석 기능의 사업을 하고있는데 이를 통해 사용자에게 아주 간편하게 구글의 기술을 빌려주고 구글은 그로 인해 상당한 데이터를 축적할 수 있습니다.

컴퓨터 서버와 데이터 저장공간, 데이터 분석 소프트웨어를 빌려주는 서비스가 늘어나면서(대표적으로 아마존AWS), 이를 사용하는 조직은 컴퓨터 시스템을 자체로 가지지 않고도 필요한 데이터 관리와 분석을 필요에 따라 신축적으로 할 수 있는 클라우드 컴퓨팅(Cloud Computing)시대로 가고있습니다.


작은 기업이나 스타트업에게 이러한 변화는 분명 기회가 될 수 있습니다.



출처: 그림으로 2시간이면 이해하는 CEO를 위한 빅데이터 - 아이티엠지






Comments