더 정확한 데이터 분석 결과를 도출하려면?

0
… 통계(calculations)와 그래프를 모두 만들어라! 정확한 이해에 기여하는 이 두 결과물에 대한 연구를 해야 한다.

F. J. 앤스콤브(Anscombe), 1793년(데이터 시각화에 관한 거의 모든 강의에서 반복한…)

일반적으로 사람들은 데이터 시각화를 데이터 분석 결과를 다른 사람들에게 보여주기 위한 수단으로 보는 경향이 있다.

Photo by Kaleidico on Unsplash
Photo by Kaleidico on Unsplash

하지만 데이터 시각화는 단순히 데이터 분석 결과를 전달하기 위한 목적뿐만 아니라 정확한 분석을 위한 데이터 탐색 방법으로 활용되기도 한다. 데이터 분석 과정에서도 시각화가 중요한 역할을 한다는 의미다.

 

‘숫자’ 만 봐서는 인사이트를 알 수 없다.

 그림 1.22 동일한 요약 통계를 가진 데이터셋 4개(왼쪽), 왼쪽 데이터셋 4개를 시각화한 결과(오른쪽)
그림 1.22 동일한 요약 통계를 가진 데이터셋 4개(왼쪽), 왼쪽 데이터셋 4개를 시각화한 결과(오른쪽)

그림 1.22는 1973년 F. J. 앤스콤브(Anscombe)가 개발한 ‘앤스콤브의 4종류 데이터’다. 동일한 요약 통곗값(평균, 표준편차, 상관관계)을 가진 데이터셋(data set)을 산점도로 시각화했을 때 명확히 구별되는 시각적 패턴을 입증한다. 이에 따르면 요약 통곗값 정보만으로 데이터를 정확하게 파악할 수 없음을 이해할 수 있다. 우리는 요약 통곗값뿐만 아니라 시각화를 활용할 때 데이터를 정확하게 볼 수 있다.

 

정확한 이해를 위해서는 ‘보아야’ 한다.

오랜 시간 동안 인용돼온 ‘앤스콤브의 4종류 데이터’에 이어 같은 맥락의 새로운 연구 결과를 살펴보자. 오토데스크 리서치(Autodesk Research)에서는 「같은 통계, 다른 그래프: 시뮬레이션 어닐링을 활용한 다양한 형태의 동일한 통계 데이터셋 생성」37이라는 제목으로 같은 요약 통곗값을 갖고 있으나 시각화했을 때 시각적 패턴이 뚜렷하게 구분되는 12개의 데이터셋(Datasaurus Dozen)의 개발 결과를 발표했다.

 그림 1.23 데이터 공룡(Datasaurus Dozen) – 데이터셋은 소수점 두 자릿수 기준으로 같은 요약 통곗값(평균, 표준편차,상관계수)을 보여주지만, 시각적 패턴은 모두 다르다.
그림 1.23 데이터 공룡(Datasaurus Dozen) – 데이터셋은 소수점 두 자릿수 기준으로 같은 요약 통곗값(평균, 표준편차,상관계수)을 보여주지만, 시각적 패턴은 모두 다르다.

그림 1.23은 데이터 시각화 분야의 유명 인사인 알베르토 카이로(Alberto Cairo)의 데이터 셋인 데이터 공룡(Datasaurus: 정상적인 통계처럼 보이지만 시각화하면 공룡 모양의 형태를 보임)과 소수점 두 자리수를 기준으로 같은 요약 통곗값을 갖는 12개의 데이터셋을 시각화했을 때 시각적 패턴이 모두 다르다는 것을 보여준다.

데이터 분석 과정에서 시각화는 필수다.

두 가지 연구 결과를 바탕으로 우리는 데이터의 정확한 이해를 위해 데이터 분석 과정에서 시각화를 필수적으로 활용해야 한다는 점을 이해할 수 있다. 데이터 분석에서 ‘시각화’는 데이터의 정확한 이해를 위해, 또 쉽고 빠른 데이터 인사이트 발견을 위한 필수 요소라고 할 수 있다. 다른 한편으로 이를 ‘시각적 분석(Visual Analysis)의 필요성’이라고도 요약할 수 있다. 시각적 분석이란 데이터 분석 방법으로서 시각화를 활용하는 것이다. 시각화 차트를 만들 때 활용하는 데이터 변수, 수치 계산 방식, 차트 유형 등의 조건을 달리하면서 다른 형태로 표현 되는 시각화 차트의 시각적 패턴을 근거로 데이터 분석을 하는 것이다.

 


<참고자료>
Justin Matejka, George Fitzmaurice, 「Same State, Different Graphs : Generating Datasets with Varied Appearance and Identical Statistics through Simulated Annealing」, 2017, http://bit.ly/2RnJKtu
위키백과, ‘Anscombe’s quartet’, https://en.wikipedia.org/wiki/Anscombe%27s_quartet
Justin Matejka, George Fitzmaurice, 「Same State, Different Graphs: Generating Datasets with Varied Appearance and Identical Statistics through Simulated Annealing」, 2017, http://bit.ly/2RnJKtu

대표저자_강원영

 

원문보기

뉴스젤리
데이터 시각화 전문기업 뉴스젤리는 2014년에 설립되어, 누구나 데이터를 볼 수 있고, 쉽게 활용할 수 있어야 한다는 사명 아래 데이터 시각화 기술을 통한 데이터 민주화(Data Democracy)를 실현하고 있다. 지속적인 특허 경영을 통해 갖춘 기술력으로 데이터 시각화 솔루션 DAISY를 자체 개발했을뿐만 아니라, 시각화 차트 라이브러리 Jelly-Chart 기반의 맞춤형 시각화 대시보드 구축, 시각화 컨설팅 등 공공 및 기업에 다양한 시각화 서비스를 제공한다.

댓글

귀하의 의견을 입력하십시요.!
여기에 이름을 입력하십시요.