서평

[책] SQL로 시작하는 데이터 분석

eunsour 2022. 8. 28.
반응형

 

 지금은 예전에 비해 데이터 분석이 매우 대중화됐다. 데이터 분석 기법과 관련된 자료를 찾기도 쉽고, 정부에서 공개한 공공 데이터나 캐글에 공개된 데이터를 분석한 자료도 많다. 하지만 자료에 데이터 마이닝 알고리즘, 머신러닝, 수학, 통계와 관련된 자료도 뒤섞여 있어 데이터 분석에 첫걸음 내딛는 사람이 참고하기에는 너무 어려운 경우가 많다. 

 

 이 책은 이제 막 SQL 문법을 공부한 사람이 데이터 분석을 실습하기에 적당한 기본 데이터 분석 기법을 다룬다. 데이터 삽입, 수정, 삭제보다는 SELECT 문을 활용해 데이터를 원하는 대로 분석하는 데 집중한다. 시계열 분석, 코호트 분석, 이상 탐지, 실험 분석 및 새로운 데이터 생성 방법까지, 실제 데이터 분석에 널리 쓰이는 기법을 입문자 눈높이에서 설명한다. 

 

 이 책의 1장에서는 데이터 분석이란 무엇인지, SQL과 다른 분석 도구들은 어떤 차이가 있는지, 왜 데이터 분석에 활용하기 좋은지에 대해 얘기한다. 

 

 2장에서는  데이터 타입의 소개부터 데이터 프로파일링, 정제, 셰이핑 등 데이터 준비 과정을 살펴본다. 

 

 2014년 뉴욕 타임스의 보고에 따르면 데이터 과학자는 전체 시간의 50~80%를 데이터를 정제하거나 랭글링하는데 사용한다고 한다. 데이터 준비가 단순히 '분석 전에 수행하는 과정'이라고 가볍게 생각할 수 있지만, 사실은 데이터를 이해하는 데 필수이면서도 시간이 많이 소요되는 작업이다. 데이터의 내용과 품질을 확인하는 데이터 프로파일링, 데이터를 행과 열의 형태로 반환하기 위한 데이터 셰이핑을 살펴본다. 

 

 3장에서는 SQL로 수행 가능한 다양한 분석 중 하나인 시계열 분석에 대해 알아본다. 시계열 분석은 통계, 공학뿐 아니라 일기 예보, 업무 기획 등 다양한 학계 및 산업계에서 쓰인다. 시계열 분석을 위해 날짜 및 시간 데이터를 처리하는 방법, 날짜 차원 테이블을 활용한 시간 윈도우 롤링 계산 방법, 구간 비교 계산과 이를 통해 계절성 패턴을 알아내는 방법을 알아본다. 

 

 4장에서는 시계열 분석과 관련해, 비즈니스를 비롯한 여러 분야에서 활용되는 코호트(집단) 분석을 알아본다. 고객을 여러 집단으로 나누고 집단별 행동 변화를 추적하는 일은 다양한 편향을 제거하고 데이터를 분석하는 데 강력한 방법이다. 코호트 분석은 각 그룹의 리텐션, 반복 행동, 누적 값 등이 시간에 따라 어떻게 변화하는지 비교하는 데 유용하다. 

 

 

 5장과 6장에서는 SQL을 이용한 텍스트 분석과 이상 탐지 기법에 대해 알아본다. 

 

 7장에서는 이상 탐지, 코호트 분석 등 다양한 유형의 분석을 아우르는 포괄적인 분석인 실험 분석에 대해 알아본다. SQL을 활용해 대조군과 실험군을 선별하고 분석을 수행한다. 

 

 

8장과 9장에서는 다른 도구로 추가 분석을 수행하기 위해 복잡한 데이터셋을 생성하고 새로운 인사이트를 이끌어내기 위한 분석 방법의 활용법에 대해 얘기한다. 

 


 

 데이터 분석은 개발자뿐만 아니라 PM, 기획자, 마케터 등 분야를 막론하고 다양한 직군에서 아우를 수 있는 영역이라고 생각한다. 이 책은 그런 사람들을 위해실무에서 가장 활용도가 높은 다양한 분석 기법들을 소개하고 있다.

 

 실습은 PostgreSQL을 사용하지만 어떤 데이터베이스를 사용하든 내용을 이해하고 실습하는 데 무리가 없이 설명이 되어있다. 데이터셋 또한 대부분 미국의 공식 웹사이트에서 공개한 실제 데이터이므로, 이를 활용해 실전 데이터 분석을 경험할 수 있다는 점도 이 책의 큰 장점이다. 

 

 하지만 이 책의 제목은 SQL로 시작하는 데이터 분석이지만 SQL에 대해서는 깊게 다룬다는 느낌은 받지 못했다. 효율적인 SELECT문 작성법에 대해서도 소개하면 어땠을까 싶다. 

 

 

 

"한빛미디어 < 나는 리뷰어다 > 활동을 위해서 책을 제공받아 작성된 서평입니다."

반응형

댓글