서평

[책] 판다스 인 액션

eunsour 2022. 9. 25.
반응형

 판다스 라이브러리는 데이터 분석가, AI 엔지니어, 마케터 등 직군을 불문하고 사랑받는 파이썬 라이브러리입니다. 하지만 판다스만을 중점적으로 다루는 책은 많지 않습니다. 파이썬 입문, 머신러닝 입문, 딥러닝 입문 등 여느 입문 책 사이에 조금씩 활용되지만, '판다스'라는 키워드를 yes24에 검색하면 이 책을 포함해 단 4권만이 판다스에 대해서만 다루고 있습니다. 

 

 저 또한 처음에는, 굳이 라이브러리 하나에 대해서 시간을 들여서 공부해야 할까? 모르는게 나오면 구글에 검색하면 되지 않을까? 라는 의구심이 들었습니다. 하지만 컴퓨터 사이언스와 마찬가지로 유통기한이 긴 지식들은 깊게 쌓아두면 좋을 것 같다. 라는 생각하에 이 책을 선택하게 되었습니다.

 

 

 

 이코노미스트는 2017년 의견서에 '세상에서 가장 가치있는 자원은 더이상 석유가 아니라 데이터이다.' 라고 언급하였습니다. 데이터는 근거이며, 근거는 상호 연결된 세계에서 점점 더 복잡해지는 문제를 해결하는 기업, 정부, 기관과 개인에게 매우 중요합니다. 

 

 이러한 데이터 작업을 위한 도구의 기술 생태계는 지난 10년 동안 엄청나게 성장했습니다. 판다스의 경쟁 도구로는 엑셀, 구글 스프레드시트, R, SAS 등이 있지만, 판다스가 특별한 이유는 바로 처리 능력과 사용자 생산성 사이의 균형이 좋기 때문입니다. C와 같은 저급 프로그래밍 언어를 사용하여 많은 계산량을 처리하기 때문에 판다스는 밀리초 내에 백만 행의 데이터셋을 효율적으로 변환할 수 있으며, 동시에 간단하고 직관적인 명령 집합을 제공합니다.

 

 

 

 

 1부의 5개의 장에서는 판다스 라이브러리로 무엇을 할 수 있는지 직관적으로 확인하고, 판다스의 핵심 메커니즘이자 두 가지 기본 자료구조인 1차원 Series와 2차원 DataFrame에 대해서 소개하고 있습니다. 1부만 다 보더라도 판다스의 토대를 마련할 수 있습니다.

 

 2부에서는 포춘 1000대 기업부터 노벨상 수상자까지 다양한 주제의 실제 데이터셋에서 MultiIndex, 그룹화, 조인, 시각화 등 판다스의 고급 기능들을 활용하여 문제를 해결하는 방법들을 소개하고 있습니다. 

 

 더불어 부록에서도 꽤나 흥미있는 내용을 다루고 있었습니다. 바로 faker라는 라이브러리입니다. [이름, 전화번호, 주소, 이메일] 등의 리스트를 생성할 수 있고, 임의의 숫자 데이터를 생성하는 넘파이와 함께 사용하면 모든 크기, 형태 유형의 데이터셋을 빠르게 생성할 수 있습니다. 이외에도 파이썬의 속성 과정, 정규 표현식 등을 다루고 있습니다.

 

 각 챕터별로 코딩 챌린지를 통해 단원에서 배운 내용들을 복습할 수 있고, 해답도 바로 뒤에 나와있어 출판사의 홈페이지에서 해답을 다운로드 하는 등의 불편함이 없었습니다.

 


 

 판다스는 유일하기 때문에 어쩔 수 없이 선택해야 하는 도구가 아니라 데이터 랭글링, 병합, 통계 계산 등 대부분의 데이터 분석 문제를 해결하는 강력하고 인기와 가치가 있는 솔루션입니다. 엑셀 또한 여전히 데이터를 빠르고 쉽게 처리하는 훌륭한 도구이며, SQL은 기능의 범위가 더 크고 데이터 관리를 중심으로 합니다. 

 

 판다스는 다른 현대 기술과 함께 사용할 수 있는 강력한 선택지이기 때문에, 주어진 상황에 따라 자신에게 맞는 적절한 도구를 선택하고 문제를 해결할 수 있었으면 좋겠습니다. 

 

 판다스를 깊이 있게 공부하고 싶으신 분들에게 추천하는 책입니다. 

 

 

 

"한빛미디어 < 나는 리뷰어다 > 활동을 위해서 책을 제공받아 작성된 서평입니다."

 

 

반응형

댓글