데이터를 요리조리

python4

누락값 처리하기 ※ 누락값이란? 1. 누락값과 누락값 확인하기 누락값(NaN)은 NaN, NAN, nan과 같은 방법으로 표기할 수 있다. 누락값을 파이썬에 사용하려면 넘파이(numpy) 라이브러리가 필요하다. 넘파이 라이브러리는 수학이나 과학 연산을 위해 만든 파이썬 라이브러리이다. 먼저 누락값을 사용하기 위해 numpy에서 누락값을 불러온다. from numpy import NaN, NAN, nan 누락값은 말 그대로 데이터 자체가 없다는 것을 의미한다. 그래서 '같다'라는 개념도 없다. 다음은 누락값과 True, False, 0, ' '을 비교한 결과이다. 또한, 누락값은 값 자체가 없기 때문에 자기 자신과 비교해도 True가 아닌 False가 출력된다. print(NaN == True) print(NaN == F.. 프로그래밍 언어/파이썬 2020. 8. 27.

분석하기 좋은 데이터 ※ 분석하기 좋은 데이터란? 분석하기 좋은 데이터란 데이터 집합을 분석하기 좋은 상태로 만들어 놓은 것을 말한다. 데이터 분석 단계에서 데이터 정리는 아주 중요하다. 실제로 데이터 분석 작업의 70% 이상을 차지하고 있는 작업이 데이터 정리 작업이다. 분석하기 좋은 데이터는 다음 조건을 만족해야 하며 이 조건을 만족하는 데이터를 깔끔한 데이터(Tidy Data)라고 부른다. ▶ 깔끔한 데이터의 조건 데이터 분석 목적에 맞는 데이터를 모아 새로운 표(Table)를 만들어야 한다. 측정한 값은 행(row)을 구성해야 한다. 변수는 열(column)로 구성해야 한다. ※ 데이터 연결 기초 1. concat 메서드로 데이터 연결하기 import pandas as pd row_concat = pd.concat([.. 프로그래밍 언어/파이썬 2020. 8. 27.

판다스 데이터프레임과 시리즈 판다스의 데이터프레임과 시리즈는 리스트나 딕셔너리와 달리 많은 양의 데이터를 저장할 수 있을 뿐만 아니라 스프레드시트 프로그램을 사용하는 것처럼 행과 열 단위로 원하는 데이터를 조작할 수 있는 다양한 속성과 메서드를 제공한다. ※ 시리즈 다루기 - 기초 판다스의 데이터를 구성하는 가장 기본 단위는 시리즈이다. 이번에는 데이터프레임에서 시리즈를 선택하는 방법에 대해 알아본다. (1) 먼저 변수 scientists에 데이터프레임을 준비한다. scientists = pd.DataFrame( data={'Occupation': ['Chemist', 'Statistician'], 'Born': ['1920-07-25', '1876-06-13'], 'Died': ['1958-04-16', '1937-10-16'],.. 프로그래밍 언어/파이썬 2020. 8. 25.

판다스 시작하기 Pandas는 데이터프레임과 시리즈라는 자료형과 데이터 분석을 위한 다양한 기능을 제공하는 파이썬 라이브러리이다. 또한, 판다스는 파이썬 언어만 사용할 줄 알아도 데이터 분석을 바로 시작할 수 있을 뿐만 아니라 반복되는 데이터 분석 작업을 프로그램으로 만들어 쉽게 해결할 수 있다는 장점이 있다. ※ 데이터 집합 불러오기 1. 데이터 분석의 시작은 데이터 불러오기부터 갭마인더(Gapminder) 데이터를 불러옵니다. import pandas as pd df = pd.read_csv('../data/gapminder.tsv', sep='\t') read_csv 메서드는 기본적으로 쉼표로 열이 구분되어 있는 데이터를 불러온다. 하지만 갭마인더는 열이 탭으로 구분되어 있기 때문에 sep 속성값으로 \t를 지정해.. 프로그래밍 언어/파이썬 2020. 8. 25.

이전 1 다음

티스토리툴바