[Python] Juptyer and Pandas 를 이용한 데이터 다루기

2023. 9. 25. 12:00Languages/Python

Juypter Notebook 의 Tool을 사용하고, Pandas 를 이용하여 데이터를 간단하게 다루는 법을 배우는 중이다.

 

0.

작업 전에 데이터가 들어있는 csv를 Juypter Notebook에 추가해준다

이후, Juypter 노트북에서 작성할 때, 다음과 같이 csv 파일을 읽어온다

 

1. 데이터 전체 내용 통계 확인 .describe()

- .csv 내에 있는 데이터의 컬럼을 기준으로 하여, 통계치를 정리해준다

- count: 해당 컬럼에 해당하는 데이터의 개수

- mean: 해당 컬럼에 해당하는 데이터의 평균

- std: 해당 컬럼에 해당하는 데이터의 표준편차

- min: 해당 컬럼에 해당하는 데이터의 최솟값

- N% : 백분위를 기준으로 N%에 해당하는 값

 

2. 데이터의 평균 .mean()

 

1) 전체 데이터의 평균 구하기 .mean()

2) 특정 컬럼을 기준으로 데이터의 평균 구하기 .groupby(['특정컬럼']).mean()

3) 특정 컬럼을 기준으로 데이터를 묶되, 다른 컬럼을 기준으로 평균 구하기 .groupby(['특정컬럼'])['다른컬럼'].mean()

 

3. 컬럼값을 기준으로 분류된 데이터의 index .index()

sample = df.mpg
sample.index = df.model

mpg라는 컬럼을 기준으로 정리된 데이터에 model 컬럼을 index로 붙여주는 예시이다!

'Languages > Python' 카테고리의 다른 글

[Python] add python interpreter (Conda)  (0) 2023.09.20
[Python] Hello World with Jupyter Notebook  (1) 2023.09.18