본문 바로가기

파이썬/파이썬 pandas13

[pandas] 그룹별 데이터 집계하기 groupby import pandas as pddf = pd.read_csv('data/titanic.csv')df = df[['Survived','Pclass','Sex','Age','Embarked']]df = df.dropna()df.head()"""Survived Pclass Sex Age Embarked0 0 3 male 22.0 S1 1 1 female 38.0 C2 1 3 female 26.0 S3 1 1 female 35.0 S4 0 3 male 35.0 S"""df.info()"""Int64Index: 1044 entries, 0 to 1306Data columns (total 5 columns): # Column Non-Null Count Dtype --- ------ -----.. 2023. 5. 15.
[pandas] 행과 열의 형태 변형하기 melt, pivot, transpose 데이터 준비하기import pandas as pddf = pd.read_csv('data/scores.csv')df = df.head(2)df""" name kor eng math0 Aiden 100.0 90.0 95.01 Charles 90.0 80.0 75.0 모든 열 meltdf.melt( )pd.melt(df)df.melt()""" variable value0 name Aiden1 name Charles2 kor 100.03 kor 90.04 eng 90.05 eng 80.06 math 95.07 math 75.0 고정할 컬럼 지정하여 meltid_vars=[열이름리스트] --> 위치를 그대로 유지할 열 이름df""" name kor eng math0 Aiden 100.0 90.0 95.01 Ch.. 2023. 5. 14.
[pandas] 행과 열의 형태 변형하기 melt, pivot, transpose 2023. 5. 12.
[pandas] 데이터 프레임 연결하기 concat, merge 2023. 5. 12.
[pandas] 결측치 처리하기 isnull, dropna, fillna 결측치는 데이터 자체가 없다는 것을 의미한다. import pandas as pd import numpy as np df = pd.DataFrame([[np.nan, 2, np.nan, 0], [3, 4, np.nan, 1], [np.nan, np.nan, np.nan, 5], [np.nan, 3, np.nan, 4]], columns=list('ABCD')) df """ ABCD 0NaN2.0NaN0 13.04.0NaN1 2NaNNaNNaN5 3NaN3.0NaN4 결측치 확인하기 # isnull() df.isnull().sum() """ A 3 B 1 C 4 D 0 dtype: int64 # info df.info() """ RangeIndex: 4 entries, 0 to 3 Data columns .. 2023. 5. 11.
[pandas] 데이터에 함수 적용하기 apply 데이터 준비하기 df = pd.read_csv('data/scores.csv') df = df.head() df_copy = df.copy() df.head() """ namekorengmath 0Aiden100.090.095.0 1Charles90.080.075.0 2Danial95.0100.0100.0 3Evan100.0100.0100.0 4HenryNaN35.060.0 """ df_copy.head() """ namekorengmath 0Aiden100.090.095.0 1Charles90.080.075.0 2Danial95.0100.0100.0 3Evan100.0100.0100.0 4HenryNaN35.060.0 """ 함수로 컬럼의 데이터 변경하기 컬럼.apply(함수명) 컬럼.apply(함수명.. 2023. 5. 11.