카테고리 없음

[파이썬] 서울날씨데이터 분석

agingcurve 2022. 4. 23. 17:11
반응형
서울날씨 데이터를 분석함

 

코드참고 : jh_lee@g.kmou.ac.kr님의 서울 날씨 데이터 분석
 
환경 : Google Colab

 

 
 
#데이터 다운로드
import pandas as pd
import numpy as np

 

#data 살펴보기
rawdata.head()

rawdata.describe()

rawdata.shape

-> 5개의 컬럼과 39748개의 행으로 구성되어 있음

 

 

#결측치, 중복 여부 검사 및 제거
rawdata.isnull().sum()

 

#날짜 파생변수 생성(날짜 --> 년, 월, 일)
rawdata['년'] = rawdata['날짜'].map(lambda x: int(x.split('-')[0]))
rawdata['월'] = rawdata['날짜'].map(lambda x: int(x.split('-')[1]))
rawdata['일'] = rawdata['날짜'].map(lambda x: int(x.split('-')[2]))

-> 날짜 데이터에서 lambda 함수를 사용하여 split하여서 년,월,일 데이터를 따로 뽑았다

 

#지점, 날짜 컬럼 제거
#rawdata.drop(['지점', '날짜'], axis = 1, inplace = True)
rawdata.drop(['지점'], axis = 1, inplace = True)
#년-월별 컬럼별 평균 확인
group = rawdata.groupby(by = ['월', '년']).mean()
group

#2000년 1월의 가장 높은 최저기온
rawdata.groupby(['년', '월']).max().loc[2000, '최저기온(℃)'].loc[1]

 

group.loc[9, '평균기온(℃)'].plot.line()    #각 년도의 01월 평균 기온 변화 추이

rawdata.loc[rawdata['평균기온(℃)'].isnull()]