반응형
서울날씨 데이터를 분석함
코드참고 : jh_lee@g.kmou.ac.kr님의 서울 날씨 데이터 분석
환경 : Google Colab
#데이터 다운로드
import pandas as pd
import numpy as np
rawdata = pd.read_csv('https://raw.githubusercontent.com/kmouleejunhyuk/bigdata_analysist_practical/main/seoul.csv', encoding = 'cp949')
#data 살펴보기
rawdata.head()
rawdata.describe()
rawdata.shape
-> 5개의 컬럼과 39748개의 행으로 구성되어 있음
#결측치, 중복 여부 검사 및 제거
rawdata.isnull().sum()
#날짜 파생변수 생성(날짜 --> 년, 월, 일)
rawdata['년'] = rawdata['날짜'].map(lambda x: int(x.split('-')[0]))
rawdata['월'] = rawdata['날짜'].map(lambda x: int(x.split('-')[1]))
rawdata['일'] = rawdata['날짜'].map(lambda x: int(x.split('-')[2]))
-> 날짜 데이터에서 lambda 함수를 사용하여 split하여서 년,월,일 데이터를 따로 뽑았다
#지점, 날짜 컬럼 제거
#rawdata.drop(['지점', '날짜'], axis = 1, inplace = True)
rawdata.drop(['지점'], axis = 1, inplace = True)
#년-월별 컬럼별 평균 확인
group = rawdata.groupby(by = ['월', '년']).mean()
group
#2000년 1월의 가장 높은 최저기온
rawdata.groupby(['년', '월']).max().loc[2000, '최저기온(℃)'].loc[1]
group.loc[9, '평균기온(℃)'].plot.line() #각 년도의 01월 평균 기온 변화 추이
rawdata.loc[rawdata['평균기온(℃)'].isnull()]