경기도 인공지능 개발 과정 78

R 이상치

### 이상치 정제 # 이상치(Outlier) : 정상범주에서 크게 벗어난 값 # 남자 : 1 / 여자 : 2 # score : 1 ~ 5 outlier 결측치로 변경 outlier$sex % filter(!is.na(sex) & !is.na(score)) %>% group_by(sex) %>% summarise(mean_score=mean(score)) # outlier로부터 sex 변수값이 NA가 아니고 score 변수값이 NA가 아닌 값들만 걸러내기 # outlier %>% filter(!is.na(sex) & !is.na(score)) # 걸러낸 값들을 이용하여 sex 기준으로 그룹화 # outlier %>% filter(!is.na(sex) & !is.na(score)) %>% group_by(..

R 결측치

### 데이터 정제 작업 : 결측치(빠진 데이터) / 이상치(이상한 데이터) # 결측치(NA) 정제 # 1. NA 값 찾기 df % filter(is.na(score)) # 2. 결측치가 아닌 데이터만 걸러 내는 방법 df_nomiss % filter(!is.na(score)) mean(df_nomiss$score) sum(df_nomiss$score) # 3. 결측치가 아닌 데이터만 걸러 내는 방법 : 여러개의 변수 df_nomiss % filter(!is.na(score) & !is.na(sex)) # 4. 결측치가 존재하는 행을 한번에 제거하는 방법 : na.omit() # na.omit(데이터프레임) : 데이터프레임으로부터 결측치가 발견되면 해당 행을 제거 df_nomiss2 % summarise..

R 3차 04/18 과제 -3

## '한국복지패널데이터' 분석 준비하기 #### 한국복지패널데이터 # - 한국보건사회연구원 발간 # - 가구의 경제활동을 연구해 정책 지원에 반영할 목적 # - 2006~2015년까지 전국에서 7000여 가구를 선정해 매년 추적 조사 # - 경제활동, 생활실태, 복지욕구 등 수천 개 변수에 대한 정보로 구성 ############################### ### 데이터 분석 준비하기 # 1. 패키지 준비하기 # foreign : SPSS 파일 다루기 # dplyr : 데이터 전처리 # ggplot2 : 데이터 시각화 # readxl : 엑셀 파일 다루기 # 2. 데이터 준비하기 (./data_files/Koweps_hpc10_2015_beta1.sav) # 2-1. 원시 데이터 불러오기 raw..