경기도 인공지능 개발 과정/R 19

R 자연어 처리

자연어 처리 설치 사전환경 만들기 오라클(https://www.oracle.com/index.html) 로그인 후 JAVA SE 설치 설치해준다. 설치 후 환경변수 셋팅을 위해 C:\Program Files\Java\jdk1.8.0_251\bin를 복사한후 에 들어간다. 7시방향의 윈도우 오른쪽 클릭-> 시스템-> 고급 시스템 설정 -> 환경변수 -> 시스템 변수 Path 변수-> 편집-> 새로만들기 -> C:\Program Files\Java\jdk1.8.0_251\bin 붙여넣기 이후 cmd 들어가서 java javac 를 검색후 잘 작동하는지 확인 R 실행 후 # 1. R 설치하기(가급적 관리자 권한으로 설치) # cran.r-project.org/bin/windows/base/? # 2. rtoo..

R ggplot2

### R 그래프 : 대표적인 ggplot2 패키지 # 산점도 : 변수 간 관게 표현 # 1. 배경설정 # ggplot(data=데이터프레임, aes(x=변수 , y=변수)) ggplot(data = mpg, aes(x=displ, y=hwy)) # 2. 그래프 추가 : + geom_point() ggplot(data = mpg, aes(x=displ, y=hwy)) + geom_point() #### 경고 메시지 # Removed 3 rows containing missing values (geom_point). # 결측치를 포함하는 3개의 행을 제거했습니다,, # 3. 축에 대한 범위 조정 # xlim(축의 시작값, 축의 끝나는 값) / ylim(축의 시작값, 축의 끝나는 값) ggplot(data ..

R 이상치

### 이상치 정제 # 이상치(Outlier) : 정상범주에서 크게 벗어난 값 # 남자 : 1 / 여자 : 2 # score : 1 ~ 5 outlier 결측치로 변경 outlier$sex % filter(!is.na(sex) & !is.na(score)) %>% group_by(sex) %>% summarise(mean_score=mean(score)) # outlier로부터 sex 변수값이 NA가 아니고 score 변수값이 NA가 아닌 값들만 걸러내기 # outlier %>% filter(!is.na(sex) & !is.na(score)) # 걸러낸 값들을 이용하여 sex 기준으로 그룹화 # outlier %>% filter(!is.na(sex) & !is.na(score)) %>% group_by(..

R 결측치

### 데이터 정제 작업 : 결측치(빠진 데이터) / 이상치(이상한 데이터) # 결측치(NA) 정제 # 1. NA 값 찾기 df % filter(is.na(score)) # 2. 결측치가 아닌 데이터만 걸러 내는 방법 df_nomiss % filter(!is.na(score)) mean(df_nomiss$score) sum(df_nomiss$score) # 3. 결측치가 아닌 데이터만 걸러 내는 방법 : 여러개의 변수 df_nomiss % filter(!is.na(score) & !is.na(sex)) # 4. 결측치가 존재하는 행을 한번에 제거하는 방법 : na.omit() # na.omit(데이터프레임) : 데이터프레임으로부터 결측치가 발견되면 해당 행을 제거 df_nomiss2 % summarise..