전체 글 212

[크롤링] GS25 매장 크롤링 -1

거주하고 있는 고양시의 GS25 매장들을 크롤링 하고자 한다. 매장이름, 주소, 기능을 갖고옴 목표 - 페이지 접속과 페이지의 각 요소의 html 속성을 확인 - 1페이지의 각 요소를 갖고와서 저장하기 url : http://gs25.gsretail.com/gscvs/ko/store-services/locations GS25 일상생활의 중심, 하루의 시작 Lifestyle Platform GS25 gs25.gsretail.com - 특히 3번의 기능 을 갖고오는데 많은 고민을 했다. 일단 리스트 형태로 갖고오는것을 목표로 함 1. 필요 패키지 설치 # 필요 패키지 설치 from selenium import webdriver from webdriver_manager.chrome import ChromeDr..

R ggplot2

### R 그래프 : 대표적인 ggplot2 패키지 # 산점도 : 변수 간 관게 표현 # 1. 배경설정 # ggplot(data=데이터프레임, aes(x=변수 , y=변수)) ggplot(data = mpg, aes(x=displ, y=hwy)) # 2. 그래프 추가 : + geom_point() ggplot(data = mpg, aes(x=displ, y=hwy)) + geom_point() #### 경고 메시지 # Removed 3 rows containing missing values (geom_point). # 결측치를 포함하는 3개의 행을 제거했습니다,, # 3. 축에 대한 범위 조정 # xlim(축의 시작값, 축의 끝나는 값) / ylim(축의 시작값, 축의 끝나는 값) ggplot(data ..

R 이상치

### 이상치 정제 # 이상치(Outlier) : 정상범주에서 크게 벗어난 값 # 남자 : 1 / 여자 : 2 # score : 1 ~ 5 outlier 결측치로 변경 outlier$sex % filter(!is.na(sex) & !is.na(score)) %>% group_by(sex) %>% summarise(mean_score=mean(score)) # outlier로부터 sex 변수값이 NA가 아니고 score 변수값이 NA가 아닌 값들만 걸러내기 # outlier %>% filter(!is.na(sex) & !is.na(score)) # 걸러낸 값들을 이용하여 sex 기준으로 그룹화 # outlier %>% filter(!is.na(sex) & !is.na(score)) %>% group_by(..

R 결측치

### 데이터 정제 작업 : 결측치(빠진 데이터) / 이상치(이상한 데이터) # 결측치(NA) 정제 # 1. NA 값 찾기 df % filter(is.na(score)) # 2. 결측치가 아닌 데이터만 걸러 내는 방법 df_nomiss % filter(!is.na(score)) mean(df_nomiss$score) sum(df_nomiss$score) # 3. 결측치가 아닌 데이터만 걸러 내는 방법 : 여러개의 변수 df_nomiss % filter(!is.na(score) & !is.na(sex)) # 4. 결측치가 존재하는 행을 한번에 제거하는 방법 : na.omit() # na.omit(데이터프레임) : 데이터프레임으로부터 결측치가 발견되면 해당 행을 제거 df_nomiss2 % summarise..

R 3차 04/18 과제 -3

## '한국복지패널데이터' 분석 준비하기 #### 한국복지패널데이터 # - 한국보건사회연구원 발간 # - 가구의 경제활동을 연구해 정책 지원에 반영할 목적 # - 2006~2015년까지 전국에서 7000여 가구를 선정해 매년 추적 조사 # - 경제활동, 생활실태, 복지욕구 등 수천 개 변수에 대한 정보로 구성 ############################### ### 데이터 분석 준비하기 # 1. 패키지 준비하기 # foreign : SPSS 파일 다루기 # dplyr : 데이터 전처리 # ggplot2 : 데이터 시각화 # readxl : 엑셀 파일 다루기 # 2. 데이터 준비하기 (./data_files/Koweps_hpc10_2015_beta1.sav) # 2-1. 원시 데이터 불러오기 raw..