전체 글 218

R 웹 크롤링

패키지 설치 install.packages("rvest") single_table_page % html_node("table") %>% html_table() - 문서 내부에 추출할 데이터가 테이블 태그 내에 존재하면 특정 요소를 직접 찾아낼때 사용됨 css 선택자를 사용하여 속성값을 추출함 products_page % html_nodes(".product-list li .name") products_page %>% html_nodes(".product-list li .name") %>% html_text() - 앞 코드에서 html_nodes()는 HTML 노드 집합을 반환 - html_text() 함수는 각 HTML 노드에서 내부 텍스트를 추출하여 문자형 벡터로 반환할 만큼 똑똑함 products_p..

R 웹 크롤링(HTML 기본문법)

웹스크래핑 개요 웹크롤링(web crawling): 포털 등에서 자동으로 웹 사이트의 링크 정보를 수집 하여 저장하는 기술 웹 스크래핑(web scraping): 웹 사이트로부터 웹문서를 다운로드 받아 필요한 정보를 추출하는 기술 html4, html5의 엔진이 다름 특정서버를 컴파일 해주는 것이 아닌 웹브라우저가 해석하는 것 해석기가 제각기 다름 : 시작태그 : 닫는태그 둘이 한쌍을 이루어 줘야 함 다른태그와 중첩되어있으면 안됨 웹 크롤링을 하려면 body와 body사이에 있는 값을 찾아야 함 title과 title 사이의 보여주는 글자 태그는 인코딩 예 ) , head와 head사이로 들어감 body와 body사이는 실제로 보여주는 화면으로 들어감 p태그 = 달락을 만들어줌 -> 나타내면 한줄이 비게..

R 자연어 처리

자연어 처리 설치 사전환경 만들기 오라클(https://www.oracle.com/index.html) 로그인 후 JAVA SE 설치 설치해준다. 설치 후 환경변수 셋팅을 위해 C:\Program Files\Java\jdk1.8.0_251\bin를 복사한후 에 들어간다. 7시방향의 윈도우 오른쪽 클릭-> 시스템-> 고급 시스템 설정 -> 환경변수 -> 시스템 변수 Path 변수-> 편집-> 새로만들기 -> C:\Program Files\Java\jdk1.8.0_251\bin 붙여넣기 이후 cmd 들어가서 java javac 를 검색후 잘 작동하는지 확인 R 실행 후 # 1. R 설치하기(가급적 관리자 권한으로 설치) # cran.r-project.org/bin/windows/base/? # 2. rtoo..

[파이썬] 스타벅스, 이디야 매장 크롤링 및 분석

- 서울 스타벅스, 이디야 매장데이터를 가지고 옴 - 각각 매장이름, 주소, 구 이름을 판다스로 저장함 패키지 갖고오기 import time import pandas as pd import seaborn as sns import numpy as np import matplotlib.pyplot as plt import seaborn as sns import numpy as np import matplotlib.pyplot as plt import seaborn as sns from tqdm import tqdm_notebook from selenium import webdriver from bs4 import BeautifulSoup from matplotlib import rc from tqdm imp..

[파이썬] XGB 활용하여 성적예측

import pandas as pd import numpy as np X_train = pd.read_csv("X_train.csv") X_test = pd.read_csv("X_test.csv") y_train = pd.read_csv("y_train.csv") y_test = pd.read_csv("y_test.csv") # trainindex 678 # StudentID 제거 필요, 통합데 이터 alldata = pd.concat([X_train, X_test], axis=0) alldata2 = alldata.drop("StudentID",axis=1) y_train_dr = y_train.drop("StudentID",axis=1) from sklearn.preprocessing import L..

[파이썬] ProPhet을 활용하여 삼성전자 주식 데이터 예측해보기

1. yahoo finaince에서 삼성전자 일자별 장마감 가격을 갖고오기(크롤링을 이용해서 갖고와 보기) 패키지 설치 import pandas as pd import pandas_datareader as web import numpy as np import matplotlib.pyplot as plt from bs4 import BeautifulSoup from urllib.request import urlopen, Request from fbprophet import Prophet from datetime import datetime 이후에 패키지 사용을 위해서 yahoo finance(https://finance.yahoo.com/) 에서 검색해서 일자별 데이터를 가지고 옴 html코드를 분석하여 ..

[파이썬] ProPhet 활용하여 시계열 예측

# Sin 그래프를 그리는 함수 만들어보기 import matplotlib.pyplot as plt import numpy as np %matplotlib inline def plotSinWave(amp, freq, endTIme, smapleTime, startTime, bias): """ plot sin wave y = a sin(2 pi f t + t_0) + b """ time = np.arange(startTime, endTIme, smapleTime) result = amp * np.sin(2 * np.pi * freq * time + startTime) + bias plt.figure(figsize=(12, 6)) plt.plot(time, result) plt.grid(True) plt.x..

[파이썬] 서울날씨데이터 분석

서울날씨 데이터를 분석함 코드참고 : jh_lee@g.kmou.ac.kr님의 서울 날씨 데이터 분석 환경 : Google Colab #데이터 다운로드 import pandas as pd import numpy as np rawdata = pd.read_csv('https://raw.githubusercontent.com/kmouleejunhyuk/bigdata_analysist_practical/main/seoul.csv', encoding = 'cp949') #data 살펴보기 rawdata.head() rawdata.describe() rawdata.shape -> 5개의 컬럼과 39748개의 행으로 구성되어 있음 #결측치, 중복 여부 검사 및 제거 rawdata.isnull().sum() #날짜 파..

카테고리 없음 2022.04.23