데이터시럽

전체 글 218

패키지 설치 install.packages("rvest") single_table_page % html_node("table") %>% html_table() - 문서 내부에 추출할 데이터가 테이블 태그 내에 존재하면 특정 요소를 직접 찾아낼때 사용됨 css 선택자를 사용하여 속성값을 추출함 products_page % html_nodes(".product-list li .name") products_page %>% html_nodes(".product-list li .name") %>% html_text() - 앞 코드에서 html_nodes()는 HTML 노드 집합을 반환 - html_text() 함수는 각 HTML 노드에서 내부 텍스트를 추출하여 문자형 벡터로 반환할 만큼 똑똑함 products_p..

경기도 인공지능 개발 과정/R 2022.04.26

R 웹 크롤링(HTML 기본문법)

웹스크래핑 개요 웹크롤링(web crawling): 포털 등에서 자동으로 웹 사이트의 링크 정보를 수집 하여 저장하는 기술 웹 스크래핑(web scraping): 웹 사이트로부터 웹문서를 다운로드 받아 필요한 정보를 추출하는 기술 html4, html5의 엔진이 다름 특정서버를 컴파일 해주는 것이 아닌 웹브라우저가 해석하는 것 해석기가 제각기 다름 : 시작태그 : 닫는태그 둘이 한쌍을 이루어 줘야 함 다른태그와 중첩되어있으면 안됨 웹 크롤링을 하려면 body와 body사이에 있는 값을 찾아야 함 title과 title 사이의 보여주는 글자 태그는 인코딩 예 ) , head와 head사이로 들어감 body와 body사이는 실제로 보여주는 화면으로 들어감 p태그 = 달락을 만들어줌 -> 나타내면 한줄이 비게..

경기도 인공지능 개발 과정/R 2022.04.26

R 지도시각화

# 단계 구분도 # 지역별 통계치를 색깔의 차이로 표현한 지도 # 인구나 소득 같은 특성이 지역별로 얼마나 다른지 쉽게 이해할 수 있음 install.packages("ggiraphExtra") library(ggiraphExtra) str(USArrests) head(USArrests) library(tibble) # 행 이름을 state 변수로 바꿔 데이터 프레임 생성 crime

경기도 인공지능 개발 과정/R 2022.04.25

R 비정형 데이터 분석

useSejongDic() library(KoNLP) library(wordcloud) data1

경기도 인공지능 개발 과정/R 2022.04.25

R 자연어 처리

자연어 처리 설치 사전환경 만들기 오라클(https://www.oracle.com/index.html) 로그인 후 JAVA SE 설치 설치해준다. 설치 후 환경변수 셋팅을 위해 C:\Program Files\Java\jdk1.8.0_251\bin를 복사한후 에 들어간다. 7시방향의 윈도우 오른쪽 클릭-> 시스템-> 고급 시스템 설정 -> 환경변수 -> 시스템 변수 Path 변수-> 편집-> 새로만들기 -> C:\Program Files\Java\jdk1.8.0_251\bin 붙여넣기 이후 cmd 들어가서 java javac 를 검색후 잘 작동하는지 확인 R 실행 후 # 1. R 설치하기(가급적 관리자 권한으로 설치) # cran.r-project.org/bin/windows/base/? # 2. rtoo..

경기도 인공지능 개발 과정/R 2022.04.25

[파이썬] 스타벅스, 이디야 매장 크롤링 및 분석

- 서울 스타벅스, 이디야 매장데이터를 가지고 옴 - 각각 매장이름, 주소, 구 이름을 판다스로 저장함 패키지 갖고오기 import time import pandas as pd import seaborn as sns import numpy as np import matplotlib.pyplot as plt import seaborn as sns import numpy as np import matplotlib.pyplot as plt import seaborn as sns from tqdm import tqdm_notebook from selenium import webdriver from bs4 import BeautifulSoup from matplotlib import rc from tqdm imp..

파이썬 이것저것/크롤링 2022.04.24

[파이썬] XGB 활용하여 성적예측

import pandas as pd import numpy as np X_train = pd.read_csv("X_train.csv") X_test = pd.read_csv("X_test.csv") y_train = pd.read_csv("y_train.csv") y_test = pd.read_csv("y_test.csv") # trainindex 678 # StudentID 제거 필요, 통합데 이터 alldata = pd.concat([X_train, X_test], axis=0) alldata2 = alldata.drop("StudentID",axis=1) y_train_dr = y_train.drop("StudentID",axis=1) from sklearn.preprocessing import L..

파이썬 이것저것/파이썬 머신러닝 2022.04.23

[파이썬] ProPhet을 활용하여 삼성전자 주식 데이터 예측해보기

1. yahoo finaince에서 삼성전자 일자별 장마감 가격을 갖고오기(크롤링을 이용해서 갖고와 보기) 패키지 설치 import pandas as pd import pandas_datareader as web import numpy as np import matplotlib.pyplot as plt from bs4 import BeautifulSoup from urllib.request import urlopen, Request from fbprophet import Prophet from datetime import datetime 이후에 패키지 사용을 위해서 yahoo finance(https://finance.yahoo.com/) 에서 검색해서 일자별 데이터를 가지고 옴 html코드를 분석하여 ..

파이썬 이것저것/파이썬 데이터분석 2022.04.23

[파이썬] ProPhet 활용하여 시계열 예측

# Sin 그래프를 그리는 함수 만들어보기 import matplotlib.pyplot as plt import numpy as np %matplotlib inline def plotSinWave(amp, freq, endTIme, smapleTime, startTime, bias): """ plot sin wave y = a sin(2 pi f t + t_0) + b """ time = np.arange(startTime, endTIme, smapleTime) result = amp * np.sin(2 * np.pi * freq * time + startTime) + bias plt.figure(figsize=(12, 6)) plt.plot(time, result) plt.grid(True) plt.x..

파이썬 이것저것/파이썬 데이터분석 2022.04.23

[파이썬] 서울날씨데이터 분석

서울날씨 데이터를 분석함 코드참고 : jh_lee@g.kmou.ac.kr님의 서울 날씨 데이터 분석 환경 : Google Colab #데이터 다운로드 import pandas as pd import numpy as np rawdata = pd.read_csv('https://raw.githubusercontent.com/kmouleejunhyuk/bigdata_analysist_practical/main/seoul.csv', encoding = 'cp949') #data 살펴보기 rawdata.head() rawdata.describe() rawdata.shape -> 5개의 컬럼과 39748개의 행으로 구성되어 있음 #결측치, 중복 여부 검사 및 제거 rawdata.isnull().sum() #날짜 파..

카테고리 없음 2022.04.23

1 ··· 17 18 19 20 21 22

사회복지사로 3년 간 근무 하고, 개발자로 전향하면서 배웠던 내용을 정리하는 블로그 입니다.

코테, YOLO, yolov5, gpt 무료, 코테준비, Flask, 파이썬 백엔드, SQL, Python, 딥러닝 기초, 딥러닝, docker, 프로그래머스, 디자인패턴, C#, 파이썬, LLM, C# 디자인패턴, 제이펍, 텐서플로,

Today :
Yesterday :

일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

전체 글 218

티스토리툴바