전체 글 212

Git [1] 기초 및 설치

버전관리시스템(형상관리) • Configuration Management Systems • Version Control Systems • Source Data + History • 협업, 작업추적, 복구등이가능 • 하루종일 개발한 코드가 컴퓨터가 다운되면 다 날라가 버림(ㄷㄷ) • 파일 버전관리를 위해 사용함 Centralized Version Control Systems • 협업이가능해짐 • commit 하는순간배포되어다수에게버그유발가능 (서버로바로 commit) • 인터넷이안되면작업이불가능 • 자신만의 version history를가질수없음 Distributed Version Control Systems • commit 하더라도개인저장소내에적용됨 (다른개발자에게영향없음) • 원하는순간에배포(Push) ..

SQL SQLite 사용

관계형 데이터베이스로 작업하기 시나리오에 가장 적합한 솔루션은 데이터베이스를 이용하는 것 컴퓨터 메모리를 초과할 수 있는 데이터를 훨씬 쉽게 저장할 수 있음 데이터베이스의 데이터는 사용자가 제공한 조건에 따라 쿼리할 수 있음 기존 레코드를 쉽게 업데이트하고 데이터베이스에 새 레코드를 삽입할 수 있음 관계형 데이터베이스는 테이블과 테이블 관계의 집합 관계형 데이터베이스 테이블은 R의 데이터 프레임과 표현이 동일함 여러 테이블 간 정보를 쉽게 결합할 수 있도록 테이블은 관계를 가질 수 있음 가장 간단한 데이터베이스라고 할 수 있는 SQLite(http://sqlite.org/)에서 시작할 것 SQLite는 이식 가능한 경량 데이터베이스 엔진임 R에서는 SQLite 데이터베이스를 활용하는 데 RSQLite 패..

SQL Mongo DB 활용

Mongo DB 특징 - 문서 모델이다. • 속성의 값은 숫자, 문자열, 날짜와 같이 간단한 데이터 타입이나 배열, 또는 다른 문서가 될 수 있다. • 문서의 구조가 다양하다. (=> json같은 형태이다.) • 미리 정해진 스키마가 존재하지 않는다. • 애플리케이션에서 저장 구조를 정한다. • 구조가 빈번히 조정되는 초기단계에 매력적이다. - 한 컬랙션(= 테이블이라 생각하면 이해 쉬움)에 64개까지 인덱스 생성 가능하다. - 복제 환경 구성이 가능하고 자동 샤딩(RDB에서도 사용하는 클러스터 확장 방법)으로 분산 환경 구성이 가능하다. • 수평적인 확장성이 좋다. 단, 무결성과 정합성을 보장하지 않기 때문에 장단점이 있다. - 관계DB와 key-value 시스템의 장점을 결합하여 설계되었다. • 관계..

R 웹 크롤링

패키지 설치 install.packages("rvest") single_table_page % html_node("table") %>% html_table() - 문서 내부에 추출할 데이터가 테이블 태그 내에 존재하면 특정 요소를 직접 찾아낼때 사용됨 css 선택자를 사용하여 속성값을 추출함 products_page % html_nodes(".product-list li .name") products_page %>% html_nodes(".product-list li .name") %>% html_text() - 앞 코드에서 html_nodes()는 HTML 노드 집합을 반환 - html_text() 함수는 각 HTML 노드에서 내부 텍스트를 추출하여 문자형 벡터로 반환할 만큼 똑똑함 products_p..

R 웹 크롤링(HTML 기본문법)

웹스크래핑 개요 웹크롤링(web crawling): 포털 등에서 자동으로 웹 사이트의 링크 정보를 수집 하여 저장하는 기술 웹 스크래핑(web scraping): 웹 사이트로부터 웹문서를 다운로드 받아 필요한 정보를 추출하는 기술 html4, html5의 엔진이 다름 특정서버를 컴파일 해주는 것이 아닌 웹브라우저가 해석하는 것 해석기가 제각기 다름 : 시작태그 : 닫는태그 둘이 한쌍을 이루어 줘야 함 다른태그와 중첩되어있으면 안됨 웹 크롤링을 하려면 body와 body사이에 있는 값을 찾아야 함 title과 title 사이의 보여주는 글자 태그는 인코딩 예 ) , head와 head사이로 들어감 body와 body사이는 실제로 보여주는 화면으로 들어감 p태그 = 달락을 만들어줌 -> 나타내면 한줄이 비게..

R 자연어 처리

자연어 처리 설치 사전환경 만들기 오라클(https://www.oracle.com/index.html) 로그인 후 JAVA SE 설치 설치해준다. 설치 후 환경변수 셋팅을 위해 C:\Program Files\Java\jdk1.8.0_251\bin를 복사한후 에 들어간다. 7시방향의 윈도우 오른쪽 클릭-> 시스템-> 고급 시스템 설정 -> 환경변수 -> 시스템 변수 Path 변수-> 편집-> 새로만들기 -> C:\Program Files\Java\jdk1.8.0_251\bin 붙여넣기 이후 cmd 들어가서 java javac 를 검색후 잘 작동하는지 확인 R 실행 후 # 1. R 설치하기(가급적 관리자 권한으로 설치) # cran.r-project.org/bin/windows/base/? # 2. rtoo..

[파이썬] 스타벅스, 이디야 매장 크롤링 및 분석

- 서울 스타벅스, 이디야 매장데이터를 가지고 옴 - 각각 매장이름, 주소, 구 이름을 판다스로 저장함 패키지 갖고오기 import time import pandas as pd import seaborn as sns import numpy as np import matplotlib.pyplot as plt import seaborn as sns import numpy as np import matplotlib.pyplot as plt import seaborn as sns from tqdm import tqdm_notebook from selenium import webdriver from bs4 import BeautifulSoup from matplotlib import rc from tqdm imp..