분류 전체보기 218

R 군집분석 & 연관분석

군집 분석이란? - 각 객체(대상)의 유사성을 측정하여 유사성이 높은 대상 집단을 분류하고, 군집에 속한 객체들의 유사성과 서로 다른 군집에 속한 객체간의 상이성을 규명하는 분석 방법이다. - 특성에 따라 고객을 여러 개의 배타적인 집단으로 나눈다. - 군집의 개수나 구조에 대한 가정 없이 데이터로부터 거리를 기준으로 군집화를 유도한다. - 유사성의 거리는 '유클리드 거리'를 이용한다 1. 유클리드 거리 유클리드 거리(Euclidean distance)는 두 점 사이의 거리를 계산하는 방법으로 이 거리를 이용하여 유클리드 공간을 정의한다 1. 관측 대상의 두 벡터의 차이를 구한다. 2. 각 차의 제곱의 합을 구한다. 3. 제곱근을 취한다. (1) matrix 생성 x x : numeric matrix, ..

R R 마크다운(Rpubs)

R 마크다운을 이용하여 데이터 분석 내용을 별도 문서로 작성해서 공유할 수 있슴 R 마크다운을 이용하면 보고서를 만들 수 있음 Rpubs는 HTML, WORD, PDF 방식이 있음 (PDF의 경우, 한글 적용이 안됨) 마크다운은 일반 텍스트 기반의 마크업(markup)언이임. 텍스트 서식과 내용을 코드로 작성하여 공유할 때, 사용되며 다른 언어에 비해 문법이 쉽고 HTML 문서로 쉽게 변환이 가능 설치 후, HTML로 설정을 하면 Publish를 선택하는 창이 뜨는데, RPubs 를 사용하여 공유가 가능함 마크다운 기존에 우리가 인터넷 세상에서 보는 웹 페이지( = 결국 문서지..)는 HTML 이라는 Markup(마크업) 언어인데, HTML 을 제대로 쓰려면 태그 등을 알아야 하는 부담이 있다. 이러한 ..

Git [4] Remote Repository, Branch 운영

Git Home 에서 Repositoreis 'New' 버튼선택 remote_git 생성 • README File & .gitignore (python) 선택 > Create repository 참고 - README File • 프로젝트에 대한 설명, 사용방법, 라이센스, 설치방법 등에 대한내용을 기술하는 파일 • 나, 직장동료, 프로그램 사용자를 위해 존재 (작성 습관화 필요) Local Repository 를생성하지않은상태에서 Git Clone 명령을사용하여 Remote Repository를 Local 에복제할수있음 Git Clone 앞서폴더를만들고 + Git Init 으로해당폴더를초기화하고 + Remote Repository 를등록하고 + Remote Repository 의내용을 Pull 하는모든과..

Git[3] Respositroy 생성 및 운영

Workspace 생성 git_test 폴더로 이동 cd git_test git init 폴더에서 git을 초기화하는 명령어 git init 파일생성 touch test.txt Git Status Git 에존재하는파일확인 git status Git Add Working Directory 에서변경된파일을 Index (stage)에추가 git add test.txt git status branch에 추가됨을 확인 할 수 있음 Git Commit Index (stage) 에추가된변경사항을 HEAD 에반영 (확정) git commit -m "commit 에 대한 설명" git commit -m"new commit" test.txt 원격 Repsoitroy 생성 Github Token 생성 보안상의이유로 Remo..

Git [2] GitHub 가입 및 연결

GitHub: Where the world builds software · GitHub GitHub: Where the world builds software GitHub is where over 73 million developers shape the future of software, together. Contribute to the open source community, manage your Git repositories, review code like a pro, track bugs and feat... github.com 접속 후 회원가입함 Sing up for Github 클릭 메일 확인 후 코드 입력 git과 연동하기 git bash를 키고 1. 가입했던 user name 2. 가입했던 이..

Git [1] 기초 및 설치

버전관리시스템(형상관리) • Configuration Management Systems • Version Control Systems • Source Data + History • 협업, 작업추적, 복구등이가능 • 하루종일 개발한 코드가 컴퓨터가 다운되면 다 날라가 버림(ㄷㄷ) • 파일 버전관리를 위해 사용함 Centralized Version Control Systems • 협업이가능해짐 • commit 하는순간배포되어다수에게버그유발가능 (서버로바로 commit) • 인터넷이안되면작업이불가능 • 자신만의 version history를가질수없음 Distributed Version Control Systems • commit 하더라도개인저장소내에적용됨 (다른개발자에게영향없음) • 원하는순간에배포(Push) ..

SQL SQLite 사용

관계형 데이터베이스로 작업하기 시나리오에 가장 적합한 솔루션은 데이터베이스를 이용하는 것 컴퓨터 메모리를 초과할 수 있는 데이터를 훨씬 쉽게 저장할 수 있음 데이터베이스의 데이터는 사용자가 제공한 조건에 따라 쿼리할 수 있음 기존 레코드를 쉽게 업데이트하고 데이터베이스에 새 레코드를 삽입할 수 있음 관계형 데이터베이스는 테이블과 테이블 관계의 집합 관계형 데이터베이스 테이블은 R의 데이터 프레임과 표현이 동일함 여러 테이블 간 정보를 쉽게 결합할 수 있도록 테이블은 관계를 가질 수 있음 가장 간단한 데이터베이스라고 할 수 있는 SQLite(http://sqlite.org/)에서 시작할 것 SQLite는 이식 가능한 경량 데이터베이스 엔진임 R에서는 SQLite 데이터베이스를 활용하는 데 RSQLite 패..

SQL Mongo DB 활용

Mongo DB 특징 - 문서 모델이다. • 속성의 값은 숫자, 문자열, 날짜와 같이 간단한 데이터 타입이나 배열, 또는 다른 문서가 될 수 있다. • 문서의 구조가 다양하다. (=> json같은 형태이다.) • 미리 정해진 스키마가 존재하지 않는다. • 애플리케이션에서 저장 구조를 정한다. • 구조가 빈번히 조정되는 초기단계에 매력적이다. - 한 컬랙션(= 테이블이라 생각하면 이해 쉬움)에 64개까지 인덱스 생성 가능하다. - 복제 환경 구성이 가능하고 자동 샤딩(RDB에서도 사용하는 클러스터 확장 방법)으로 분산 환경 구성이 가능하다. • 수평적인 확장성이 좋다. 단, 무결성과 정합성을 보장하지 않기 때문에 장단점이 있다. - 관계DB와 key-value 시스템의 장점을 결합하여 설계되었다. • 관계..