파이썬 이것저것/파이썬 머신러닝 4

[Python] 머신러닝 K-means 클러스터링, PCA(차원축소)

비지도학습 : 데이터가 주어질 때, 데이터에 대한 정답이 주어지지 않음 차원축소를 통해 모델에서 Clustring을 활용하며 어떤 데이터의 포인트에 답이나 레이블 없이 데이터 의 군집을 찾아낸다 60% 강아지 40% 고양이의 경우는 없음, 확률적으로 이를 보일 수 있지만 현실세계에서는 그렇진 않다. Hard clustering은 선을 그어서 이를 분류한다. 각각의 클래스가 조금씩 0이나 1로 섞여있다, 라고 할때 이를 soft clustring이라고 한다. 자연적으로 데이터가 일어난다고 하고 클래스가 지나갈 때, 점차적으로 움직이게 된다. Softclustring을 사용하지 못할때, HardClustring을 사용함 HardClustering 은 비슷한 데이터 포인트 끼리 모으는데, 비슷하게 뭉친 클러스..

[Python] 다중, 다항회귀분석

데이터가 조금 더 복잡하다면? 각 매체가 얼마나 효율적인지 알아내 보자 FB에 30만원, TV에 100만원, 신문에 50만원의 광고비를 집행했을 때 예상 판매량은 얼마인가? N: 데이터의 개수 FB TV 신문 판매량 X: “Input” 데이터/Feature (광고료) - X1: FB 광고료 - X2: TV 광고료 - X3: 신문 광고료 Y: “Output” 해답/응답 (판매량) (x1(i), x2(i), x3(i), y(i)): i번째 데이터 단순선형회귀분석과 동일 완벽한 예측은 불가능 각 데이터 (x1(i), x2(i), x3(i), y(i)) 의 실제 값과 모델이 예측하는 값을 최소한으로 만들어줌 이 차이를 최소로 하는 β0, β1, β2, β3 을 구하도록 함 다중 회귀 분석 다중 회귀 분석(Mul..

[Python] 머신러닝 단순선형회귀분석

회귀분석이란? 키와 몸무게 데이터가 있다면, 대략 이정도의 몸무게가 될 것이다라는 것을 알 수 있지만, 컴퓨터가 이 데이터를 가지고 얼마나 정확하게 알 수 있을것인가를 봐야함 대학 운동부 학생들의 신체검사 자료 신입생 A가 들어왔다.(키는 175cm이다) 예상 몸무게는 얼마인가? 대학 운동부 학생들의 신체검사 자료 신입생 A가 들어왔다.(키는 175cm이다) 예상 몸무게는 얼마인가? 회귀분석법 데이터를 잘 설명하는 선을 찾는 것이며 제품이 판매 됬을 때, 관찰 할 수 없는 외부변인이 많다는 것이고 광고료에 대해서만 정확하게 알아 낼 수 있는지 분석을 실시함, 넓은 범위에서 판매량을 예측할 수 있으나, 기존의 데이터를 가지고 판매량을 예측할 수 있는게 회귀분석법임 데이터: 광고 분석과 판매량 목표: FB ..

[파이썬] XGB 활용하여 성적예측

import pandas as pd import numpy as np X_train = pd.read_csv("X_train.csv") X_test = pd.read_csv("X_test.csv") y_train = pd.read_csv("y_train.csv") y_test = pd.read_csv("y_test.csv") # trainindex 678 # StudentID 제거 필요, 통합데 이터 alldata = pd.concat([X_train, X_test], axis=0) alldata2 = alldata.drop("StudentID",axis=1) y_train_dr = y_train.drop("StudentID",axis=1) from sklearn.preprocessing import L..