경기도 인공지능 개발 과정/R

R 비정형 데이터 분석

agingcurve 2022. 4. 25. 17:28
반응형

useSejongDic()

library(KoNLP)
library(wordcloud)

data1 <- readLines("seoul_new.txt")
data1

data2 <- sapply(data1,extractNoun, USE.NAMES = F)

data2

# 추출된 명사를 30개만 출력해서 확인
head(unlist(data2),30)


data3<-unlist(data2)

# 원하지 않는 내용 걸러 내기
gsub("변경전 글자", "변경후 글자", "원본데이터")

data3 <- gsub("\\d+","",data3)
data3 <- gsub("서울시","",data3)
data3 <- gsub("서울","",data3)
data3 <- gsub("요청","", data3)
data3 <- gsub("제안","", data3)
data3 <- gsub(" ","", data3)
data3 <- gsub("-","",data3)

# 메모장으로 저장
write(unlist(data3),"seoul_2.txt")
# 테이블 쓰기
data4 <- read.table("seoul_2.txt")
nrow(data4)


# 사전에 필요한 단어를 추가
mergeUserDic(data.frame("서진수", "ncn"))
# 경로 확인
.libPaths()

data1 <- readLines("seoul_new.txt")

wordcount <- table(data4)
wordcount

head(sort(wordcount, decreasing = T),20)

data3 <- gsub("OO","",data3)
data3 <- gsub("개선","", data3)
data3 <- gsub("문제","", data3)
data3 <- gsub("관리","", data3)
data3 <- gsub("민원","", data3)
data3 <- gsub("이용","", data3)
data3 <- gsub("관련","", data3)
data3 <- gsub("시장","", data3)


write(unlist(data3),"seoul_3.txt")
data4 <- read.table("seoul_3.txt")
wordcount <- table(data4)
head(sort(wordcount, decreasing=T),20)

library(RColorBrewer)
palete <- brewer.pal(9,"Set3")

wordcloud(names(wordcount),
          freq=wordcount,
          scale=c(5,1),
          rot.per=0.25,
          min.freq=1,
          random.order=F,
          random.color=T,
          colors=palete)

v1 <- ("봄이 지나면 여름이고 여름이 지나면 가을입니다.그리고 겨울이죠")
extractNoun(v1)


v3 <-c("봄이 지나면 여름이고 여름이 지나면 가을입니다 그리고 겨울이죠")

v4 <- sapply(v3,extractNoun,USE.NAMES=F)

v4

wordcloud(c(letters,LETTERS,0:9),seq(1,1000,len=62))


library(RColorBrewer)
palete <- brewer.pal(9,"Set1") 
wordcloud(c(letters,LETTERS,0:9),seq(1,1000,len=62),colors=palete)






'경기도 인공지능 개발 과정 > R' 카테고리의 다른 글

R 웹 크롤링(HTML 기본문법)  (0) 2022.04.26
R 지도시각화  (0) 2022.04.25
R 자연어 처리  (0) 2022.04.25
R 야구 데이터 분석  (0) 2022.04.19
R 서울시 역세권 아파트 가격 분석  (0) 2022.04.19