머신러닝 (2) 썸네일형 리스트형 [빅데이터] word2vec 모델 적용시키기 - 유튜브 스팸 데이터 분석해보기(2) 지난시간의 pandas dataframe과 같은 유튜브 스팸 데이터이다. 저번엔 이상한 \ufeff를 떼고, 중복된 content(댓글)을 제거해서 데이터프레임을 재구성했다. 이번시간엔 문장을 토큰화시켜서 단어화된 리스트에 word2vec 모델을 적용해서 word embedding을 시도해 보고자 한다. 문장의 토큰화는 다음과 같이 진행한다. from nltk.tokenize import word_tokenize commentlist=[] for sentence in x_data: word_tokens = word_tokenize(sentence) result = [] for w in word_tokens: result.append(w) commentlist.append(result) commentlis.. [빅데이터] pandas로 특정 행의 데이터만 가져오기 - 유튜브 스팸 데이터 분석해보기(1) 학교 머신러닝 과목 과제로 https://archive.ics.uci.edu/ml/datasets.php UCI Machine Learning Repository: Data Sets Multivariate, Sequential, Time-Series, Domain-Theory archive.ics.uci.edu 이 곳에 있는 데이터 set 중에서 원하는 것을 골라 feature engineering 을 통해 유의미한 분석을 해내라는 과제가 나왔다. 필자는 youtube spam data를 선택했다. 재밌게 해볼수 있을 것 같아서~ 머신러닝 관련 프로그램 다뤄본것도 거의 1년.. 다되갈 정도로 오래됐고, 자연어 처리 관련 부분도 처음 공부하는 것이기 때문에 블로그에 정리하면서 과제를 조금씩 진행하려고 한다.. 이전 1 다음