Machine Learning25 선형 회귀 (LInear Regression) / 선형 분류 (Linear Classification) Linear Regression 선형회귀 : 데이터를 가장 잘 표현하는 직선을 찾는 것 - LinearRegression (y=ax+b) >> 규제가 없음 - SGDRegression (경사하강법) - 파라미터 alpha를 사용해서 규제 (클수록 규제 강해짐) >> Lasso, Ridge LinearRegression 선형 회귀 : 데이터의 오차값이 가장 적은 직선을 구하는 것 H(x) = w(가중치)x + b(절편) cost = H(x) - y (실제 값), 즉 예측값에서 실제값을 뺀 값 즉 cost가 가장 작은 직선이 만들어지는 w와 b를 찾아야함 이때 음수도 있을수 있으니 H(x) - y의 값을 제곱해주고 이 cost1, cost2, cost3...들의 값을 더해서 평균값을 낸것이 MSE (평균제곱.. 2022. 8. 18. TfidfVectorizer와 knolpy를 이용한 감성분석 [ knolpy 환경설정 / dropna() 결측치 제거 / kkma.tagset, kkma.nouns( ), kkma.morphs( ), kkma.pos( ) ] [ 네이버 영화 리뷰 텍스트 ] [ knolpy 사용을 위한 환경설정 ] 1. java 설치(1.7이상) >> cmd에서 java -version 확인 2. 시스템 환경변수 편집에 경로 설정 - Java Home jvm.dll이 있는 폴더를 시스템 변수의 JAVA_HOME으로 추가하기 (ex) C:\Program Files\Java\jdk-16.0.1\bin\server 3. JPype1(0.5.7 이상) 다운로드 https://www.lfd.uci.edu/~gohlke/pythonlibs/#jpype Archived: Python Extension Packages for Windows - Christoph Gohlke Archived: Python Extension Packages for Windows - Christoph Gohlk.. 2022. 8. 17. CountVectorizer를 이용한 감성분석 [ list 컴프리핸션 / vect.fit( ) , vect.vocabulary_, vect.transform( ) / PipiLine 파이프라인 만들기 ] [BOW : Bag Of Word ] [ 영화 리뷰 텍스트 ] url = '파일 디렉토리' from sklearn.datasets import load_files data명 = load_files(url, shuffle = True) load_files로 파일을 번치객체 형태로 불러옴 // shuffle로 받아온 데이터를 섞어줌 from sklearn.feature_extraction.text import CountVectorizer from sklearn.feature_extraction.text import TfidfVectorizer 토큰화&수치화하는 방법 : BOW (Bag Of Word) 기법 / 등장하는 단어들의 빈도수를 이용해서나타내는 것 -CountVectorizer은 단어들의 빈도를 이용하여 백터화 -Tfidfvectorizer은 단어가 각 문서에서.. 2022. 8. 16. 텍스트 마이닝의 개념 [ 자연어 / 분석 프로세스 (수집 > 전처리 > 전처리 > 토큰화 > 특성추출 > 데이터분석) ] 인공언어 : \n \t 등등 러시아 / 월드컵 / 러시아 월드컵 , 따라서 +1개로 단어의 개수가 늘어난 효과 단어를 토큰화로 쪼개고 단어사전과 비교해서 빈도수를 표현 적은 문서에서 발견된다 >> 특정 문서를 대표하는 핵심어일수 있다 2022. 8. 16. 이전 1 2 3 4 ··· 7 다음