본문 바로가기

gensim3

[파이썬] gensim 3.x to 4 Migration Migrating from Gensim 3.x to 4 · RaRe-Technologies/gensim Wiki · GitHub GitHub - RaRe-Technologies/gensim: Topic Modelling for Humans Topic Modelling for Humans. Contribute to RaRe-Technologies/gensim development by creating an account on GitHub. github.com 2022. 8. 28.
[파이썬] NLP-Word2Vec로 단어 및 문장 유사도 분석 여러 방법으로 Word2Vec을 만들 수 있습니다. 여기서는 gensim package를 활용해서 Word2Vec을 만들겠습니다. Word2Vec을 사용해 보면 놀라울 정도로 잘 동작한다는 것으로 알 수 있습니다. 더 정확성을 높이려면 학습량을 늘리면 될 것입니다. 대신 시간이 오래 걸리죠. 다음과 같은 순서로 진행 합니다. 1) 한글 데이터 받기 1-1) Wiki 한글 데이터를 받습니다. 1-2) 받은 bz2 압축파일을 풀어서 Text 파일로 만듭니다. 2) 데이터 전처리 - 특수문자 제거 및 품사 처리 3) Word2Vec 학습 4) Word2Vec 사용 1-1) Wiki 한글 데이터 받기 - 아래 정리된 방법으로 받습니다. [파이썬] 위키피디아(Wiki) 한글 자료 Dump (tistory.com).. 2022. 8. 24.
[파이썬] gensim.models.Word2Vec 에러(__init__() got an unexpected keyword argument 'size') gensim.models.Word2Vec를 사용 중 다음과 같은 에러가 발생했습니다. 자료를 찾아서 아래와 같이 수정했습니다. # 'size': 350, # 300차원짜리 벡터스페이스에 embedding 'vector_size': 350, # 300차원짜리 벡터스페이스에 embedding config = { 'min_count': 5, # 등장 횟수가 5 이하인 단어는 무시 # 'size': 350, # 300차원짜리 벡터스페이스에 embedding 'vector_size': 350, # 300차원짜리 벡터스페이스에 embedding 'sg': 1, # 0이면 CBOW, 1이면 skip-gram을 사용한다 'batch_words': 10000, # 사전을 구축할때 한번에 읽을 단어 수 # 'iter': .. 2022. 8. 23.
728x90
반응형