728x90
반응형
gensim.models.Word2Vec를 사용 중 다음과 같은 에러가 발생했습니다.

자료를 찾아서 아래와 같이 수정했습니다.
# 'size': 350, # 300차원짜리 벡터스페이스에 embedding
'vector_size': 350, # 300차원짜리 벡터스페이스에 embedding
config = {
'min_count': 5, # 등장 횟수가 5 이하인 단어는 무시
# 'size': 350, # 300차원짜리 벡터스페이스에 embedding
'vector_size': 350, # 300차원짜리 벡터스페이스에 embedding
'sg': 1, # 0이면 CBOW, 1이면 skip-gram을 사용한다
'batch_words': 10000, # 사전을 구축할때 한번에 읽을 단어 수
# 'iter': 10, # 보통 딥러닝에서 말하는 epoch과 비슷한, 반복 횟수
'epochs': 10, # 보통 딥러닝에서 말하는 epoch과 비슷한, 반복 횟수
'workers': multiprocessing.cpu_count(),
}
model = gensim.models.Word2Vec(**config) # Word2vec 모델 생성
model.build_vocab(sentences_vocab) # corpus 개수를 셈
print('model.corpus_count: {}'.format(model.corpus_count))
# model.train(sentences_train, total_examples=model.corpus_count, epochs=config['iter']) # Word2Vec training
model.train(sentences_train, total_examples=model.corpus_count, epochs=config['epochs']) # Word2Vec training
model.save('model') # 모델을 'model' 파일에 저장
728x90
반응형
'프로그램' 카테고리의 다른 글
[파이썬] NLP-Word2Vec로 단어 및 문장 유사도 분석 (2) | 2022.08.24 |
---|---|
[파이썬] gensim.models.Word2Vec 에러(__init__() got an unexpected keyword argument 'iter') (0) | 2022.08.23 |
[파이썬] bz2 파일 text로 저장 하기 (0) | 2022.08.22 |
[파이썬] 위키피디아(Wiki) 한글 자료 Dump (0) | 2022.08.22 |
[파이썬] 에러('cp949' codec can't encode character '\u2013' in position 176: illegal multibyte sequence) (0) | 2022.08.22 |
댓글