728x90
반응형
Wiki 데이터를 전부 Dump 받으려고 시도했습니다.
WikiExtractor를 사용하는 방법이 있는데, 제 PC에서는 에러가 발생해서 사용할 수가 없었습니다.
그래서 다음과 같이 작업을 진행했습니다.
1) 아래 Wiki에서 Dump 데이터를 다운 받을 수 있도록 해 두었습니다.
위키백과:데이터베이스 다운로드 - 위키백과, 우리 모두의 백과사전 (wikipedia.org)
'여기'(빨간Box)를 클릭합니다.
2) 기간 선택 Page에서 원하는 기간을 클릭합니다.
Index of /kowiki/ (wikimedia.org)
3) 해당 파일을 클릭하면 다운이 시작합니다.
kowiki dump progress on 20220820 (wikimedia.org)
'다운로드'에 파일이 있는 것을 확인할 수 있습니다.
4) bz2 압축파일을 읽고 Text 파일로 저장합니다. (테스트를 위해 작은 크기의 파일로 했습니다)
- 70MB 정보 파일은 작업이 가능하나 900MB 파일은 메모리가 많이 소모하고 시간이 오래 걸려 에러가 발생 할 수 있습니다. 주의 바랍니다.
#####################
## bz2 압축 풀기
#####################
import bz2
# bz2 파일 읽기
with open("kowiki-20220820-pages-articles-multistream1.xml-p1p82407.bz2","rb") as f:
data = f.read()
decom_data = bz2.decompress(data).decode()
print(decom_data[:500]) # 내용 확인 하기
# text 파일로 저장
f = open('wiki_data.txt','w',encoding='UTF-8')
f.write(decom_data)
f.close()
text 파일을 확인할 수 있습니다.
728x90
반응형
'프로그램' 카테고리의 다른 글
[파이썬] gensim.models.Word2Vec 에러(__init__() got an unexpected keyword argument 'size') (0) | 2022.08.23 |
---|---|
[파이썬] bz2 파일 text로 저장 하기 (0) | 2022.08.22 |
[파이썬] 에러('cp949' codec can't encode character '\u2013' in position 176: illegal multibyte sequence) (0) | 2022.08.22 |
[파이썬] nltk에서 에러(Resource punkt not found) (0) | 2022.08.22 |
[파이썬/법칙] 콜라츠 추측 (1) | 2022.08.21 |
댓글