본문 바로가기

프로그램995

[파이썬] pandas DataFrame loc(null값 조회) 새로운 DataFrame을 만듭니다. import pandas as pd raw_data = {'col0': ['a1', 'a2', 'a3', None], 'col1': ['a10', 'a20', 'a30', 'a40'], 'col2': ['a100', None, 'a300', None]} df = pd.DataFrame(raw_data) isna로 null 값을 조회할 수 있습니다. df.loc[df['col0'].isna()] 2개의 column에서 조회는 다음과 같이 합니다. '&' (and)를 사용합니다. 같은 Row에서의 조건이 됩니다. df.loc[df['col0'].isna() & df['col2'].isna()] '|' (or) 사용해서 각각의 다른 Row의 조건을 검색할 수 있습니다. d.. 2022. 8. 31.
[파이썬] 문장 요약 하기 (summa package) 이전에 lexrankr package를 사용해서 문자 요약하는 것을 살펴봤습니다. [파이썬] 문장 요약 하기 (lexrankr) (tistory.com) [파이썬] 문장 요약 하기 한글 문장을 요약하는 코드입니다. 긴 문장을 짧게 요약하는 것은 많은 정보를 중요한 정보만 빠르게 인식할 수 있다는 측면에서 중요합니다. 또한 이것은 많은 데이터에서 정보를 파악한다는 question99.tistory.com from summa.summarizer import summarize your_text = '삼성전자가 갤럭시Z플립4 Z폴드4를 공개하자마자 통신업체들이 사전예약 분위기 띄우기에 나섰다. \ 각종 경품을 내걸고 사전예약 알림을 신청하면 네이버페이, 카카오페이를 제공키로 한 점이 눈길을 끈다. \ 통신 3사.. 2022. 8. 29.
[파이썬] gensim 3.x to 4 Migration Migrating from Gensim 3.x to 4 · RaRe-Technologies/gensim Wiki · GitHub GitHub - RaRe-Technologies/gensim: Topic Modelling for Humans Topic Modelling for Humans. Contribute to RaRe-Technologies/gensim development by creating an account on GitHub. github.com 2022. 8. 28.
[파이썬] map 함수 (함수의 반복 실행) 다음과 같이 일반적인 함수를 만들어 보겠습니다. def func1(x): return x*10 func1(10) 결과 100 a_lst = [1,2,3,4,5] result = [] for i in range(len(a_lst)): result.append(func1(a_lst[i])) result 결과 [10,20,30,40,50] map을 사용해 보겠습니다. map(함수, 리스트) 즉, 함수에 인수로 리스트를 넘겨주어 리스트 원소수만큼 반복 실행합니다. a_lst = [1,2,3,4,5] list(map(func1, a_lst)) 결과 [10, 20, 30, 40, 50] 2022. 8. 27.
[파이썬] lambda 표현식 (한 줄 함수 만들기:lambda x:x*10)(10)) 함수와 같은 동작을 하는 한줄 표현식을 만들 수 있습니다. 아래 코드와 같이 간단한 함수를 만들어 사용하고 있습니다. def func1(x): return x*10 func1(10) 결과 100 다음과 같이 lambda를 사용해서 동일한 동작을 만들 수 있습니다. (lambda x:x*10)(10) 결과 100 다음과 같이 사용 됩니다. lambda 매개변수;표현식 다음과 같이 인수를 2개 사용하게 만든 코드 입니다. (lambda x,y:x*y)(10, 20) 결과 200 2022. 8. 27.
[파이썬] join 함수 (리스트 요소를 합쳐서 하나의 문자열로 만듬) '구분자'.join(리스트) 와 같이 사용합니다. a = ['a','b','c'] ''.join(a) a = ['a','b','c'] '/'.join(a) 2022. 8. 26.
[파이썬] random 리스트 값 섞기 1~20까지 숫자 리스트를 만듭니다. import random aa = list(range(1, 21)) aa 이제 리스트의 순서를 임의의 섞습니다. random.shuffle(aa) aa 이렇게 임의의 순서로 섞이는 것을 확인 할 수 있습니다. 다음과 같이 2차원 리스트에서의 동작을 보겠습니다. 2차원 배열(리스트)를 만듭니다. bb = [] for i in range(10): bb.append(list(range(i, i+10))) bb 다음과 같이 섞이는 것을 볼 수 있습니다. random.shuffle(bb) bb 2022. 8. 26.
[파이썬] pandas 행열(Column, Row) 전환 예제로 사용할 데이터를 만듭니다. from pandas import Series, DataFrame raw_data = {'col0': [1, 2, 3, 4], 'col1': [10, 20, 30, 40], 'col2': [100, 200, 300, 400]} data = DataFrame(raw_data) transpose()를 사용하면 Column, Row가 전환됩니다. data2 = data.transpose() Column명을 변경합니다. data2.columns = ['col1','col2','col3','col4'] index를 조회해보면 아래와 같이 나옵니다. 원데이터의 Column 명으로 되어 있습니다. data2.index index 즉 원데이터의 Column명을 다시 'name'이라는 .. 2022. 8. 25.
[파이썬] 엑셀 xls(html) 파일 읽기 파이썬에서 엑셀(xls) 파일을 읽기 중 다음과 같이 html 형태로 되어 있는 경우가 있습니다. 일반적인 파이썬 방법으로는 읽지 못합니다. 다음과 같은 코드로 읽어야 합니다. import pandas as pd file = 'e:/RnD/Tensorflow/가격정보_쌀_20211201_20211231.xls' df = pd.read_html(file)[0] 다음과 같이 DataFrame 데이터가 됩니다. 2022. 8. 25.
[파이썬] NLP-Word2Vec로 단어 및 문장 유사도 분석 여러 방법으로 Word2Vec을 만들 수 있습니다. 여기서는 gensim package를 활용해서 Word2Vec을 만들겠습니다. Word2Vec을 사용해 보면 놀라울 정도로 잘 동작한다는 것으로 알 수 있습니다. 더 정확성을 높이려면 학습량을 늘리면 될 것입니다. 대신 시간이 오래 걸리죠. 다음과 같은 순서로 진행 합니다. 1) 한글 데이터 받기 1-1) Wiki 한글 데이터를 받습니다. 1-2) 받은 bz2 압축파일을 풀어서 Text 파일로 만듭니다. 2) 데이터 전처리 - 특수문자 제거 및 품사 처리 3) Word2Vec 학습 4) Word2Vec 사용 1-1) Wiki 한글 데이터 받기 - 아래 정리된 방법으로 받습니다. [파이썬] 위키피디아(Wiki) 한글 자료 Dump (tistory.com).. 2022. 8. 24.
728x90
반응형