본문 바로가기

파이썬

(48)
[python] 파이썬으로 네이버 카페 게시판 크롤링 & 워드 클라우드 실습 하기! (feat.konlpy.Twitter) 안녕하세요. 데이터 분석의 첫걸음으로 워드 클라우드를 분석하기 위해 제가 가입해 활동하고 있는 자동차 네이버 카페의 자유게시판을 크롤링했습니다. 지난 2019년 작성된 자동차 카페 내 자유게시판의 게시글과 본문을 크롤링했습니다. 아직 실력이 모자라, 한글로 된 데이터만 워드 클라우드에 넣을 수 있었습니다. 한 번에 할 수 없는 실력이라 ㅎㅎ 먼저 크롤링을 하는 파이썬 코드를 짜고 크롤링한 데이터를 DB에 insert 하는 부분과 DB에 쌓인 내용을 text 파일로 묶어 konlpy 라이브러리를 이용하여 명사만 추출하여 카운트하고 골라낸 데이터를 워드 클라우드로 viewing 하는 부분으로 나누어 진행했습니다. 고수님들의 거침없는 질책 부탁드립니다!! 자동차 네이버 카페에 있는 자유게시판 게시글 제목과 게..
[python] 파이썬으로 주식 상장기업 크롤링한 데이터 엑셀 저장 및 엑셀 파일 불러오기 feat.pandas 안녕하세요. 오늘은 파이썬으로 크롤링한 데이터를 엑셀로 저장하는 방법과 더불어 엑셀에 저장된 데이터를 파이썬 pandas dataset 으로 불러오는 방법 간단하게 소개 합니다. 우선 데이터를 크롤링해 봅니다. 한국거래소에서 운영하는 kind.krx.co.kr에서 상장기업 정보를 불러 오겠습니다. import pandas as pd code_df = pd.read_html('http://kind.krx.co.kr/corpgeneral/corpList.do?method=download&searchType=13', header=0)[0] # 웹에 있는 데이터를 불러 옵니다. # header = 0 옵션을 준 이유는, # 맨 윗줄의 데이터를 헤더로 사용하기 위해서 입니다. 그리고 읽어온 데이터를 DataFra..
[python] 파이썬 데이터분석, 민간아파트 분양가격 동향 v.2019 #1 안녕하세요. 파이썬으로 데이터 분석 공부하고 있는 sTricky 입니다. 오늘은 유튜브 영상을 보고 따라하며 민간아파트 분양가격 데이터를 분석 하는 실습을 해보겠습니다. 아마, 몇편으로 나뉠지는 모르겠지만, 한편으로 끝날것 같지는 않습니다. 우선 보고 따라는 실습 영상 올릴께요. 위 영상을 보고 진행을 해보겠습니다. 우선 데이터를 다운로드 받습니다. 데이터는 공공데이터포털에서 받습니다. 여긴 정말 유용한 데이터가 많이 있으니, 종종 들어가보시면 참고가 될만한 자료를 찾으실수 있을겁니다. https://www.data.go.kr/dataset/3035522/fileData.do 공공데이터포털 국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방..
[python] jupyter notebook 에서 디버깅 (debug) 하기 #ipdb 명령어 안녕하세요. 파이썬을 요즘 열공하고 있는 sTricky입니다. 요즘 데이터 분석 쪽 공부를 파이썬을 통해서 하고 있습니다. 하다가 알게 된 괜찮은 정보가 있어서 공유합니다. 아마, 저 같은 파린이들에겐 좋은 정보가 되겠지만, 이미 궁극의 경지에 오르신분들껜 너무나도 시시한 내용이 아닐까 걱정이 됩니다. jupyter notebook에서 특정 코드들을 실행하다 디버깅 (debug)를 하고 싶을 때~! 편하게 하는 방법이 뭐가 있을까.. 너무나도 간편한 방법이 있었습니다! 바로 ㄱㄱ def test_1 () : print ('Korea') def test_2 () : print ('WOW') def test_3 () : test_1 () test_2 () print ('2020') 이러한 코드를 실행시킨 후..
[python] 인터넷이 안되는곳에서 파이썬 패키지 설치하기! (pip download) 안녕하세요. 파이썬 패키지를 설치하는 방법을 안내드립니다. 일반적인 파이썬 패키지 설치는 매우 간단합니다. 예를들어서 우리가 많이쓰는 numpy 패키지를 인터넷이 되는 환경에서는 pip3 install numpy 이렇게 하면 되겠죠. 하지만 우리가 인터넷이 안되는 환경에서 설치를 하려면 어떻게 해야 할까요? 그럴땐 일단, 인터넷이 되는 환경에서 아래와 같이 커맨드하여 설치 파일을 다운로드 받습니다. pip3 download numpy 이러면 아마 numpy-2019.xx.xx.tar.gz 파일이 PC로 저장 될 겁니다. 이걸 복사해서 설치하고자 하는 시스템에 복사해 넣습니다. 그러고나서 설치하고자 하는 시스템에서 아래와 같이 커맨드 하여 numpy를 설치 합니다. pip3 install --no-inde..
[python 데이터분석] 캐글 타이타닉 따라해보기 #2 # 캐글 타이타닉 따라해보기 2탄 입니다. 아마 타이타닉 따라하기는 마지막 편이 될 것 같습니다. 전편 보기 : 2019/12/26 - [DB엔지니어가 공부하는 python] - [python] 캐글 타이타닉 따라해보기 #1 [python] 캐글 타이타닉 따라해보기 #1 오늘 부터는 캐글에서 진행했던 데이터 분석 대회중 하나인 타이타닉을 따라해볼꺼다. 아직 난 파린이닌깐... # 대회 링크는 : https://www.kaggle.com/c/2019-1st-ml-month-with-kakr/data 위 링크에 들어가서 데.. stricky.tistory.com 전편에도 제가 언급했지만, 캐글 타이타닉 따라해보기는 아래 참조 블로그가 있습니다. 참조 블로그 : https://cyc1am3n.github.io..
[python 데이터분석] 캐글 타이타닉 따라해보기 #1 오늘부터는 캐글에서 진행했던 데이터 분석 대회 중 하나인 타이타닉을 따라 해 볼 거다. 아직 난 파린이닌깐... # 대회 링크는 : https://www.kaggle.com/c/2019-1st-ml-month-with-kakr/data 위 링크에 들어가서 데이터 셋도 한번 살펴보고.. 대회 요강 등도 한번 살펴보자.. 그리고 나는, 괜찮은 튜토리얼 블로그를 하나 보고 따라 할 생각이다. 그래서 찾은 블로그는... https://cyc1am3n.github.io/2018/10/09/my-first-kaggle-competition_titanic.html 캐글 타이타닉 생존자 예측 도전기 (1) 이번에는 캐글의 입문자를 위한 튜토리얼 문제라고 할 수 있는 Titanic: Machine Learning fro..
[python] 크롤러 만들어 db에 정보 insert 하기 일단, 아래 소스에서 영화 제목과 평점을 뽑아 오는 과정은 타 블로그에서 소스를 가져왔습니다.. (해당 소스가 여기저기 블로그에 많이 있어서 어디가 원본인지 파악이 힘듦) 파이썬을 이용해서 크롤러를 만들기 위해 구글 선생님한테 가서 무척이나 많은 검색을 부탁드렸고, 아래와 같이, 비교적 간단한 크롤링을 구현하는 소스를 구하게 되었다. 그냥 소스를 돌리기만 하면 그건 내 것이 아니니.. 소스 분석을 해보았다. 그리고 내가 가지고 있는 TEST DB에 그 데이터를 insert 하는데 까지 일단 성공! 블로그에 흔적을 남겨둔다. from bs4 import BeautifulSoup from urllib.request import urlopen #선언부로, 어떤 모듈을 쓸것인지.. 선언하는 부분. #위와 같이 ..