본문 바로가기

DB엔지니어가 공부하는 python

(56)
파이썬_주소DB 공공데이터포털 에서 주소DB 다운 받아 DB에 insert 하기 #1 파이썬_주소DB 공공데이터포털 에서 주소DB 다운 받아 DB에 insert 하기 #1 안녕하세요. 이번 작업은 제가 이미 여러 번 했던 작업이긴 한데.. 혹시나 필요하신 분들이 계실까 싶어 공유합니다. 우리나라 주소 DB를 내 DB에 구축하는 방법입니다. 1편은 파이썬과 직접적으로 관련 없습니다. 이젠 추후에 이 주소 DB를 가지고 여러 가지 작업을 할 텐데요, 업데이트도 해야 하고, 주소와 관련된 다른 정보도 받아 오도록 해보겠습니다. 1. 필요한 자료 다운로드하기 우선 아래 링크에서 주소DB 전체분을 다운로드합니다. http://www.juso.go.kr/addrlink/addressBuildDevNew.do?menu=match 공공데이터 포털입니다. 여기 재미있는 데이터 많이 있습니다. 미세먼지 데..
[python] 파이썬으로 역대 로또 당첨번호, 1등 당첨금 수집 후 엑셀,텍스트 파일에 저장 feat.미완성 안녕하세요. 1일 1공부를 목표로 파이썬을 스터디 하고 있는 8년차 DB엔지니어 sTricky 입니다. 사실 몇일 비었는데.. 쉴려고 쉰건 아니고, 하고싶은 주제를 목표하는만큼 끌어 올리는데 실패해서 늦어졌습니다. 원래 그림은 역대 로또 번호를 api로 받아와서 그걸 엑셀에 이쁘게 저장 하는거 였는데.. 지금 상태로는 엑셀에서의 후처리를 할수밖에 없는 상황입니다. 상태를 보시고 혹시 도움을 주실수 있으시면 "댓글" 로 간곡히 부탁드립니다. ㅠㅠ 바로 들어가 볼께요! 아주 간단 합니다! (하긴... 제가 복잡한건 아직 못해요..ㅎㅎ) from urllib.request import urlopen import pandas as pd import json 필요한 라이브러리를 import 해줍니다. 그리고 fo..
[python] 파이썬으로 네이버 카페 게시판 크롤링 & 워드 클라우드 실습 하기! (feat.konlpy.Twitter) 안녕하세요. 데이터 분석의 첫걸음으로 워드 클라우드를 분석하기 위해 제가 가입해 활동하고 있는 자동차 네이버 카페의 자유게시판을 크롤링했습니다. 지난 2019년 작성된 자동차 카페 내 자유게시판의 게시글과 본문을 크롤링했습니다. 아직 실력이 모자라, 한글로 된 데이터만 워드 클라우드에 넣을 수 있었습니다. 한 번에 할 수 없는 실력이라 ㅎㅎ 먼저 크롤링을 하는 파이썬 코드를 짜고 크롤링한 데이터를 DB에 insert 하는 부분과 DB에 쌓인 내용을 text 파일로 묶어 konlpy 라이브러리를 이용하여 명사만 추출하여 카운트하고 골라낸 데이터를 워드 클라우드로 viewing 하는 부분으로 나누어 진행했습니다. 고수님들의 거침없는 질책 부탁드립니다!! 자동차 네이버 카페에 있는 자유게시판 게시글 제목과 게..
[python] 파이썬으로 주식 상장기업 크롤링한 데이터 엑셀 저장 및 엑셀 파일 불러오기 feat.pandas 안녕하세요. 오늘은 파이썬으로 크롤링한 데이터를 엑셀로 저장하는 방법과 더불어 엑셀에 저장된 데이터를 파이썬 pandas dataset 으로 불러오는 방법 간단하게 소개 합니다. 우선 데이터를 크롤링해 봅니다. 한국거래소에서 운영하는 kind.krx.co.kr에서 상장기업 정보를 불러 오겠습니다. import pandas as pd code_df = pd.read_html('http://kind.krx.co.kr/corpgeneral/corpList.do?method=download&searchType=13', header=0)[0] # 웹에 있는 데이터를 불러 옵니다. # header = 0 옵션을 준 이유는, # 맨 윗줄의 데이터를 헤더로 사용하기 위해서 입니다. 그리고 읽어온 데이터를 DataFra..
[python] 파이썬 데이터분석, 민간아파트 분양가격 동향 v.2019 #1 안녕하세요. 파이썬으로 데이터 분석 공부하고 있는 sTricky 입니다. 오늘은 유튜브 영상을 보고 따라하며 민간아파트 분양가격 데이터를 분석 하는 실습을 해보겠습니다. 아마, 몇편으로 나뉠지는 모르겠지만, 한편으로 끝날것 같지는 않습니다. 우선 보고 따라는 실습 영상 올릴께요. 위 영상을 보고 진행을 해보겠습니다. 우선 데이터를 다운로드 받습니다. 데이터는 공공데이터포털에서 받습니다. 여긴 정말 유용한 데이터가 많이 있으니, 종종 들어가보시면 참고가 될만한 자료를 찾으실수 있을겁니다. https://www.data.go.kr/dataset/3035522/fileData.do 공공데이터포털 국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방..
[python] jupyter notebook 에서 디버깅 (debug) 하기 #ipdb 명령어 안녕하세요. 파이썬을 요즘 열공하고 있는 sTricky입니다. 요즘 데이터 분석 쪽 공부를 파이썬을 통해서 하고 있습니다. 하다가 알게 된 괜찮은 정보가 있어서 공유합니다. 아마, 저 같은 파린이들에겐 좋은 정보가 되겠지만, 이미 궁극의 경지에 오르신분들껜 너무나도 시시한 내용이 아닐까 걱정이 됩니다. jupyter notebook에서 특정 코드들을 실행하다 디버깅 (debug)를 하고 싶을 때~! 편하게 하는 방법이 뭐가 있을까.. 너무나도 간편한 방법이 있었습니다! 바로 ㄱㄱ def test_1 () : print ('Korea') def test_2 () : print ('WOW') def test_3 () : test_1 () test_2 () print ('2020') 이러한 코드를 실행시킨 후..
[python] 인터넷이 안되는곳에서 파이썬 패키지 설치하기! (pip download) 안녕하세요. 파이썬 패키지를 설치하는 방법을 안내드립니다. 일반적인 파이썬 패키지 설치는 매우 간단합니다. 예를들어서 우리가 많이쓰는 numpy 패키지를 인터넷이 되는 환경에서는 pip3 install numpy 이렇게 하면 되겠죠. 하지만 우리가 인터넷이 안되는 환경에서 설치를 하려면 어떻게 해야 할까요? 그럴땐 일단, 인터넷이 되는 환경에서 아래와 같이 커맨드하여 설치 파일을 다운로드 받습니다. pip3 download numpy 이러면 아마 numpy-2019.xx.xx.tar.gz 파일이 PC로 저장 될 겁니다. 이걸 복사해서 설치하고자 하는 시스템에 복사해 넣습니다. 그러고나서 설치하고자 하는 시스템에서 아래와 같이 커맨드 하여 numpy를 설치 합니다. pip3 install --no-inde..
[python] 텍스트 파일에서 명사만 뽑아서 명사별 빈도 카운트 하기 konlypy 안녕하세요. 파이썬을 열심히 공부하고 있는 db 엔지니어입니다. 이번 포스팅에서는 어떤 텍스트 파일 안에서 명사만 찾아 그 빈도를 카운트해보는 소스를 함께 공부해 볼 거예요. 이걸 이용해서 우리가 흔하게 보던 시각화 툴인 WordCloud를 이용해서 요런 거 만들 수 있습니다. 이 포스팅에서는 WordCloud 까지는 안 하고, (이건 다음에 포스팅하겠습니다.) 일단 명사를 추출해서 빈도를 카운트하는데 까지만 해보도록 하겠습니다. 이것만으로도 데이터를 분석하는데 다방면으로 꽤나 유용하게 쓸 수 있습니다. 바로 시작할게요!! f = open("E:/test_comments.txt", "r") lines = f.read() 일단, 분석을 할 문장이 들어 있는 데이터를. txt로 저장하고, 이 파일을 읽어 옵..