본문 바로가기

크롤링

(3)
[파이썬]네이버 카페 게시판 크롤링 웹 스크래핑 2021년 버전 [파이썬]네이버 카페 게시판 제목, 본문, 작성자, 글번호 웹 스크래핑 2021년 버전 안녕하세요. 한 2년여전에 네이버 카페 스크래핑을 할 일이 있어서 했었고, 이번에 다시 하는데, 안되더라구요. 역시.. 네이버..ㅎㅎ 많이 바꿨더군요. 그래서 아예 새롭게 개발을 했습니다. 다른 여러분들께도 조언도 구하고, 구글링도 해가면서 여차저차 완성을 하여 이렇게 공개를 합니다. 바로 시작 해보겠습니다. database 테이블 생성 우선, 저는 스크래핑한 데이터를 DB에 저장 할겁니다. mysql을 기반으로 사용했습니다. 저장 하기 위해선 테이블이 필요하겠죠. 테이블 생성 DDL은 다음과 같습니다. mysql이 있으시면 접속하셔서 생성 하시면 됩니다. create table clubrav4.jau_2021 ( s..
[python] 파이썬으로 네이버 카페 게시판 크롤링 & 워드 클라우드 실습 하기! (feat.konlpy.Twitter) 안녕하세요. 데이터 분석의 첫걸음으로 워드 클라우드를 분석하기 위해 제가 가입해 활동하고 있는 자동차 네이버 카페의 자유게시판을 크롤링했습니다. 지난 2019년 작성된 자동차 카페 내 자유게시판의 게시글과 본문을 크롤링했습니다. 아직 실력이 모자라, 한글로 된 데이터만 워드 클라우드에 넣을 수 있었습니다. 한 번에 할 수 없는 실력이라 ㅎㅎ 먼저 크롤링을 하는 파이썬 코드를 짜고 크롤링한 데이터를 DB에 insert 하는 부분과 DB에 쌓인 내용을 text 파일로 묶어 konlpy 라이브러리를 이용하여 명사만 추출하여 카운트하고 골라낸 데이터를 워드 클라우드로 viewing 하는 부분으로 나누어 진행했습니다. 고수님들의 거침없는 질책 부탁드립니다!! 자동차 네이버 카페에 있는 자유게시판 게시글 제목과 게..
[python] 크롤러 만들어 db에 정보 insert 하기 일단, 아래 소스에서 영화 제목과 평점을 뽑아 오는 과정은 타 블로그에서 소스를 가져왔습니다.. (해당 소스가 여기저기 블로그에 많이 있어서 어디가 원본인지 파악이 힘듦) 파이썬을 이용해서 크롤러를 만들기 위해 구글 선생님한테 가서 무척이나 많은 검색을 부탁드렸고, 아래와 같이, 비교적 간단한 크롤링을 구현하는 소스를 구하게 되었다. 그냥 소스를 돌리기만 하면 그건 내 것이 아니니.. 소스 분석을 해보았다. 그리고 내가 가지고 있는 TEST DB에 그 데이터를 insert 하는데 까지 일단 성공! 블로그에 흔적을 남겨둔다. from bs4 import BeautifulSoup from urllib.request import urlopen #선언부로, 어떤 모듈을 쓸것인지.. 선언하는 부분. #위와 같이 ..