본문 바로가기

konlpy

(2)
[python] 파이썬으로 네이버 카페 게시판 크롤링 & 워드 클라우드 실습 하기! (feat.konlpy.Twitter) 안녕하세요. 데이터 분석의 첫걸음으로 워드 클라우드를 분석하기 위해 제가 가입해 활동하고 있는 자동차 네이버 카페의 자유게시판을 크롤링했습니다. 지난 2019년 작성된 자동차 카페 내 자유게시판의 게시글과 본문을 크롤링했습니다. 아직 실력이 모자라, 한글로 된 데이터만 워드 클라우드에 넣을 수 있었습니다. 한 번에 할 수 없는 실력이라 ㅎㅎ 먼저 크롤링을 하는 파이썬 코드를 짜고 크롤링한 데이터를 DB에 insert 하는 부분과 DB에 쌓인 내용을 text 파일로 묶어 konlpy 라이브러리를 이용하여 명사만 추출하여 카운트하고 골라낸 데이터를 워드 클라우드로 viewing 하는 부분으로 나누어 진행했습니다. 고수님들의 거침없는 질책 부탁드립니다!! 자동차 네이버 카페에 있는 자유게시판 게시글 제목과 게..
[python] 텍스트 파일에서 명사만 뽑아서 명사별 빈도 카운트 하기 konlypy 안녕하세요. 파이썬을 열심히 공부하고 있는 db 엔지니어입니다. 이번 포스팅에서는 어떤 텍스트 파일 안에서 명사만 찾아 그 빈도를 카운트해보는 소스를 함께 공부해 볼 거예요. 이걸 이용해서 우리가 흔하게 보던 시각화 툴인 WordCloud를 이용해서 요런 거 만들 수 있습니다. 이 포스팅에서는 WordCloud 까지는 안 하고, (이건 다음에 포스팅하겠습니다.) 일단 명사를 추출해서 빈도를 카운트하는데 까지만 해보도록 하겠습니다. 이것만으로도 데이터를 분석하는데 다방면으로 꽤나 유용하게 쓸 수 있습니다. 바로 시작할게요!! f = open("E:/test_comments.txt", "r") lines = f.read() 일단, 분석을 할 문장이 들어 있는 데이터를. txt로 저장하고, 이 파일을 읽어 옵..