본문 바로가기

Data Science

Rain in Australia 캐글 날씨 데이터셋 다운로드 받아 mysql에 넣는 방법

Rain in Australia 캐글에서 테스트 데이터셋을 다운로드 받아 나의 mysql에 넣는 방법 소개!!

Rain in Australia 캐글에서 테스트 데이터셋을 다운로드 받아 나의 mysql에 넣는 방법 소개

오늘은 데이터분석을 위한 첫걸음, 바로 분석할 데이터를 다운받아서 넣는 과정에 대해서 진행을 해보려고 합니다.
사실 데이터 분석이든 SQL실습이든 하려면 대용량 데이터가 있었으면 할때가 많으실겁니다.
그래서 오늘 준비를 좀 해봤습니다.

1. 데이터가 많은곳을 찾아라

데이터가 그럼 어디에 많이 있을까요? 많은 분들이 아시겠지만 kaggle이라는곳이 있습니다. 여긴 데이터를 이용해서 데이터 분석 대회도 하는 그런 커뮤니티와 같은 곳입니다. 저도 예전에 여기서 타이타닉 캐글 데이터 분석을 실습 해보기도 했습니다.

구글에서 kaggle을 검색하셔서 들어가 보시면 됩니다. 간단하게 구글 로그인으로 sign in도 쉽고 간단하게 가능 합니다.

 

 

 

2. 다운 받을 데이터를 찾아보자

이 캐글이라는 곳에서 데이터를 어디서 다운로드 받으실수 있는지 알려드리겠습니다. 우선 로그인을 하셨으면 아래 화면과 같이 Data라는 메뉴를 클릭해서 들어가보세요.

kaggle Data

그러면 아래와 같이 수많은 데이터 셋이 있는것을 확인 할 수 있습니다. 넷플릭스 데이터, 코로나와 관련된 데이터도 눈에 띄입니다. 이중에서 맘에 드는것을 고르시면 됩니다.
저는 여기서 Rain in Australia 라는 데이터 셋을 골라서 들어왔습니다. 뭔가 호주의 날씨와 관련된 데이터로 추측이 되네요.

kaggle Datasets

 

 

 

3. 데이터 상세 확인하기

자, 그럼 아래와 같은 화면이 나오게 되죠. Rain in Australia 데이터의 상세한 내용이 나오게 됩니다. 
데이터 컬럼이 몇개나 있는지, 어떤 값이 들어가 있는지, 형태는 어떤지, 샘플 데이터도 볼 수 있구요. 전체적인 데이터 설명을 모두 확인 할 수 있습니다. 천천히 하나하나 읽어 보세요. 

간단하게 10년동안 매일매일 호주의 기상정보가 저장된 데이터로 파악이 됩니다. 이걸로 다음 날씨를 예측해보는 분석을 진행하는것 같습니다. 그걸 한번 해보셔도 되고, 아니면 테스트 데이터로 사용을 하셔도 좋을것 같습니다. 분석하는 내용은 추후에 업로드 하겠습니다.

Rain in Australia 데이터

그리고 위 그림에서 중간에서 우측쯤 보시면 빨간 박스로 표시 해둔 부분을 누르면 더 상세한 데이터 내용도 확인을 할 수 있습니다. 이때, 위 데이터의 경우 총 23개의 컬럼이 있는데 화면에는 10개만 표시가 됩니다. 모두 확인을 해보고 싶으시면 아래 그림에서 Select All을 하여 보시면 됩니다.

Select All

 

 

 

4. 데이터 다운로드 하기

자, 그럼 데이터를 다운로드 하도록 하겠습니다. 다시 아까 Rain in Australia 데이터셋 화면으로 돌아가서 아래와 같이 다운로드 버튼을 눌러주세요. 그럼 파일이 저장 될 것 입니다. 압축파일로 저장이 되니, 압축을 풀어주시면 됩니다.

데이터 다운로드

압축을 풀면 아래와 같이 csv 파일이 생성 되는 것을 확인 할 수 있겠죠.
이 파일을 한번 열어서 확인 해보겠습니다.
엑셀로 열면 PC 사양에 따라 좀 버벅일 수 있으니 텍스트 에디터로 열어보셔도 됩니다.

weatherAUS.csv

 

 

 

5. 데이터 mysql에 넣기

파일을 여닌깐 아래와 같이 데이터가 들어가 있습니다.
여기에서 빨간 박스에 있는것 처럼 NA 데이터는 null을 의미 하는것 이니 데이터를 넣을때 조심하셔야 합니다.
그냥 텍스트로 들어가지 않게 말이죠.

weatherAUS.csv 데이터

전체 건수는 145,460건 입니다. 데이터를 보니 Date, Location 컬럼을 PK로 설정하여 테이블을 생성하여 넣으면 될 것 같습니다. 일부 데이터는 varchar로 그리고 int, 소수점이 있는 데이터는 Double로 설정하여 넣도록 합니다.

DDL을 공유 해드리도록 하겠습니다. 전 class라는 스키마에 weatherAUS라고 테이블을 생성하여 넣도록 합니다. 각자 schema명이나 table명을 설정하여 넣으시면 됩니다.

create table class.weatherAUS
(
	Date date not null comment '일시',
	Location varchar(50) not null comment '지역',
	MinTemp double null comment '최저기온',
	MaxTemp double null comment '최고기온',
	Rainfall double null comment '강우량(mm)',
	Evaporation double null comment '증발량(mm)',
	Sunshine double null comment '해가보인시간',
	WindGustDir varchar(10) null comment '자정까지풍향',
	WindGustSpeed double null comment '자정까지풍속',
	WindDir9am varchar(10) null comment '아침풍향',
	WindDir3pm varchar(10) null comment '낮풍향',
	WindSpeed9am double null comment '아침풍속',
	WindSpeed3pm double null comment '낮풍속',
	Humidity9am int null comment '아침습도',
	Humidity3pm int null comment '낮습도',
	Pressure9am double null comment '아침대기압',
	Pressure3pm double null comment '낮대기압',
	Cloud9am int null comment '아침구름량_x/8',
	Cloud3pm int null comment '낮구름량_x/8',
	Temp9am double null comment '아침기온',
	Temp3pm double null comment '낮기온',
	RainToday varchar(3) null comment '당일강수여부',
	RainTomorrow varchar(3) null comment '명일강수여부',
	primary key (Date, Location)
)
comment '호주날씨';

 

 

 

그리고 저는 Datagrip 툴을 사용하기 때문에 바로 csv 파일을 읽어서 넣도록 했는데, 여러분들께서는 각자 사용하시는 툴에 맞게 하시거나, 제가 insert문을 생성하여 아래 공유를 하니 아래 파일을 다운로드 하셔서 넣으셔도 되겠습니다. 역시 schema명이나 table명을 각자 상황에 맞게 바꾸셔서 넣으셔야 합니다.

datagrip File import
weatherAUS.zip
4.64MB

 

첨부용량 때문에 압축을 하여 올렸습니다. 공유드린 DDL로 테이블 생성하시고, 데이터 넣으시면 실습용 데이터를 잘 사용하실일만 남으셨네요.

데이터 확인

6. 관련 포스트

위 내용과 관련된 포스트를 공유 합니다. 제가 사용하는 DB 클라이언트 툴인 Datagrip과 과거 캐글 데이터 분석 실습한 포스트를 정리하여 공유 합니다.

2020/08/10 - [Database/mariaDB administrator] - datagrip 사용법 마스터하기 초기설정 부분 안내

 

datagrip 사용법 마스터하기 초기설정 부분 안내

datagrip 사용법 마스터하기 초기설정 부분 안내 안녕하세요. 오늘은 DB Tools, SQL Tools 가운데 제가 지난 9년여간 써왔던 많은 DB Tool들 가운데 가장 뛰어나다고 생각하고 지금도 잘 사용 중인 Tool인 da

stricky.tistory.com

2021/01/20 - [Database/mariaDB administrator] - datagrip 편의 기능 지원 DBMS 소개 및 사용법 | sTricky

 

datagrip 편의 기능 지원 DBMS 소개 및 사용법 | sTricky

datagrip 편의 기능 지원 DBMS 소개 및 사용법 | sTricky 안녕하세요. datagrip에 대한 장점이나 지원하는 DBMS나 초기 설정 부분 등은 지난편에서 안내를 드렸었습니다. 최근에 보니 datagrip에서 Google Bigque.

stricky.tistory.com

2019/12/26 - [DB엔지니어가 공부하는 python] - [python 데이터분석] 캐글 타이타닉 따라해보기 #1

 

[python 데이터분석] 캐글 타이타닉 따라해보기 #1

오늘부터는 캐글에서 진행했던 데이터 분석 대회 중 하나인 타이타닉을 따라 해 볼 거다. 아직 난 파린이닌깐... # 대회 링크는 : https://www.kaggle.com/c/2019-1st-ml-month-with-kakr/data 위 링크에 들어가..

stricky.tistory.com

2019/12/26 - [DB엔지니어가 공부하는 python] - [python 데이터분석] 캐글 타이타닉 따라해보기 #2

 

[python 데이터분석] 캐글 타이타닉 따라해보기 #2

# 캐글 타이타닉 따라해보기 2탄 입니다. 아마 타이타닉 따라하기는 마지막 편이 될 것 같습니다. 전편 보기 : 2019/12/26 - [DB엔지니어가 공부하는 python] - [python] 캐글 타이타닉 따라해보기 #1 [python]

stricky.tistory.com

이상입니다. 감사합니다!!

by.sTricky