본문 바로가기

Database

Pentaho PDI 기능 소개 및 설치 가이드 etl tools

Pentaho PDI 기능 소개 및 설치 가이드 etl tools


타이틀 이미지




Pentaho 기능

Pentaho란 빅데이터 분석 및 활용을 위해 데이터 분석, 정제, 이관, 분산 데이터베이스 설계, 구축, 관리 및 보고서 작성등의 기능을 가진 멀티 인포테인먼트 Tool 입니다.


오픈소스 버전과 함께 엔터프라이즈 버전을 가지고 있습니다.


이중에서 제가 다뤄볼것은 오픈소스 모듈인 Pentaho PDI 입니다.



Pentaho 다운로드


Pentaho 다운로드는 아래 링크에서 받으시면 됩니다.

https://sourceforge.net/projects/pentaho/


펜타호


다운로드 받고나서 압축을 풀어주면 됩니다.


압축을 푸실때는 꼭 영문으로 된 경로 아래서 실행하시기 바랍니다.



Pentaho 설치

다운 받고, 압축을 해제 하였다면 폴더를 열고, spoon.bat를 더블클릭하여 실행 하시면 됩니다.


저같은 경우 실행을 하였을때 아래와 같이 에러 메시지가 떴었습니다.



아무래도 java나 JDK 문제 인것 같습니다.

java와 JDK를 모두 최신 버전으로 설치 하겠습니다.


다운로드 경로는 아래와 같습니다.

https://www.oracle.com/java/technologies/javase-downloads.html



두개다 다운로드 받아서 설치를 진행 합니다.


저같은 경우는 윈도우 10 에서 진행을 하고 있기 때문에 아래와 같이 파일을 선택하여 다운로드 하여 설치 하겠습니다.



설치를 하고 나니 잘 실행이 되는것을 확인 하였습니다.


Pentaho 사용방법


처음 실행 된 화면 입니다.


오픈소스 프로그램 다운 깔끔한 인터페이스를 확인 할 수 있습니다.



Job 아래에 Transformation라는 단위가 있습니다.


Transformation을 더블 클릭하여 화면을 한번 열어 봅니다.



더불어 Input 과 Output을 중심으로 여러가지 옵션과 버튼들이 있는것을 확인 할 수 있습니다.


이것들을 기초로 하여 다양한 옵션으로 ETL을 실행 할 수 있을것 같습니다.


Excel이라든지, CSV 파일이라든지 다른 여러가지 기능을 사용 할 수 있습니다.


Table input을 열어보니 아래 화면처럼 SQL을 작성해서 넣을 수 있습니다.



상당히 직관적인 화면구성으로 하나씩 눌러보니 별다른 메뉴얼이 없이도 사용이 가능해 보입니다.


Database 연결하는 화면을 눌러봤습니다.


JDBC는 별도로 설치를 해야 합니다.


사용하시는 DBMS에 맞게 JDBC를 다운로드 받으셔서 사용 하시면 되겠습니다.



하나씩 하나씩 해봅니다.


틀리면 다시 하면 되겠죠.


계정도 넣어보구요.


아래처럼 오류메시지가 발생했습니다.


찬찬히 살펴보니 Oracle의 JDBC가 설치되어 있지 않아 생긴 연결 오류 입니다.


다운 받아서 설치 해줍니다.


JDBC 설치과정은 생략 하겠습니다.




네, 잘 연결이 되었습니다.


간단하네요.


설치가 제일 어려웠던것 같습니다.




자, 이젠 Pentaho를 사용 할 수 있게 되었습니다.


이걸 이용해서 수많은 데이터베이스내 데이터를 체계적으로 관리 할 수 있을것 같습니다.


오늘 포스트는 여기까지 입니다.


감사합니다.






by.sTricky









태그