본문 바로가기

LINUX

[linux] 텍스트 파일 케릭터셋 확인 & 케릭터셋 변환하기 feat.ubuntu 한글깨짐 주의!

#텍스트 파일 케릭터셋 확인

#케릭터셋 변환하기

 

안녕하세요.

 

텍스트 파일을 읽어서 DB에 insert 하거나 활용할 때 한글이 깨져서 난감한 경우가 있습니다.

 

이럴 때는 텍스트 파일 캐릭터 셋을 변환해주면 쉽게 해결이 됩니다.

 

우선 텍스트 파일 케릭터셋을 확인하는 방법을 안내합니다.

file -bi 지번_서울특별시.txt

이렇게 "file -bi 텍스트 파일명" 커맨드로 확인할 수 있습니다.

 

아래 보시면 두 개의 파일의 캐릭터 셋을 확인한 결과를 보실 수 있습니다.

mariadb@stricky-Lenovo-Y520-15IKBN:~/all_juso_201911$ file -bi 지번_서울특별시.txt
text/plain; charset=iso-8859-1
mariadb@stricky-Lenovo-Y520-15IKBN:~/all_juso_201911$ file -bi 지번_서울특별시_utf8.txt
text/plain; charset=utf-8

두 파일의 이름은 같은데 캐릭터 셋이 다릅니다.

 

변환하는 방법은 아래와 같습니다.

iconv -c -f iso-8859-1 -t utf8 지번_서울특별시.txt > 지번_서울특별시_utf8.txt

위 커맨드와 같이 -f 옵션에 기존 캐릭터 셋을 넣어주고, -t 옵션에 변환하고 싶은 케릭터셋을 넣어줍니다.

 

간단하죠? ㅎㅎ

 

오늘도 즐거운 하루 보내시길 바랍니다!

 

 

 

 

 

by.sTricky