2022/03/03

텍스트 인코딩 일괄 변환기 비교

unix에서 utf8 no bom, windows에선 utf8 bom 인코딩으로 저장되는데 자주쓰는 문리더에서 utf8 no bom파일은 인코딩 auto로 불러들일 때 에러가 납니다. 

따로 utf8로 지정하면 되는데 나중에 euc-kr문서를 불러들일 때 또 다시 변경해 줘야되는 불편함때문에 각잡고 nas에 있는 utf8인코딩을 모두 utf8 bom으로 변경해주고 euc-kr문서도 같이 변경할려고 변환기를 알아봤습니다.


BoltTextManager

작업속도 빠르고 깨진 문서없이 변환되는데 cp949문서에서 완성형코드에 벗어난 문자는 깨져 나옵니다. 주로 확장완성형코드에 포함된 맞춤법에 어긋난 단어거나 많이 쓰지 않는 조합된 문자, 일부 특수문자등이 있습니다.

개인적으로 인코딩 확인하는 용도거나 utf8을 utf8 bom으로 변환하는 용도로 쓰지만 여러 인코딩 변환기 중 추천한다면 이 변환기입니다. cp949변환만 피한다면 속도도 빠르고 가장 안정적입니다.

https://tetris.tistory.com/395


Encoding Converter

euc-kr문서 변환에서 cp949코드에 있는 확장완성형까지 깔끔하게 변환되는데 많은 문서를 변환하다보면 전체가 깨진 문서로 변환되는게 자주 발생합니다.

https://codediver.tistory.com/20


btec

위의 프로그램과 마찬가지로 여러 코드가 섞인 파일들을 한번에 변환시킬 때 깨진 문서가 다수 발생합니다. 깨진 문서를 확인해 보니 utf8 no bom에서 utf8 bom으로 변환시 문제가 발생하는 것으로 추측됩니다. 하나의 문서만 넣어 변환할 때는 utf8문서는 변환하지 않고 통과됩니다.

인코딩할 문서의 코드를 확인해서 utf8문서는 제외한 후 변환하고 utf8문서는 BoltTextManager를 사용하여 변환하는게 좋습니다.

https://blog.daum.net/masoris20/26


iconv 로 character set encoding 변환하기

euc-kr과 cp949, iso-2022-kr, johab 방식을 모두 지원하며 대부분 변환프로그램이 가져다 쓰는 라이브러리입니다. 인코딩 확인은 안되고 command line에 인코딩 입력 출력을 넣고 원하는 코드로 변환하는 식입니다.

많은 파일을 변환하려면 먼저 인코딩부터 확인해 스크립트 짜야 될 것 같습니다.

windows에서 사용하려면 아래에서 다운

http://gnuwin32.sourceforge.net/packages/libiconv.htm

 

git에 포함된 file.exe를 이용하면 각각 파일의 인코딩 정보를 확인할 수 있습니다. file, sed를 이용해 같은 인코딩파일을 리스트로 만들고 for문으로 임의의 폴더에 모아 iconv를 적용하면 될 것 같습니다.

https://git-scm.com/download/win

 


참고: 토탈 커맨더에서 선택한 파일 인코딩 변환
https://ntxlds.blogspot.com/2022/04/total-commander-utf-8-bom.html