본문 바로가기
정보

pdf ocr 이미지 문자 글자 인식

by 뚱땡쓰 2016. 11. 16.

pdf 형태의 이미지를 ocr로 문자와 글자로 인식하는 방법



PC 상태와 무관하게 동일한 형태로 문서를 출력해준다는 장점이 있지만 이미지와 비슷하기 때문에 글자를 수정해야 할 땐 다소 어려움이 있는 포맷이기도 하죠? 그렇다고 해서 절대로 문자를 수정할 수 없는 것은 아닙니다. 툴을 써서 pdf ocr 과정을 거치면 이미지에 있는 내용들이 글자로 인식이 되죠.



문제는 ocr을 지원해주는 툴의 종류와 사용 방법인데 이번에 pdf 글자 인식을 하고 싶을 때 활용할 수 있는 프로그램의 종류와 준비 및 기능을 활용하는 과정들을 모두 묶어서 정리를 해두었으니 필요할 때 읽고 적용을 해보시면 무난히 원하는 결과물을 만들 수 있을 것입니다.



이미지 문자 인식을 원할 때 ocr을 지원하는 pdf 프로그램



핵심부터 얘기하자면 알pdf ocr 기능을 활용하면 됩니다. 그리고 해당 툴은 공식 홈페이지[altools.co.kr/Download/ALPDF.aspx]의 설치하기 버튼을 누르면 받을 수 있죠.



파일을 받고 설치하는 과정은 일반 프로그램과 유사하니 설명을 생략하고 pdf 글자 인식을 얘기하도록 하겠습니다. 그냥 제휴 서비스 항목만 신경을 쓰며 툴을 준비하면 됩니다.





최초 실행을 하면 작업 항목을 선택하거나 파일을 불러오는 화면이 나오는데 변환 항목을 클릭해서 작업 대상이 될 pdf를 선택해주면 됩니다.





변환을 하는 이유는 ocr을 통해서 인식된 문자가 입력될 포맷을 선택하기 위함입니다. 즉, 워드나 한글 정도로 선택을 해주면 적당합니다. 어쨌든 변환을 눌러서 설정 화면이 나왔다면 포맷을 선택하고 문자인식(OCR) 사용을 체크한 뒤 우측 하단의 빨간색 버튼을 눌러주시면 됩니다.





버튼을 누른 다음에는 지정해둔 경로에서 포맷이 바뀐 문서를 확인할 수 있을 것입니다. 그리고 해당 파일을 실행해보면 이미지 문자 인식도 완료된 것을 확인할 수 있을 것입니다. 다만 여느 ocr이 그렇듯 완벽하게 pdf의 내용을 글자로 바꿔주는 것은 아닙니다. 그래서 내용을 수정할 땐 전체적인 부분을 검증하고 오류가 있는 부분도 함께 수정을 해주셔야 합니다.





지금까지 pdf ocr 기능이 필요할 때 이미지의 문자를 인식하고 글자로 바꿔주는 프로그램을 소개해봤는데 간단한 도구 안내에 불과한 글이었지만 그래도 참고할 수 있는 수준은 되었길 바라며 저는 여기서 물러나겠습니다.

댓글