본문 바로가기

Language/Python

Python으로 문자 추출하기 -설치

728x90

OCR AI라고 이미지에 있는 글자를 알아내는 기술이 있다!

대기업에서 만든 것들을 가져다 쓰면 됨

구글에서 만든 Tesseract, Google Cloud Vision

네이버에서 만든 Clova가 있다.

 

 

오늘은 Tesseract를 사용해서 해보도록 하겠슴니다

 

https://github.com/UB-Mannheim/tesseract/wiki

 

GitHub - UB-Mannheim/tesseract: Tesseract Open Source OCR Engine (main repository)

Tesseract Open Source OCR Engine (main repository) - GitHub - UB-Mannheim/tesseract: Tesseract Open Source OCR Engine (main repository)

github.com

먼저 tesseract 설치 파일을 다운받는다.

 

 

64비트로 다운로드!!

 

 

 

한글도 인식하려면 설치할 때 한글팩을 같이 깔아줘야 한다

 

 

 

Next를 계속 눌러준다

 

 

 

 

그리고 한글을 사용하고 싶다면 저 밑에 추가 다운로드 두개를 해줘야 한다

 

 

 

한글 스크립트 선택하기

 

 

 

Korean 체크하기

 

 

 

다 디폴트로 놓고 설치!!!

 

 

 

설치가 끝났으면 경로와 상관없이 사용하기 위해 환경변수를 등록해준다

 

64비트로 깔았으니 C드라이브에 ProgramFiles 폴더에 Tesseract폴더가 있을 거다

 

 

오타 방지를 위해 폴더 경로 복사해주기!

 

 

 

Win+S로 환경 변수를 검색해 편집 화면에 들어가준다

 

 

 

환경 변수 클릭 !

 

시스템 변수의 Path를 누르고 편집에 들어간다

 

 

 

 

새로 만들기를 누르고 아까 복사한 폴더 경로를 붙여넣는다

 

 

 

cmd를 열어서 tesseract를 입력하면 잘 설치된 것을 볼 수 있다.

 

 

 

그 다음에 사용하기 위해 몇가지 더 설치해준다

pip install pillow
pip install pytesseract
pip install opencv-python

 

 


이제 잘 되는지 테스트를 해보겠다..!!!

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

728x90
LIST