Python으로 문자 추출하기 -설치

728x90

OCR AI라고 이미지에 있는 글자를 알아내는 기술이 있다!

대기업에서 만든 것들을 가져다 쓰면 됨

구글에서 만든 Tesseract, Google Cloud Vision

네이버에서 만든 Clova가 있다.

오늘은 Tesseract를 사용해서 해보도록 하겠슴니다

GitHub - UB-Mannheim/tesseract: Tesseract Open Source OCR Engine (main repository)

Tesseract Open Source OCR Engine (main repository) - GitHub - UB-Mannheim/tesseract: Tesseract Open Source OCR Engine (main repository)

github.com

먼저 tesseract 설치 파일을 다운받는다.

64비트로 다운로드!!

한글도 인식하려면 설치할 때 한글팩을 같이 깔아줘야 한다

Next를 계속 눌러준다

그리고 한글을 사용하고 싶다면 저 밑에 추가 다운로드 두개를 해줘야 한다

한글 스크립트 선택하기

Korean 체크하기

다 디폴트로 놓고 설치!!!

설치가 끝났으면 경로와 상관없이 사용하기 위해 환경변수를 등록해준다

64비트로 깔았으니 C드라이브에 ProgramFiles 폴더에 Tesseract폴더가 있을 거다

오타 방지를 위해 폴더 경로 복사해주기!

Win+S로 환경 변수를 검색해 편집 화면에 들어가준다

환경 변수 클릭 !

시스템 변수의 Path를 누르고 편집에 들어간다

새로 만들기를 누르고 아까 복사한 폴더 경로를 붙여넣는다

cmd를 열어서 tesseract를 입력하면 잘 설치된 것을 볼 수 있다.

그 다음에 사용하기 위해 몇가지 더 설치해준다

pip install pillow
pip install pytesseract
pip install opencv-python

끗

이제 잘 되는지 테스트를 해보겠다..!!!

728x90

LIST

Python으로 문자 추출하기 - 이미지 전처리 (2)	2022.05.23
[Python] pandas 사용해서 엑셀데이터 분석 (0)	2021.09.26

Weekly I learned