728x90
OCR AI라고 이미지에 있는 글자를 알아내는 기술이 있다!
대기업에서 만든 것들을 가져다 쓰면 됨
구글에서 만든 Tesseract, Google Cloud Vision
네이버에서 만든 Clova가 있다.
오늘은 Tesseract를 사용해서 해보도록 하겠슴니다
https://github.com/UB-Mannheim/tesseract/wiki
먼저 tesseract 설치 파일을 다운받는다.
64비트로 다운로드!!
한글도 인식하려면 설치할 때 한글팩을 같이 깔아줘야 한다
Next를 계속 눌러준다
그리고 한글을 사용하고 싶다면 저 밑에 추가 다운로드 두개를 해줘야 한다
한글 스크립트 선택하기
Korean 체크하기
다 디폴트로 놓고 설치!!!
설치가 끝났으면 경로와 상관없이 사용하기 위해 환경변수를 등록해준다
64비트로 깔았으니 C드라이브에 ProgramFiles 폴더에 Tesseract폴더가 있을 거다
오타 방지를 위해 폴더 경로 복사해주기!
Win+S로 환경 변수를 검색해 편집 화면에 들어가준다
환경 변수 클릭 !
시스템 변수의 Path를 누르고 편집에 들어간다
새로 만들기를 누르고 아까 복사한 폴더 경로를 붙여넣는다
cmd를 열어서 tesseract를 입력하면 잘 설치된 것을 볼 수 있다.
그 다음에 사용하기 위해 몇가지 더 설치해준다
pip install pillow
pip install pytesseract
pip install opencv-python
끗
이제 잘 되는지 테스트를 해보겠다..!!!
728x90
LIST
'Language > Python' 카테고리의 다른 글
Python으로 문자 추출하기 - 이미지 전처리 (2) | 2022.05.23 |
---|---|
[Python] pandas 사용해서 엑셀데이터 분석 (0) | 2021.09.26 |