.NET/C#은 Tesseract를 사용해 이미지의 텍스트 인식을 OCR 처리합니다

작은 쓰레기 같은 놈들 · 게시됨 2025. 4. 24. 오전 9:20:01

요구사항: OCR 기술을 사용해 이미지 텍스트를 인식하세요. 텍스트가 포함되어 있으면 백엔드가 처음에 스크리닝을 통과하고 우선순위를 부여합니다. 요구 사항은 비교적 간단합니다.

복습:

.NET/C#은 FastDeploy를 사용하여 텍스트를 인식하는 OCR 모델을 배포합니다
https://www.itsvse.com/thread-10911-1-1.html

.NET Core는 이미지와 텍스트를 인식하기 위해 Baidu PaddleOCR을 호출합니다
https://www.itsvse.com/thread-9590-1-1.html

테서랙트 OCR

테서랙트는 원래 1985년부터 1994년까지 영국 브리스톨에 위치한 HP 연구소와 미국 콜로라도주 그릴리에 위치한 HP에서 개발되었습니다. 1996년에는 Tesseract가 Windows 시스템으로의 이식을 위해 추가로 수정되었고, 1998년에는 부분적으로 C++화되었습니다. 2005년에 HP는 테서랙트를 오픈 소스로 만들었습니다. 이 게임은 2006년부터 2018년 11월까지 구글에 의해 개발되었습니다.

테서랙트 4는 라인 인식에 중점을 둔 신경망(LSTM) 기반 OCR 엔진을 추가하면서도, 여전히 문자 패턴을 인식하는 Tesseract 3의 기존 Tesseract OCR 엔진을 지원합니다. Tesseract 3와의 호환성을 위해 기존 OCR 엔진 모드(--oem 0)를 사용하세요. 또한 tessdata 저장소의 파일과 같은 구형 엔진을 지원하는 학습 데이터 파일이 필요합니다.

테서랙트 주소:하이퍼링크 로그인이 보입니다.
테스데이터:하이퍼링크 로그인이 보입니다.
문서조사:하이퍼링크 로그인이 보입니다.

C#은 테서랙트를 호출합니다

C#을 사용해 Tesseract를 호출하는 것과 관련해서는, 일반적으로 사용되는 두 가지 라이브러리가 있습니다: Tesseract와 TesseractOCR, TesseractOCR은 Tesseract 라이브러리의 2차 개발을 기반으로 하며, 두 오픈 소스 라이브러리의 코드는 실제로 유사합니다. 차이점은 TesseractOCR이 .dll 동적 링크 라이브러리의 최신 버전(5.5.0)을 호출한다는 점이므로 권장됩니다테서랙트 OCR。

테서랙트 코드:하이퍼링크 로그인이 보입니다.
테서랙트 OCR 코드:하이퍼링크 로그인이 보입니다.

먼저, 중국어 간체자를 다운로드해야 합니다 (chi_sim.traineddata) 모델. (생략됨)

코드는 다음과 같습니다:

로그인이 보이네요.

인터넷에서 스크린샷을 찾아서 테스트해보세요. 원본 사진은 다음과 같습니다:

OCR 인정 결과는 다음과 같습니다:

(끝)

[출처] .NET/C#은 Tesseract를 사용해 이미지의 텍스트 인식을 OCR 처리합니다

관련 게시물

본 섹션