이 글은 기계 번역의 미러 문서이며, 원본 기사로 바로 이동하려면 여기를 클릭해 주세요.

보기: 760|회답: 0

[출처] .NET/C#은 Tesseract를 사용해 이미지의 텍스트 인식을 OCR 처리합니다

[링크 복사]
2025-4-24 09:20:01에 게시됨 | | | |
요구사항: OCR 기술을 사용해 이미지 텍스트를 인식하세요. 텍스트가 포함되어 있으면 백엔드가 처음에 스크리닝을 통과하고 우선순위를 부여합니다. 요구 사항은 비교적 간단합니다.

복습:

.NET/C#은 FastDeploy를 사용하여 텍스트를 인식하는 OCR 모델을 배포합니다
https://www.itsvse.com/thread-10911-1-1.html

.NET Core는 이미지와 텍스트를 인식하기 위해 Baidu PaddleOCR을 호출합니다
https://www.itsvse.com/thread-9590-1-1.html

테서랙트 OCR

테서랙트는 원래 1985년부터 1994년까지 영국 브리스톨에 위치한 HP 연구소와 미국 콜로라도주 그릴리에 위치한 HP에서 개발되었습니다. 1996년에는 Tesseract가 Windows 시스템으로의 이식을 위해 추가로 수정되었고, 1998년에는 부분적으로 C++화되었습니다. 2005년에 HP는 테서랙트를 오픈 소스로 만들었습니다. 이 게임은 2006년부터 2018년 11월까지 구글에 의해 개발되었습니다.

테서랙트 4는 라인 인식에 중점을 둔 신경망(LSTM) 기반 OCR 엔진을 추가하면서도, 여전히 문자 패턴을 인식하는 Tesseract 3의 기존 Tesseract OCR 엔진을 지원합니다. Tesseract 3와의 호환성을 위해 기존 OCR 엔진 모드(--oem 0)를 사용하세요. 또한 tessdata 저장소의 파일과 같은 구형 엔진을 지원하는 학습 데이터 파일이 필요합니다.

테서랙트 주소:하이퍼링크 로그인이 보입니다.
테스데이터:하이퍼링크 로그인이 보입니다.
문서조사:하이퍼링크 로그인이 보입니다.

C#은 테서랙트를 호출합니다

C#을 사용해 Tesseract를 호출하는 것과 관련해서는, 일반적으로 사용되는 두 가지 라이브러리가 있습니다: Tesseract와 TesseractOCR, TesseractOCR은 Tesseract 라이브러리의 2차 개발을 기반으로 하며, 두 오픈 소스 라이브러리의 코드는 실제로 유사합니다. 차이점은 TesseractOCR이 .dll 동적 링크 라이브러리의 최신 버전(5.5.0)을 호출한다는 점이므로 권장됩니다테서랙트 OCR

테서랙트 코드:하이퍼링크 로그인이 보입니다.
테서랙트 OCR 코드:하이퍼링크 로그인이 보입니다.

먼저, 중국어 간체자를 다운로드해야 합니다 (chi_sim.traineddata) 모델. (생략됨)

코드는 다음과 같습니다:


인터넷에서 스크린샷을 찾아서 테스트해보세요. 원본 사진은 다음과 같습니다:



OCR 인정 결과는 다음과 같습니다:



(끝)




이전의:.NET/C# 파일을 통해 하드 링크를 생성하세요
다음:sklearnex로 scikit-learn 머신러닝 라이브러리를 가속화하세요
면책 조항:
Code Farmer Network에서 발행하는 모든 소프트웨어, 프로그래밍 자료 또는 기사는 학습 및 연구 목적으로만 사용됩니다; 위 내용은 상업적 또는 불법적인 목적으로 사용되지 않으며, 그렇지 않으면 모든 책임이 사용자에게 부담됩니다. 이 사이트의 정보는 인터넷에서 가져온 것이며, 저작권 분쟁은 이 사이트와는 관련이 없습니다. 위 내용은 다운로드 후 24시간 이내에 컴퓨터에서 완전히 삭제해야 합니다. 프로그램이 마음에 드신다면, 진짜 소프트웨어를 지원하고, 등록을 구매하며, 더 나은 진짜 서비스를 받아주세요. 침해가 있을 경우 이메일로 연락해 주시기 바랍니다.

Mail To:help@itsvse.com