C#을 사용해 PDF 파일에서 모든 텍스트를 추출하기(.NET Core 지원)

즈몰리775 · 게시됨 2022. 6. 29. 오후 3:31:16

PDF는 Portable Document Format의 약자로, "휴대용 문서 형식"을 의미하며, Adobe Systems가 애플리케이션, 운영체제, 하드웨어와 독립적으로 파일 교환을 위해 개발한 파일 형식입니다. PDF 파일은 PostScript 언어 이미지 모델을 기반으로 하며, 이 모델은 어떤 프린터에서도 정확한 색상과 정확한 인쇄 결과를 보장하므로 PDF가 원본의 모든 문자, 색상, 이미지를 충실히 재현합니다.

PDF 파일 형식의 복잡성을 고려할 때, PDF는 일반적으로 서드파티 컴포넌트를 통해 조작되며, 이 글에서는 itext7을 사용합니다.

공식 웹사이트:하이퍼링크 로그인이 보입니다.

뉴겟:하이퍼링크 로그인이 보입니다.

NuGet을 통해 itext7 컴포넌트를 도입한 후, 다음 코드를 사용하여 PDF 파일에서 텍스트를 추출할 수 있습니다:

로그인이 보이네요.

샘플 코드:

로그인이 보이네요.

만약 PDF 파일이 이미지를 기반으로 스캔된 버전이라면, 이 글의 코드는 텍스트를 추출할 수 없으므로 OCR 기술이 필요합니다.

날치자리 · 게시됨 2022. 6. 30. 오후 9:35:46

배우는 법을 배우세요.

리터스타 · 게시됨 2022. 7. 28. 오전 9:00:24

배우세요

흔적도 없이 마음을 훔치는 것 · 게시됨 2022. 10. 13. 오후 1:43:30

공식적으로 필요하다, 배우는 법을 배워라! ~~~~~~'

mmxx0212 · 게시됨 2022. 10. 14. 오전 9:37:59

C#을 사용해 PDF 파일에서 모든 텍스트를 추출하세요

[콘솔 프로그램] C#을 사용해 PDF 파일에서 모든 텍스트를 추출하기(.NET Core 지원)

본 섹션