|
PDF adalah kependekan dari Portable Document Format, yang berarti "format dokumen portabel", dan merupakan format file yang dikembangkan oleh Adobe Systems untuk pertukaran file dengan cara yang tidak bergantung pada aplikasi, sistem operasi, dan perangkat keras. File PDF didasarkan pada model gambar bahasa PostScript, yang menjamin warna yang akurat dan hasil cetak yang akurat pada printer apa pun, yang berarti bahwa PDF dengan tepat mereproduksi setiap karakter, warna, dan gambar aslinya. Mengingat kompleksitas format file PDF, PDF umumnya dimanipulasi melalui komponen pihak ketiga, dan artikel ini menggunakan itext7. Setelah memperkenalkan komponen itext7 melalui NuGet, Anda dapat mengekstrak teks dari file PDF menggunakan kode berikut: Kode sampel: Perhatikan bahwa jika file PDF Anda adalah versi yang dipindai berdasarkan gambar, maka kode dalam artikel ini tidak dapat mengekstrak teks, dan Anda memerlukan teknologi OCR.
|