Bagaimana Saya Dapat Menyalin Teks dari PDF sambil Melestarikan Pemformatan?

Video: Bagaimana Saya Dapat Menyalin Teks dari PDF sambil Melestarikan Pemformatan?

Video: PERANGKAT TIDAK MUNCUL PADA DEVICE MANAGER | MEMUNCULKAN PORTABLE DEVICE | KAMERA IMAGING DEVICE - YouTube 2024, November

2024 Pengarang: Geoffrey Carr | [email protected]. Terakhir diubah: 2023-12-17 10:58

PDF, format dokumen di mana-mana, sangat bagus untuk berbagi dokumen sambil menjaga font, gambar, dan tata letak umum di seluruh platform. Apakah ada cara mudah, bagaimanapun, untuk mempertahankan format yang sangat ketika menyalin dan menempelkan teks dari dokumen?

Sesi Tanya & Jawab Hari ini hadir untuk memberi kami SuperUser - subdivisi Stack Exchange, pengelompokan situs web Q & A berbasis komunitas.

Pertanyaan

Pembaca SuperUser Colen sedang mencari cara untuk mengekstrak teks dari PDF sambil mempertahankan pemformatannya:


When I copy text out of a PDF file and into a text editor, it ends up mangled in a variety of ways. Formatting like bold and italics are lost; soft line breaks within a paragraph of text are converted to hard line breaks; dashes to break a word over two lines are preserved even when they shouldn’t be; and single and double quotes are replaced with ? signs.
Ideally, I’d like to be able to copy text from a PDF and have formatting converted to HTML codes, “smart quotes” converted to” and ‘, and line breaks done properly. Is there any way to do this?

Apakah ada cara cepat dan mudah bagi Colen (dan kita semua) untuk mendapatkan teks tanpa mengorbankan pemformatan?

Jawabannya

Penyumbang SuperUser Frabjous menawarkan solusi yang dikombinasikan dengan kehati-hatian:


Firstly, you have to understand what a PDF is. PDFs are designed to mimic a printed page, and they are designed only as an output format, not an input format. a PDF is basically a map containing the exact location of characters (individual letters or punctuation, etc.) or images. In most cases, a PDF does not even store information about where one word ends and another begins, much less things like soft breaks vs. hard breaks for paragraph endings.
(A few recent PDFs do store some information about this stuff, but that’s a new technology, and you’d be lucky to find PDFs like that. Even if you did, your PDF viewer might not know about it.)
Anyway, it’s up to your software to implement some kind of “artificial intelligence” to extract merely from the locations of individual characters what is a word, what is a paragraph, and so on. Different software is going to do this better than others, and it’s also going to depend on how the PDF was made. In any case, you should never expect perfect results. Having the output PDF is not the same as having the source document. Far better to try to obtain that if you can.
The standard solution to your kind of problem is to use Adobe Acrobat Professional (the expensive one, not the free reader) to convert the PDF to HTML. Even that is not going to get perfect results.
There is free software that can be used to extract text from PDFs with some of formatting intact, but again, don’t expect perfect results. See, e.g., calibre (which can convert to RTF format), pdftohtml/pdfreflow, or the AbiWord word processor (with all import/export plugins enabled). There’s also a PDF import plugin for OpenOffice.
But please don’t expect perfection with any of these results. You’re going against the grain here. PDF just is not meant as an editable input format.

Jika Anda mengalami kesulitan memutuskan alat mana untuk memulai, Calibre adalah pisau tentara Swiss yang benar. Anda juga dapat menggunakannya untuk mengonversi file PDF untuk digunakan pada pembaca ebook Anda dan mengatur perpustakaan ebook / dokumen Anda.

Memiliki sesuatu untuk ditambahkan ke penjelasan? Bicaralah di komentar. Ingin membaca lebih banyak jawaban dari pengguna Stack Exchange yang paham teknologi lainnya? Lihat diskusi lengkap di sini.

Direkomendasikan:

Mengapa Saya Tidak Dapat Mengaktifkan File yang Digunakan di Windows Seperti yang Dapat Saya Lakukan di Linux dan OS X?

Sesi Tanya & Jawab Hari ini hadir untuk memberi kami hak milik sub divisi SuperUser‚Äîa Stack Exchange, pengelompokan situs Q & A berbasis komunitas.

Apa itu Data EXIF, dan Bagaimana Saya Dapat Menghapusnya Dari Foto Saya?

Data EXIF foto berisi banyak sekali informasi tentang kamera Anda, dan kemungkinan tempat pengambilan gambar (koordinat GPS). Itu artinya, jika Anda berbagi gambar, ada banyak detail yang dapat diperoleh orang lain dari mereka.

Mengapa Saya Dapat Mengontrol Blu-ray Player Saya dengan Remote TV Saya, Tapi Bukan Kotak Kabel Saya?

Jika Anda memiliki set HDTV yang lebih baru, Anda mungkin telah memperhatikan bahwa remote TV Anda dapat berfungsi sebagai remote universal (tetapi tidak berfungsi dengan semua perangkat Anda). Baca terus ketika kami menjelajahi bagaimana televisi yang lebih baru dapat mengontrol perangkat yang terhubung dengan mereka (dan sebaliknya).

Mengapa Saya Tidak Dapat Menyalin File Besar ke Flash Drive Berkapasitas Tinggi Saya?

Anda memiliki flash drive berkapasitas tinggi yang dapat menyimpan lebih dari hard drive dari tiga komputer pertama yang digabungkan, tetapi ketika Anda pergi untuk menyalin file besar itu menyangkal Anda. Apa yang memberi? Baca terus selagi kami tunjukkan cara mengatasi frustrasi flash drive Anda.

Bagaimana Mengkonversi Teks dari File PDF ke dalam Dokumen Word 2013 yang Dapat Diedit

Word 2013 menawarkan fitur baru, disebut Reflow PDF, yang memungkinkan Anda untuk mengimpor file PDF ke Word dan mengedit teks sebagai dokumen Word. Anda kemudian dapat resave atau ekspor teks sebagai file PDF.

Bagaimana Saya Dapat Menyalin Teks dari PDF sambil Melestarikan Pemformatan?

Daftar Isi:

Video: Bagaimana Saya Dapat Menyalin Teks dari PDF sambil Melestarikan Pemformatan?

Pertanyaan

Jawabannya

Direkomendasikan:

Mengapa Saya Tidak Dapat Mengaktifkan File yang Digunakan di Windows Seperti yang Dapat Saya Lakukan di Linux dan OS X?

Apa itu Data EXIF, dan Bagaimana Saya Dapat Menghapusnya Dari Foto Saya?

Mengapa Saya Dapat Mengontrol Blu-ray Player Saya dengan Remote TV Saya, Tapi Bukan Kotak Kabel Saya?

Mengapa Saya Tidak Dapat Menyalin File Besar ke Flash Drive Berkapasitas Tinggi Saya?

Bagaimana Mengkonversi Teks dari File PDF ke dalam Dokumen Word 2013 yang Dapat Diedit

Moo0 System Monitor: perangkat lunak monitor kinerja PC

Perangkat lunak bebas untuk memonitor Kinerja & Sumber Daya Sistem di Windows

Cara menggunakan Dasbor Privasi berbasis web Microsoft yang baru

Harden Pengaturan Privasi Akun Microsoft

Microsoft harus memperbaiki masalah eksklusif sebelum kedatangan Project Scorpio

Minimalkan Outlook ke System Tray di Windows 10/8/7

Memperbaiki fitur USB Selective Suspend dinonaktifkan di Windows

Floomby memungkinkan Anda menangkap layar dan mengunggah untuk berbagi secara langsung

Apa itu OpenSSH? Cara mengaktifkan & menggunakan OpenSSH pada Windows 10

Hard Drive Eksternal USB 3.0 tidak dikenal di Windows 10 / 8.1

Apa Perbedaan Antara Folder "Program Files (x86)" dan "Program Files" di Windows?

Hosted Telephony: Apa Manfaatnya? [Disponsori]

Jangan Percaya Apa yang Anda Baca: Screenshot Media Sosial Mudah untuk Palsu

Cara Otomatis Blokir Panggilan Spam di iPhone

Cara Mengunduh File dengan NAS Synology Anda (dan Menghindari Meninggalkan Komputer Anda di Malam Hari)