Не удается скопировать текст из файла PDF

Я использую программу foxit PDF reader для просмотра учебника. Я хотел бы скопировать текст из PDF-файла в текстовый документ, но это не позволяет мне. Я могу выделить текст нормально, но возможность копирования текста недоступна. Я могу копировать текст из других документов, но не из некоторых. Есть ли способ обойти эту защиту в Windows?


Вероятно, PDF-файл заблокирован от копирования текста. Ниже приведены два способа разблокировать его:

  1. Если PDF-файл не заблокирован от печати, вы можете распечатать его на виртуальном PDF-принтере, чтобы создать разблокированный файл. См. Это:
    «Удалить пароль и разблокировать защищенный PDF-файл, который можно печатать без указания секрета».
  2. Если функция печати заблокирована, см. Следующее:
    «Снять ограничения и расшифровать PDF-файлы, защищенные паролем, с помощью PDF Unlocker».

30
+100
  1. Откройте PDF-файл в Google Chrome (перетащите файл PDF в Chrome).
  2. Распечатайте конкретную страницу как PDF или просто откройте предварительный просмотр.
  3. Теперь вы можете скопировать текст из печати предварительный просмотр или вывод PDF. Но я не думаю, что вы могли бы скопировать таблицу напрямую.
Улучшите этот ответ
отредактировано 9 марта ’16 в 07:18
ответил 16 июля ’12 в 9:54
  • 1
    docs.google.com/open?id=0B0U0hneaP_FcYWprOFpEbTVqdkk См. мой результат. — Khaleel 16 июля ’12 в 09:58
  • 4
    У меня это тоже работает. Я вижу здесь самый простой способ. — endolith 16 июля ’12, в 14:38
  • 3
    Абсолютно великолепно. Кстати, вы можете перетаскивать файлы на панель вкладок Chrome, чтобы быстро их открывать. — iono 19 фев. 2013, в 18:42
  • Ни один из этих методов у меня не работал в Chrome 53. Возможно, лазейка была закрыта? — Саймон Ист 25 авг., 16:42
добавить комментарий |

  1. Откройте PDF-файл в Google Chrome (перетащите PDF-файл в Chrome).
  2. Распечатайте конкретную страницу как PDF или просто откройте предварительный просмотр.
  3. Теперь вы можете скопировать текст из предварительного просмотра печати или вывода PDF. Но я не думаю, что вы могли бы скопировать таблицу напрямую.

14

Мне удалось для создания версии вашего PDF-файла без DRM с помощью Ghostscript (который доступен для Windows).

  gs -q -dNOPAUSE -dBATCH -sDEVICE = pdfwrite -sOutputFile = stripped  .pdf VassilakisP2001Disdency.pdf  

Полученный файл stripped.pdf можно загрузить в Adobe Reader, и Reader с радостью позволит вам скопировать любую часть этого вы желаете. Он также сохраняет большую часть форматирования таблицы.

Улучшить этот ответ
ответил 15 июля ’12 в 23:33
  • Это великолепно. Мой налоговый бухгалтер отказывается предоставить мне PDF-файлы без DRM или пароль для удаления DRM. Это решает мою проблему. Превосходная работа! — kevinarpe 28 апр. ’13 в 3:52
  • 1
    Если PDF-файл содержит пароль, не забудьте включить переключатель -sPDFPassword ( -sPDFPassword = password код>). - palswim 16 августа 2017, в 23:02
  • Ты супер. Благодарю. — Цзинго Яо 17 мая ’20 в 14:33
добавить комментарий |

Мне удалось создать версию вашего PDF-файла без DRM, используя Ghostscript (который доступен для Windows).

  gs -q -dNOPAUSE -dBATCH -sDEVICE = pdfwrite -sOutputFile = stripped.pdf VassilakisP2001Disssment.pdf  

Полученный файл stripped.pdf можно загрузить в Adobe Reader, и Reader с радостью позволит вам скопировать любую его часть по вашему желанию. Он также сохраняет большую часть форматирования таблицы.


2

Мне удалось успешно скопировать таблицу из вашего PDF-файла с помощью Okular (для Linux; часть KDE). Для этого мне пришлось зайти в настройки Okular и снять флажок «Соблюдать ограничения DRM».

Я знаю, что это вам не очень помогает, так как вы используете Windows, но это это возможно, если у вас под рукой есть Linux-машина или вы хотите ее установить.

К сожалению, это был простой текст без форматирования, но похоже, что воссоздать таблицу не должно быть слишком сложно . Вы можете увидеть результаты моего приключения по копированию и вставке здесь.

Улучшите этот ответ
отредактировано 15 июля ’12 в 21:28
ответил 15 июля ’12 в 21:19
  • Вот для чего нужен VirtualBox. : D Я также могу скопировать простой текст без форматирования, но, выбирая по одному столбцу за раз, его довольно легко экспортировать. — эндолит 15 июля ’12, в 23:19
  • Похоже, это лучше всего подходит для таблиц с числами, поскольку Okular позволяет выделять прямоугольник текста и извлекать один столбец по порядку. — эндолит 16 июля ’12, в 14:42
  • Вероятно, для отдельных столбцов. Для всей таблицы см. Мой другой ответ. — Майкл Хэмптон, 16 июля 2012 г., 14:44
  • Обратите внимание, что Okular может работать в Windows. Фактически многие программы KDE могут работать в Windows. — Бакуриу 04 дек. ’13 в 19:53
добавить комментарий |

Мне удалось успешно скопировать таблицу из вашего PDF-файла с помощью Okular (для Linux; часть KDE). Для этого мне пришлось зайти в настройки Okular и снять флажок «Соблюдать ограничения DRM».

Я знаю, что это вам не очень помогает, так как вы используете Windows, но это это возможно, если у вас под рукой есть Linux-машина или вы хотите ее установить.

К сожалению, это был простой текст без форматирования, но похоже, что воссоздать таблицу не должно быть слишком сложно . Вы можете увидеть результаты моего приключения по копированию и вставке здесь.


1

Вы можете использовать GT Text — это программа, которая переводит изображения (также pdf snapshots = image) в текст. Вы можете выбрать область и скопировать ее в буфер обмена. Это бесплатно

Официальный сайт страница — http://gttext.googlecode.com

Улучшить этот ответ
ответил 27 июля ’12 в 07:58
добавить комментарий |

Вы можете использовать GT Text — это программа, которая переводит изображения (также pdf snapshots = image) в текст. Вы можете выбрать область и скопировать ее в буфер обмена Это бесплатно

Официальная домашняя страница — http://gttext.googlecode. com


1

Это удалось преобразовать основной текст . Однако с таблицами он не справился.

http://www.onlineocr.net/documents

Улучшите этот ответ
ответил 9 сентября 2015, в 19:49
добавить комментарий |

Это удалось преобразовать основной текст. Однако с таблицами он не справился.

http://www.onlineocr.net/documents


1

если копия выделена серым цветом, поскольку теперь вы сомневаетесь, тогда PDF-файл заблокирован, его можно прочитать, но он действительно мешает вам от копирования/вставки чего-либо из него.

Этот веб-сайт разблокирует PDF-файл

https://smallpdf.com/unlock-pdf

Улучшите этот ответ
ответил 15 апр. 05
добавить комментарий |

если копия выделена серым цветом, как теперь вы сомневаетесь, тогда PDF-файл заблокирован, его можно прочитать, но он действительно мешает вам копировать/вставлять что-либо из него.

Этот веб-сайт разблокирует PDF-файл

https://smallpdf.com/unlock-pdf


0

Если вы просто ищете короткие фрагменты, вы часто может ввести несколько слов в Google внутри кавычек и найти точную цитату, уже отсканированную в каком-либо другом формате или введенную кем-то другим.

Другой вариант — «Документ из фотографии» в Google Docs Android app, которое передаст текст через OCR. Конечно, это чревато ошибками.

Я бы хотел, чтобы функция блокировки PDF никогда не существовала. 🙁

Улучшить этот ответ
ответил 11 июля ’12 в 20:34
добавить комментарий |

Если вы просто ищете короткие фрагменты, вы часто можете ввести несколько слов в Google внутри кавычек и найти точную цитату, уже отсканированную в каком-либо другом формате или введенную кем-то другим..

Другой вариант — «Документ из фотографии» в приложении Google Docs для Android, который передает текст через OCR. Конечно, это чревато ошибками.

Я бы хотел, чтобы функция блокировки PDF никогда не существовала. 🙁


0

Ответ на эндолит:

Ваш PDF-файл защищен от копирования, но не защищен от печати. ​​

Итак, я распечатал одну страницу, содержащую таблицу 6.15, в другой PDF-файл, который не защищен от копирования, выбрал и скопировал таблицу, а затем вставил ее в Word. К моему большому удивлению, результат вставки оказался полным мусором.

Я внимательно посмотрел на эту таблицу и обнаружил очень удивительный результат : Это не таблица!

На самом деле это монтаж небольших фрагментов текста, расположенных на странице так, чтобы он выглядел как таблица. Но это не настоящая таблица.

Лучшее, что вы можете сделать, — это либо переписать все это как таблицу, либо просто использовать в своей работе снимок экрана с собранным текстом в виде таблицы.

Вот мой снимок экрана с таблицей, взятый из моего сгенерированного одностраничного PDF-документа:

Улучшите этот ответ
отредактировал 17 июля ’12 в 8:13
ответил 15 июля ’12 в 21:07
  • Я попытался распечатать его двумя программами, но все, что у меня было, это пустая страница. — endolith 15 июля ’12 в 22:56
  • Используя Foxit Reader, я расположился на странице, затем распечатал текущую страницу на принтере в формате PDF (я использовал Cute Pdf Writer). Я постараюсь сегодня вечером проанализировать проблему с копированием таблицы, — harrymc 16 июл. 2012, 17:48
  • Я пробовал PrimoPDF и qvPDF (который использует GhostScript) — endolith 16 июля ’12 в 14:33
  • См. мое добавление выше. — harrymc 17 июля ’12 в 8:07
  • … Я также загрузил сюда свой одностраничный pdf (время ожидания 60 секунд). — harrymc 17 июл. ’12 в 8:12
добавить комментарий |

Ответ на endolith:

Ваш PDF-файл защищен от копирования, но не защищен от печати. ​​

Итак, я распечатал одну страницу, содержащую таблицу 6. 15 в другой PDF-файл, который не защищен от копирования, выделил и скопировал таблицу, а затем вставил ее в Word. К моему большому удивлению, результат вставки оказался полным мусором.

Теперь я пошел дальше посмотрите на эту таблицу и обнаружите очень удивительный результат: Это не таблица!

На самом деле это монтаж небольших фрагментов текста, размещенных на странице чтобы выглядеть как стол. Но это не настоящая таблица.

Лучшее, что вы можете сделать, — это либо переписать все это как таблицу, либо просто использовать в своей работе снимок экрана с собранным текстом в виде таблицы.

Вот мой снимок экрана с таблицей, взятый из моего сгенерированного одностраничного PDF-документа:


0

Другой возможность — Evince.

Кажется, что в Windows по умолчанию поддерживается копирование.

В Linux копирование можно включить, проверив параметр override_restrictions , если он еще не установлен, следуя этим указаниям ( dconf-editor /org/gnome/evince override_restrictions ).

Улучшите этот ответ
13 сен ’12 в 14:24
добавить комментарий |

Другая возможность — Evince.

Кажется, что в Windows по умолчанию поддерживается копирование.

В Linux копирование можно включить, проверив параметр override_restrictions , если он еще не установлен, следуя этим указаниям ( dconf-editor /org/gnome/evince override_restrictions ).



Как скопировать текст из PDF-файла без потери форматирования?

Когда я копирую текст из PDF-файла в текстовый редактор, он оказывается искаженным различными способами. Форматирование, например, полужирный и курсив, потеряно; мягкие переводы строк в абзаце текста преобразуются в жесткие; тире для разбиения слова на две строки сохраняются, даже если их не должно быть; а одинарные и двойные кавычки заменяются на? знаки.

В идеале я хотел бы иметь возможность копировать текст из PDF и преобразовывать форматирование в коды HTML, «умные кавычки» преобразовывать в «и», а разрывы строк выполнялись правильно. Есть ли способ сделать это?


Во-первых, вы должны понять, что такое PDF. PDF-файлы созданы так, чтобы имитировать печатную страницу, и они созданы только как формат вывода, а не формат ввода. PDF — это в основном карта, содержащая точное расположение символов (отдельных букв или знаков препинания и т. д.) или изображений. В большинстве случаев PDF-файл даже не хранит информацию о том, где заканчивается одно слово и начинается другое, не говоря уже о таких вещах, как мягкие или жесткие разрывы для абзаца. окончания.

(Некоторые недавние PDF-файлы содержат некоторую информацию об этом, но это новая технология, и вам повезет, если вы найдете такие PDF-файлы. Даже если бы вы это сделали, ваша программа просмотра PDF-файлов может не знать об этом.)

В любом случае, ваше программное обеспечение должно реализовать какой-то «искусственный интеллект» для извлечения только из местоположения отдельных символов, что такое слово, что такое абзац , и так далее. Разные программы справятся с этим лучше, чем другие, и это также будет зависеть от того, как был создан PDF-файл. В любом случае вы не должны никогда ожидать идеальных результатов. Наличие выходного PDF-файла — это не то же самое, что наличие исходного документа. Намного лучше попытаться получить это, если сможете.

Стандартное решение вашей проблемы — использовать Adobe Acrobat Professional (дорогостоящий, а не бесплатный читатель) для преобразования PDF в HTML. . Даже это не даст идеальных результатов.

Существует бесплатное программное обеспечение, которое можно использовать для извлечения текста из PDF-файлов с сохранением некоторого форматирования, но, опять же, не ожидайте идеальных результатов. См., Например, calibre (который может конвертировать в формат RTF), pdftohtml/pdfreflow или текстовый процессор AbiWord (со всеми включенными плагинами импорта/экспорта). Также существует плагин для импорта PDF-файлов для OpenOffice.

Но, пожалуйста, не ожидайте совершенства с любым из этих результатов. Вы здесь идете против течения. PDF просто не предназначен для редактирования входного формата.


10

Другой вариант — загрузить и начать использовать бесплатную программу просмотра PDF-файлов Foxit (это хорошо). Затем вы можете «Сохранить как» и выбрать .txt, чтобы преобразовать его в текстовый файл. Это сохранит все форматирование. Не знаю, можете ли вы сделать то же самое в Adobe, потому что я перестал его использовать некоторое время назад, когда перешел на Foxit.

Улучшите этот ответ
ответил 24 января ’13 в 7:05
  • «Сохранить как … текст» у меня работал с несколькими бесплатными программами для просмотра PDF-файлов. — Джефф, 18 дек. ’13 в 19:23
  • Я использую Foxit, и только что попробовал, я бы не сказал, что форматирование сохранилось. И все, что я хотел, это достойные окончания строк и каждый абзац как абзац.. — pgr 31 дек. ’15 в 14:48
  • 1
    Используя txt, вы потеряете все форматирование: шрифты, полужирный шрифт, курсив, цвета и, конечно же, более продвинутые параметры — skan 22 февр., 16:21
  • Foxit Reader отлично поработал для меня — Майкл Транчида 2 мая ’18 в 10:42
добавить комментарий |

Другой вариант — загрузить и начать использовать бесплатную программу просмотра PDF-файлов Foxit (это хорошо). Затем вы можете «Сохранить как» и выбрать .txt, чтобы преобразовать его в текстовый файл. Это сохранит все форматирование. Не знаю, можете ли вы сделать то же самое в Adobe, потому что я перестал его использовать некоторое время назад, когда преобразовался в Foxit.


6

Существует очень хороший онлайн-инструмент под названием Sej-da . Он занимается расширенным управлением PDF-файлами. Нет программного обеспечения для загрузки. Поскольку это новый онлайн-инструмент, он все еще находится в стадии бета-тестирования. Он позволяет извлекать текст из PDF, а также предоставляет множество других функций PDF.

http://www.sejda.com/

Краткое видеообзор функций sejda был сделан 14 ноября 2012 г. в редакции 3, его можно найти здесь:

http://revision3.com/tzdaily/sejda-online-pdf

Улучшите этот ответ
отредактировал 1 декабря 2012 в 14: 38
ответил 01 декабря 2012 в 14:29
  • 1
    Один мог по-прежнему загрузить инструмент командной строки: sejda.org/download (я не думаю, что он позволяет извлекать текст с форматированием?) — Арьян 1 дек. ’12 в 14 : 41
  • Я уже рекомендовал Сейду выше Арджана — Саймона, 01 декабря 2012, 14:56
  • 1
    А? Я просто имел в виду: вы говорите, что это онлайн-инструмент, но можно также загрузить то же самое. Кроме того, глядя на это дальше: я не думаю, что он сохранит форматирование, как и просили? — Арджан 01 дек., 15:16
  • Мне хорошо известно, что было запрошено сохранение формата, но если вы не попробуете, вы никогда не узнаете. — Саймон 01 дек., 15:41
  • Поскольку это бесплатный инструмент с множеством функций, и он еще не вышел из бета-версии — терять нечего, но попробуйте. Со временем его набор функций, вероятно, будет расширен, но пока особо жаловаться не могу. — Саймон 01 дек. ’12 в 15:47
добавить комментарий |

Существует очень хороший онлайн-инструмент под названием Sej-da . Он занимается расширенным управлением PDF-файлами. Нет программного обеспечения для загрузки. Поскольку это новый онлайн-инструмент, он все еще находится в стадии бета-тестирования. Он позволяет извлекать текст из PDF, а также предоставляет множество других функций PDF.

http://www.sejda.com/

Краткое видеообзор функций sejda был сделан 14 ноября 2012 г. в редакции 3, его можно найти здесь:

http://revision3.com/tzdaily/sejda-online-pdf


5

Откройте файл PDF в браузере (Google Chrome и firefox протестированы ) затем скопируйте туда свой текст.

Улучшите этот ответ
отредактировано 02 дек., 10:45
ответил 01 декабря 2012 в 13:48
  • К сожалению, в Firefox это не сработало. — Реб 6 сен 2016, 11:50
  • закрыть. FF сохранил хотя бы размер шрифта. С треском провалился Chrome, даже перевод строки. — nd34567s32e 20 фев. В 13:51
  • По состоянию на октябрь 2019 года при открытии PDF-файла в Chrome и копировании/вставке в текстовый редактор по крайней мере сохраняется конец строки (но, к сожалению, не ведущие пробелы в линии). — DocOc 03 окт. ’19 в 12:50
добавить комментарий |

Откройте файл PDF в браузере (проверены Google Chrome и Firefox), затем скопируйте туда свой текст.


4

Вы можете использовать Adobe Acrobat Pro для это.

Для таблиц: в Acrobat 9/10 появилась функция выбора таблиц. В Acrobat X вы можете просто щелкнуть Сохранить как> Электронная таблица> Excel. Он даже объединяет страницы в одну длинную электронную таблицу. Потрясающая особенность.

Для текста: аналогичная функция существует для экспорта в MS Word. Сохранить как> Word> Word Doc.

Источники:

  • http://blogs.adobe.com/acrolaw/2009/04/exporting -a-pdf-to-excel/
  • Я только что сделал это, и это сработало как шарм.
Улучшите этот ответ
ответил 06 сен. ’12 в 19:00
добавить комментарий |

Для этого вы можете использовать Adobe Acrobat Pro.

Для таблиц: в Acrobat 9/10 появилась функция выбора таблиц. В Acrobat X вы можете просто щелкнуть Сохранить как> Электронная таблица> Excel. Он даже объединяет страницы в одну длинную электронную таблицу. Потрясающая особенность.

Для текста: аналогичная функция существует для экспорта в MS Word. Сохранить как> Word> Word Doc.

Источники:

  • http://blogs.adobe.com/acrolaw/2009/04/exporting -a-pdf-to-excel/
  • Я только что сделал это, и это сработало как шарм.

0

Foxit будет переключаться между отображением исходного файла как обычного PDF-файла или как текста, нажимая Ctrl + 6 (с небольшими изменениями с уровнем масштабирования текстового режима не так много скачков между чтением и копированием)

Улучшите этот ответ
ответил 13 апр. ’15 в 11:19
комментировать |

Foxit будет переключаться между отображением исходного файла как обычного PDF-файла или как текста, нажимая Ctrl + 6 (с небольшим изменением уровня масштабирования в текстовом режиме между чтением и копированием не так много скачков взад и вперед)


0

Я нашел это очень полезным (Удалить разрывы строк):

Вот полезный трюк, позволяющий быстро решить эту проблему без необходимости вручную удалять все разрывы строк. По сути, все, что он делает, это автоматически заменяет все нежелательные разрывы строк одним пробелом, объединяя весь текст в один абзац:

1 — скопируйте нужный текст из PDF.

2- вставить в новый документ Word.

3- нажмите «изменить», затем «заменить»

4- убедитесь, что вы вы находитесь в поле «найти что»

5- щелкните «еще», затем «специальный»

6- выберите «знак абзаца» (вверху списка)

7- щелкните поле «заменить на»

8- нажмите пробел один раз

9- щелкните «заменить все

10 — нажмите «ОК», затем закройте поле «Найти и заменить».

Улучшите этот ответ
ответил 25 фев, в 23:17
добавить комментарий |

Я нашел это очень полезным (удаление разрывов строк):

Вот полезный трюк для быстрого решения это без необходимости вручную удалять все разрывы строк. По сути, все, что он делает, это автоматически заменяет все нежелательные разрывы строк одним пробелом, объединяя весь текст в один абзац:

1 — скопируйте нужный текст из PDF.

2- вставить в новый документ Word.

3- нажмите «изменить», затем «заменить»

4- убедитесь, что вы вы находитесь в поле «найти что»

5- щелкните «еще», затем «специальный»

6- выберите «знак абзаца» (вверху списка)

7- щелкните поле «заменить на»

8- нажмите пробел один раз

9- щелкните «заменить все ”

10 — нажмите« ОК », затем закройте поле« Найти и заменить ».


-1

Вы можете скопировать из Adobe Reader в MS Excel и отформатировать (таблицу) так, как вы хотите, а затем скопировать и вставить из Excel. Это решение отлично работает. Вам не нужно покупать дорогую профессиональную копию Adobe.

Улучшите этот ответ
отредактировано 11 декабря 2015 г., 13:39
Дэйв М.
12.9k99 золотых знаков3232 серебряных знака4141 бронзовых знака
ответ дан 11 дек. : 23
  • Вопрос касается текста. Как вы думаете, будет ли это хорошее общее решение для текста, включая преобразование форматирования в коды HTML? — fixer1234 11 дек. ’15 в 17:24
добавить комментарий |

Вы можете скопировать из Adobe Reader в MS Excel и отформатировать (таблицу) так, как вы хотите, а затем скопировать и вставить из Excel. Это решение отлично работает. Вам не нужно покупать дорогую профессиональную копию Adobe.


-1

Я пытался сохранить текст и формат PDF-файла, организованного в виде таблицы. В Acrobat Professional я понял, что есть опция «Сохранить как», которая позволяет сохранять как документ Excel. Это хорошо сработало для моих нужд. Я также заметил, что есть опция «Сохранить как документ Word». Однако я не пробовал.

Улучшите этот ответ
ответил 22 января ’16 в 16:15
  • 2
    Это дублирует ответ пользователя 156787. — fixer1234 23 янв. ’16 в 1:52
добавить комментарий |

Я пытался сохранить текст и формат PDF-файла, организованного в виде таблицы. В Acrobat Professional я понял, что есть опция «Сохранить как», которая позволяет сохранять как документ Excel. Это сработало для моих нужд. Я также заметил, что есть опция «Сохранить как документ Word». Но я не пробовал.

Оцените статью
logicle.ru
Добавить комментарий