3 июля 2011 г.

Сохранение веб-страниц в pdf-файлы

Порой может возникнуть надобность сохранить интернет-страницу на жёсткий диск. Стандартно всё делается просто - через пункт меню "Сохранить как...". На выходе получаем файл html и лежащую рядом почти одноимённую папку, содержащую все файлы страницы. Во многих случаях не слишком удобный "форм-фактор" и гораздо удобнее было бы иметь один файл, соответствующий одному "документу", но содержащий в себе все нужные элементы.
Варианты следующие (совсем маргинальные, вроде копирования вручную содержимого в текстовый процессор и затем сохранения в форматах odt или doc, я рассматривать не буду):

  • mht (mime html) - веб-архив. Вроде как именно для этого создавался. Можно получить, сохраняя страницы в IE и Opera. Для Firefox нужно поставить аддон UnMHT
  • chm (compiled html) - формат гипертекстовой справочной системы, специально разработанный Microsoft для встроенной помощи Windows. На мой взгляд этот вариант хуже - во-первых, создавался он изначально для конкретной задачи и не совсем той, что тут рассматривается, а во-вторых, со средствами сохранения в него ситуация хуже, да и с чтением не всё гладко на линуксах.
  • pdf (portable document format) - хорош кроссплатформенностью и открытостью. Со средствами просмотра всё обстоит прекрасно, насколько знаю, на всех системах. Немного смущает, что цель у формата тоже несколько другая - прежде всего для электронного представления полиграфической продукции.
    Поддерживает ссылки, поиск по тексту, и в отличии от mht поддерживает структурированное содержание.
Есть ещё какой-то непонятный maff - как я поняла, чисто мозилловский формат и уже умирающий, есть какой-то способ сохранения страниц одним файлом, предоставляемый аддоном для chrome/chromium SingleFile неизвестно какой совместимости и структуры, можно, наверное, как-то сохранять в формат djvu. Но это уже совсем экзотичные и изощрённые способы.
Может быть, есть ещё варианты и даже какой-нибудь гораздо более подходящий, но мне пока видится самым оптимальным решением - сохранение в pdf.

Теперь что касается способов преобразования. Честно говоря, адекватно работающих приложений я не нашла. Есть жуткая утилита htmldoc, но с кириллицей у неё не сложилось, видимо.
Пока единственное решение - он-лайновые конвертеры. Ну и я смотрела не все из них, а лишь те, что предоставляют аддон для браузера, причём для firefox, поскольку в основном им пользуюсь. Поскольку нажать на кнопку удобнее, чем открывать специальный сайт и вставлять там в форму нужную ссылку.
Итак, проверила я следующие дополнения:

  • web2pdf
  • Save as PDF
  • pdfit
  • PrintPDF
  • PDF Download
  • Online Convert
Теперь можно рассмотреть каждый подробнее, описание будет происходить по схеме:
  1. веб-сервис, который производит конвертирование и предоставляет аддон
  2. способы доступа к функционалу из браузера (кнопки, пункты меню)
  3. количество и описание доступных настроек
  4. описание результата

pdfit

  • Предоставляется веб-сервисом touchpdf.com, который позволяет производить и некоторые манипуляции с pdf-файлами.
  • Добавляет дополнительное подменю в контекстное меню и меню Tools. Никаких лишних страниц не открывает, что является большим плюсом.
  • Расширение позволяет сохранять страницы картинками и большинство настроек относится к этому, а для pdf - размер страницы и возможность разделять файл на страницы по вертикали или сохранять одну длинную (как и сама интернет-страница).
  • В результате получаем pdf-файл, который на проверку оказывается картинкой, конвертированной в pdf.
Совершенно бесполезное дополнение в силу исходящего формата - зачем нужен pdf-файл, по которому нельзя произвести поиск и где не работают ссылки, я не знаю. Можно с тем же успехом сохранять скриншот страницы.

Web2PDF (для Chrome)

  • Веб-сервис web2pdfconvert.com. Крайне простой, но есть связанные ресурсы для конвертации других форматов в pdf и обратно.
  • Есть пункт в контекстном меню и можно добавить кнопку на панель. Но, по-моему, смысла в дополнении не очень много - поскольку при нажатии открывается страница сервиса, только с уже вставленным нужным адресом в соответствующей строке.
  • Из настроек только включение-отключение кнопки панели или пункта меню, что можно считать отсутствием настроек практически.
  • В результате получаем документ, автоматически разбитый на страницы и с довольно крупным логотипом сервиса в нижнем правом углу на каждой.
Дополнение пока несовместимо с последней версией Firefox, но, скорее всего его скоро допилят. На сайте ещё можно взять букмарклет.
В целом вариант приемлем, но можно найти без логотипов.

Save as PDF (для Chrome)

  • Сервис pdfcrowd.com, кроме прочего позволяет создавать html-страницы c помощью встроенного WISIWIG-редактора и там же сохранять их в pdf.
  • Добавляет только кнопку на панель, довольно малосимпатичную при том.
  • Настроек довольно много, но все они недоступны при бесплатном использовании.
  • По-умолчанию сохраняет документ, разбитый на страницы в ландшафтной ориентации и с логотипами снизу каждой.
Не вижу смысла платить, когда есть бесплатные инструменты по крайней мере не хуже, а в бесплатном варианте этот сервис убог.

Online Convert

  • Сервис online-convert.com содержит также инструменты конвертирования аудио и видео файлов, картинок, электронных книг и тому подобное (поддерживаемых форматов довольно много).
  • Появится пункт в контекстном меню, точнее раскрывающееся подменю, где нужно выбирать Convert page to Document, после чего откроется страница с вставленным уже нужным адресом и возможностью выбрать формат, в том числе pdf.
  • Настроек нет вообще никаких. На сайте под соответствующей кнопкой хоть и есть ссылка "Change pdf settings", но там тоже пусто.
  • В результате получается документ, разбитый по страницам без всяких логотипов, и, что самое необычное и "вкусное", с готовым содержанием по разделам.
Дополнение пока помечено как "экспериментальное", поэтому установить его можно только зарегестрировавшись и залогинившись на сайте аддонов.
Жаль, что при использовании приходится заходить на сайт сервиса, но сам сервис заслуживает внимания. Ну и только этот конвертер умеет создавать содержание документа автоматически.

PrintPDF

  • Пожалуй, единственное расширение, работающее само по себе, а не использующее какой-либо он-лайновый конвертер. Вообще-то данный функционал есть изначально в браузере
  • Можно только добавить кнопку на панель - видимо, в ней вся соль.
  • В настройках только возможность включать и отключать фоновые цвета, фоновые картинки и колонтитулы на страницах (и опять же всё это есть и без аддона).
  • В итоге выходит файл, разбитый на страницы, но с неработающими ссылками.
В принципе, если ссылки не нужны, а лишь текст - то вполне себе решение. Ещё раз повторю - можно не ставить дополнений, а просто использовать меню "Печать" - там есть возможность печати в документ (ps или pdf) и настроек даже побольше (можно, например, менять колонтитулы).

PDF Download

  • Онлайн-сервис pdfdownload.org от создателей программы для работы с pdf - Nitro PDF Professional (платной).
  • Кнопка с подменю на панели, пункт в контекстном меню, а из меню Tools можно открыть настройки.
  • Настроек довольно много, но из основных - переключение между портретной и ландшафтной ориентацией страницы, настройка полей, а также возможность указать адрес электронной почты, куда будут приходить сконвертированные документы.
  • Результат нормальный, без логотипов, но формируется ужасно долго, а некоторые длинные страницы, мне кажется, он и не переварит, ну или ждать придётся часами.
Всё хорошо, но есть сервисы с тем же результатом, но при этом работающие быстрее.

Сначала мне показалось, что лучший вариант - это pdfit, пока я не заметила, что результат-то - картинка, что меня абсолютно не устраивает. Почему-то сначала казалось, что сохраняется нормальный документ.
Ну и в итоге, выходит, что самое лучшее из найденного - Online Convert, не смотря на открытие страницы сервиса. Зато помимо создания аккуратного pdf-документа с работающими ссылками и без логотипов, там ещё и автоматически созданное содержание.
Напоследок замечу, что помимо упомянутых тут аналогов подобных аддонов для Chrome, для него существует ещё пара-тройка своих аддонов, а также существует ещё несколько он-лайн сервисов, не предоставляющих дополнения для браузеров. Но если дойдут руки, будет уже отдельная тема.
И небольшая статистика по размерам получающихся файлов: одна и та же страничка, имеющая размер около 400 Кб (если её сохранить традиционно со всеми файлами), в mht получилась весящей 560 Кб (использовался аддон для firefox). А файлы pdf имели разные размеры в зависимости от используемого дополнения: PrintPdf - 540 Кб, Save as PDF - 470 Кб, web2pdf - 350 Кб, Online Convert - 330 Кб, pdfit - 8 Мб (ну это вообще картинка, напомню), а PDF Download - неизвестно (очень долго шуршало, я не дождалась). Хотя, это конечно не точные показатели, но принять во внимание можно.

4 комментария:

  1. В Опере (в других браузерах не знаю, не пытался), в Linux, если просто сделать "принт страницы и предпросмотр", то потом можно сохранить страницу в файл (в .pdf) Это самый простой вариант.

    ОтветитьУдалить
  2. И получим файл без кликабельных ссылок. Об этом упоминается в тексте статьи.

    ОтветитьУдалить
  3. Случайно наткнулся - искал на самом деле вот что:
    http://otvety.google.ru/otvety/thread?tid=08eeb4baa7c63b16&msg=QUESTION_POSTED&qposted=1
    *
    Но наткнувшись, сразу бросилось в глаза хорошее СТРУКТУРИРОВАННИЕ.
    Далее никак не ожидал, что автор ЖЕНского пола/рода :).
    Ну и в заключении, прочитав всё, остался весьма ПРИЯТНО УДИВЛЁН.
    (
    _ Ай да Автор - ай да (ну Opossum мне не очень близок ------ ,КСТАТИ,
    _ надо будет проСВЕТить_С(еб)Я - а кто это и чем он знаменит).
    )
    Вот допишу (сей) коммент(арий) и хотелось бы найти ещё статей этоЙ автора :) -
    пишет, весьма системно - почти как научная работа - с (полным) анализом.
    И при это КРАТКО(не то что некоторые... даже неБОЛЬШОЙ комментарий умудряются..:)
    Мне очень понравилось - жаль только, что..
    _______________________ жаль ______, что так и не нашлись достойные плагины/add-оны.

    ОтветитьУдалить
  4. Вы товарищ еблан

    ОтветитьУдалить