В арсенале компании Abbyy вот уже около 10 лет имеется продукт под названием PDF Transformer. Он менее известен, чем FineReader, хотя, по большому счету, и основан на тех же технологиях. С момента своего появления он решал, фактически, всего одну главную задачу: преобразовывал PDF-документы в редактируемые форматы — к примеру, в DOC. Основная идея, конечно же, заключалась в том, чтобы при этом максимально сохранить не только содержимое документа, но и его оформление. Поэтому, если PDF Transformer 1.0 был простым конвертером с минимумом настроек, то в PDF Transformer 2.0 появилась возможность управлять процессом преобразования на уровне отдельных областей страниц (текстовых блоков, таблиц, изображений), а PDF Transformer 3.0 обзавелся поддержкой технологии ADRT, которая старается воссоздать логическую структуру всего документа.
Сегодняшний продукт, однако, выбивается из прежней линейки. Вместо ожидаемого приращения номера версии мы видим добавку к названию в виде знака «плюс», которая, очевидно, призвана намекнуть, что перед ними нечто большее, чем просто конвертер. Забегая вперед, скажу, что это действительно так, и мы имеем дело с совершено новым продуктом. Для 2009-го PDF Transformer 3.0 был достаточно передовым инструментом, но с тех пор по меркам ИТ прошло очень много времени. Импортировать PDF научились офисные пакеты — в Microsoft Office 2013 эта возможность встроена, для OpenOffice имеется соответствующее, причем бесплатное, расширение и т.п.
Конечно, конвертеры в обоих приведенных примерах более уместно сравнивать с PDF Transformer 1.0. Они не допускают настроек, работают медленнее, нередко зависают и пр. Тем не менее, во многих случаях (на не самых объемных и сложных документах) тот же Word 2013 выдает вполне пристойные результаты, и большинство его пользователей они наверняка устроят. Соответственно, давайте разберемся, что же может предложить PDF Transformer+ сверх просто конвертации.
Что не так с PDF?
Portable Document Format (PDF) — это кроссплатформенный (переносимый) формат электронных документов, созданный компанией Adobe с использование возможностей ее же языка печати PostScript. Изначально он предназначался для полиграфии и фактически представлял собой электронный аналог «твердой копии», т.е. распечатки. Аналогию усиливает то, что поначалу самым распространенным способом получения PDF была печать рабочих документов на виртуальный принтер, т.е. специальную программу/драйвер, преобразующую один набор графических команд (GDI в случае Windows) в другой — в нашем контексте, именно в PDF.
Все это было придумано для того, что обеспечить идентичность визуального представления документов на любых устройствах вывода — от самого маленького монитора до промышленного печатного оборудования. Именно командная природа PDF позволяет максимально точно воссоздавать внешний вид страниц, корректно выполняя масштабирование и другие операции. Это, однако, едва ли не полностью лишает информацию контекста. К примеру, подчеркнутый текст с точки зрения PDF — это просто набор символов и отдельно черта, размещенная с такой точностью, что мы не замечаем «подвоха». То же самое происходит с таблицами, колонками и пр. Из-за этого, продолжая аналогию с «твердой копией», получается, что поправить непосредственно PDF так же сложно, как и распечатку.
За свою двадцатилетнюю историю PDF, естественно, претерпел множество изменений. Сегодня он представляет собой достаточно сложный контейнер для самого разнообразного содержимого: текста, графических (растровых и векторных) и мультимедийных объектов, форм и других интерактивных элементов, гиперссылок и исполняемых сценариев. В 2008 г. он стал открытым стандартом ISO 32000 и сегодня поддерживается (в качестве результирующего формата) практически всем сколько-нибудь серьезным ПО для создания документов. Это, кстати, большой плюс, поскольку приложения обладают полной информацией о структуре документа и могут сохранять ее в PDF с помощью специальных тэгов, которые, в частности, упрощают переформатирование (reflow) документов на маленьких экранах современных мобильных устройств.
Таким образом, PDF бывают весьма разнообразными, в них могут содержаться только изображения страниц (полученных путем сканирования) или, вдобавок к ним, текстовая информация (после обработки OCR), полноценный текст (созданный непосредственно приложением) или результат преобразования символов в кривые (прием, часто используемый на финальном этапе предпечатной подготовки). Такие документы могут выглядеть совершенно идентично, но операции вроде поиска и копирования фрагментов будут работать в них совершенно по-разному. Нередко возникают и ситуации, когда нужно или удобно поправить непосредственно сам PDF — к примеру, исправить внезапно обнаруженную опечатку в преобразованной презентации или заменить реквизиты в макете визитки. Исторически для таких задач Adobe предлагает полноценную версию Acrobat (не Reader), цена которого — $300 за редакцию Standard — вполне отражает его сложность. Но даже он не всесилен: скажем, текст нельзя будет отредактировать при отсутствии соответствующего шрифта. Альтернативных же инструментов не так много, но теперь их список пополнится Abbyy PDF Transformer+.
Общие сведения и установка
Формальные запросы PDF Transformer+ достаточно скромны:
- процессор с частотой 1 ГГц;
- 1 ГБ оперативной памяти плюс по 512 МБ на каждый дополнительный процессор в многопроцессорных системах;
- 700 МБ дискового пространства для самой программы и столько же для ее работы;
- монитор с разрешением не менее 1024х768;
- операционная система от Windows XP до Windows 8 с необходимой языковой поддержкой.
Но надо понимать, что это минимальные требования, и большее количество ресурсов позволит программе работать более эффективно. PDF Transformer+ использует движок FineReader, который умеет качественно распараллеливать задания и выжимать максимум из имеющегося оборудования. Вот, к примеру, как выглядит процесс конвертации многостраничного документа:
Хорошо видно, что задача задействует все четыре ядра процессора (три процесса FineExec и Тransformer, интерфейс программы).
Abbyy PDF Transformer+ распознает 189 мировых языков на основе кириллицы, латиницы, греческого, арабского и армянского алфавитов, а также иероглифического письма. Входными форматами для приложения могут служить PDF, DOC, DOCX, XLS, XLSX, PPT, PPTX, VSD, VSDX, TXT, RTF, HTML, BMP, JPEG, JPEG 2000, JPEG2, PNG, TIFF, GIF, а выходными — DOCX, XLSX, PPTX, RTF, PDF, PDF/A, HTML, CSV, TXT, ODT, EPUB, FB2. Здесь уже можно обратить внимание на одну из новинок: поддержку ODT, текстового формата OpenOffice и LibreOffice, а также EPUB и FB2 для создания электронных книг.
Abbyy PDF Transformer+ поставляется на компакт-диске или в виде электронного инсталляционного модуля, который предварительно разворачивается и запускает ту же программу установки:
В процессе можно будет выбрать место расположения программы, а выборочная установка позволит исключить ненужные подключаемые модули (для современных версий приложений особого смысла в них нет), которые позволят оперативно создавать PDF из приложений Microsoft Office и проводника Windows:
При первом запуске программы будет предложено выполнить активацию либо воспользоваться 30-дневным ознакомительным периодом:
Регистрация пользователя является необязательной процедурой, но открывает ряд возможностей в части поддержки, получения оповещений о выходе обновлений и пр.
Рекомендованные цены составляют 2490 руб. за коробочную версию и 2240 руб. за электронную.
В настоящий момент доступна пробная версия продукта, о начале продаж будет объявлено дополнительно.
Возможности Abbyy PDF Transformer+
Основное окно программы предлагает оперативный доступ к последним открытым файлам и основным операциям:
Уже оно дает некоторое представление о изменениях в PDF Transformer+. Так, появилась возможность создания файлов путем сканирования оригиналов, а интерфейс программы предполагает непосредственную работу с PDF. Фактически, PDF Transformer+ может использоваться в качестве стандартной программы для просмотра PDF всех типов, а использование официальной Adobe PDF Library гарантирует максимальную совместимость. При этом обеспечивается сквозной (а не последовательный, как скажем в Adobe Reader) поиск по всему документу, причем независимо от его типа (при необходимости автоматически задействуется OCR), а также по комментариям, метаданным (свойствам документа):
В качестве программы просмотра PDF Transformer+ обладает полновесным комплектом инструментов для совместных обсуждений и рецензирования документов. Имеются несколько типов маркеров для выделения текста, две разновидности комментариев — обычный и «точечный» (функция «Вставить текст»), с возможностью ответов на них.
При активном обсуждении с комментариями можно работать в специальной панели, чтобы они не закрывали основное содержимое документов.
Имеются также возможности для простановки специальных штампов и подписи документа цифровой электронной подписью (нужен соответствующий сертификат):
Если сравнивать PDF Transformer+ с Adobe Reader, то у последнего арсенал подобных средств несколько шире, к примеру, в нем можно рисовать простые графические формы и записывать голосовые комментарии, но возможности PDF Transformer+ покрывают большинство потребностей в части рецензирования и совместной работы. Более существенным недостатком является то, что PDF Transformer+, несмотря на использования стандартной библиотеки Adobe, все же не поддерживает некоторые формы и, соответственно, не позволяет вносить в них информацию.
Зато PDF Transformer+ для графических страниц будет автоматически запускать процедуру OCR сразу после открытия PDF-файла (если это отмечено в настройках), что позволит скопировать любой фрагмент документа:
Как видно, результат достаточно хорош: несмотря на некоторые ошибки распознавания, структура и бо́льшая часть информации перенесены совершенно корректно. Впрочем, эффективность OCR-технологий Abbyy сомнений не вызывает.
Однако кроме функций просмотра и рецензирования документов в PDF Transformer+ присутствуют и функции редактирования. Самая простая операция — добавление текстовых блоков в любом месте документа, которая доступна в обычном режиме.
Такие блоки больше сродни комментариям и оригинального содержимого не затрагивают, даже если перекрывают его. Ключевые слова под ними будут найдены и подсвечены. Для непосредственного редактирования необходимо включить специальный режим. В нем действуют примерно те же ограничения, что и в Adobe Acrobat: нельзя поправить текст на изображениях, преобразованный в кривые, для которого в системе нет шрифтов и пр. Впрочем, доступные возможности сразу будут видны, т.к. при включении режима фон нередактируемых объектов становится серым, а редактируемых — белым.
Документы, в которые можно вносить изменения — не такая редкость. Как правило, это практически все, которые создавались в «обычных» приложениях и предназначались для распространения в электронном виде, а не полиграфии: различная документация, учебные материалы, статьи, презентации, пресс-релизы и пр. В них можно осуществлять построчные правки — удалять, заменять, добавлять символы и слова. Естественно, ни о каком переформатировании абзацев или, тем более, страниц речь не идет.
Возможна также корректировка размеров изображений (без изменения макета страницы), удаление, добавление и перестановка страниц.
Содержимое документа также можно избирательно удалять, причем несколькими способами. Ластик просто стирает выделенные соответствующим инструментом области, в некоторых случаях пытаясь изображать размытие на их границах. Другой инструмент, в режиме удаления информации, равномерно закрашивает области выбранным цветом (по умолчанию черным):
В обоих случаях соответствующая информация удаляется полностью (т.е. не только визуально, но и на уровне текста). Дополнительно можно удалить скрытые данные, в частности, комментарии и метаданные, а также — весь текстовый слой, и сохранить результирующий документ как чисто графический. Это гарантирует полное исчезновение затертых данных и исключает последующее редактирование, хотя тот же PDF Transformer+ сможет воссоздать текстовый слой из изображений страниц и осуществлять по ним поиск.
Выше представлены новые возможности PDF Transformer+, которые должны заинтересовать пользователей в наибольшей степени, но ими его функциональность не исчерпывается. Приложение умеет также создавать PDF, причем из самых различных материалов, в том числе, из изображений, содержащихся в файлах популярных форматов или получаемых непосредственно со сканера. Кроме подключаемых модулей для Microsoft Office в комплект PDF Transformer+ входит виртуальный принтер PDF-XChange 5.0, способный «распечатать» в PDF данные из любых приложений:
Также PDF Transformer+, поддерживает функции защиты документов. Кроме уже упомянутой цифровой подписи, имеется возможность управлять паролями для различных уровней доступа к PDF. При этом можно выбирать алгоритмы шифрования, оставлять открытыми метаданные и пр.
Кроме того, можно оптимизировать PDF; добавлять в документы нумерацию Бейтса; выполнять пакетное преобразование или, наоборот, вручную корректировать разметку страниц в расширенном режиме, чтобы исключить распознавание текста на иллюстрациях и пр.
Резюме
Итак, знак плюс в названии продукта нас не обманул. Abbyy PDF Transformer+ действительно не просто конвертер, а универсальный комбайн для работы с PDF в рамках возможностей этого формата. Для многих (прежде всего, непрофессиональных) применений он вполне может составить конкуренцию Adobe Acrobat за счет более низкой цены, простого интерфейса, проверенного OCR-движка, удачной реализации некоторых функций, в частности, поиска. Согласно исследованию Abbyy, 75% пользователей периодически нуждаются в преобразовании PDF в другие форматы, а 60% активно копируют из них текст и изображения. Соответственно, потенциальная аудитория Abbyy PDF Transformer+ довольно широка.
Благодаря новым возможностям продукт пригодится всем тем, кто отвечает за подготовку документов, но не владеет исходными инструментами их подготовки (работники маркетинга, PR, отделов продаж, инженеры и пр.) — внести небольшие исправления будет гораздо проще самостоятельно, чем давать задание дизайнерам и вновь проверять результат. Продукт также представляет интерес для представителей науки и образования — от студентов, занимающихся подготовкой рефератов, до научных сотрудников, работающих со статьями, монографиями, учебниками в электронном виде.
Компании Abbyy остается лишь пожелать не останавливаться на достигнутом и продолжить совершенствование PDF Transformer+, прежде всего, в части поддержки форм, что еще расширит сферу его применения.