Времена, когда сканирование было высококвалифицированной и хорошо оплачиваемой работой, закончились в 90-х годах. Тогда компьютеры были относительно слабые, и программное исправление ошибок сканирования требовало чудовищного количества времени и было нерентабельным. Сегодня компьютер и сканер превратились в бытовую технику. Сканируют все кому не лень, а кому лень — переснимают книжки мыльницами. Создается впечатление, что владельцы компьютеров не умеют не только сканировать, но и элементарно безграмотны и не могут прочитать инструкцию. Современный компьютер, безусловно, намного умнее своих хозяев, однако ему нужно объяснить, что от него требуется.
На эти грустные размышления меня навели пара сотен отсканированных журнальных и архивных страниц, которые предполагалось распознать для последующей публикации. Однако, хотя сегодняшние программы распознавания умеют исправлять очень многие ошибки сканирования, с данными текстами даже самая продвинутая из программ распознавания (не буду ее называть, чтобы не делать рекламу или антирекламу) не справилась. Попытка причесать их в графическом редакторе показала, что сканы можно привести к удобоваримому виду, чтобы они были распознаны практически без ошибок. Но это требовало на каждую страницу затрат явно больших, чем ее повторное сканирование. Вот только, к сожалению, исходные документы были труднодоступными, и я стал искать способ ускорить обработку этой электронной макулатуры.
Оказалось, что в сети есть программа Scan Tailor — узкоспециализированная, предназначенная только для того, чтобы привести в пристойный вид отсканированные или переснятые страницы книг. Программа способна разбить попарно отсканированные страницы на отдельные файлы, развернуть их так, чтобы строки были горизонтальными, удалить пятна, выровнить яркость, превратить снимок в цвете или градациях серого — в черно-белое изображение с увеличением разрешения, а также различить иллюстрации и сохранить их в градациях серого или цвете.
Программа создает сценарий обработки для папки с фотографиями или сканами, его можно подкорректировать, после этого надолго задумывается и уже без нашего участия создает страницы, готовые для печати, сборки в DJVU или распознавания.
На выходе мы получаем страницы в формате TIFF с компрессией LZW. Не самый удачный формат, поскольку не все программы его воспринимают, но уж для преобразования одного графического формата в другой существует огромное количество программ.
Фрагмент исходного снимка | Результат на выходе |
Волшебная программа называется Scan Tailor. Ее автор Иосиф Арцимович. Программа эта распространяется под лицензией GPL версия 3, есть версия для Windows и исходники для остальных. Есть очень подробные русское и английское описания, что нетипично для свободных программ, и даже видеоурок, подробно описывающий работу с программой. Добавить к информации, уже имеющейся на сайте программы, практически нечего. Копировать информацию, доступную по ссылке, как-то не логично, поэтому я не стал делать тест или подробный обзор этой программы, а решил сделать чисто рекламную статью:
ПОЛЬЗУЙТЕСЬ ПРОГРАММОЙ СКАНТЕЙЛОР!
Однако, глянув на определение термина «реклама»,
Реклама (от лат. reclamare — «утверждать, выкрикивать, протестовать») — информация, распространенная любым способом, в любой форме и с использованием любых средств, адресованная неопределенному кругу лиц и направленная на привлечение внимания к объекту рекламирования, формирование или поддержание интереса к нему и его продвижение на рынке.
Задача рекламы — побудить представителей целевой аудитории к действию (выбору товара или услуги, осуществлению покупки и т. п., а также формированию запланированных рекламодателем выводов об объекте рекламирования).
я понял, что и рекламная статья не получается, по одной простой причине: данная программа не является товаром. Нет рекламодателя, никто не собирается оплачивать ее продвижение, в этой информации заинтересован исключительно потребитель. Повышенный спрос на программу, возможно, и тешит самолюбие автора, но иногда и создает дополнительные проблемы типа увеличения платы за Интернет :-)