640Кб должно быть достаточно для каждого или делаем меленькими отсканенные методички

Цитату в заголовке приписываю Билл Гейтсу, он или не он ее произнес — не важно, речь пойдет не о том. Частенько нам приходится сканировать документы, книги, а нам студентам методички (все дальнейшее описание будет вестись на основе моего опыта, полученного на сканирование методичек). Хорошо отсканенную методичку, иногда, полезно при себе иметь, если и есть бумажная версия (методичку можно забыть, не взять — зачем тащить из-за методички пакет/сумку если только методичка сегодня будет и нужна). Хорошо отсканенная методичка это не та, которая будет черт знает сколько весить, а та которой будет удобно пользоваться.

И так мы имеет обычный ПК с Debian Lenny на борту, сканер canon lide 25 ну и набор ПО (gscan2pdf, scantailor, Djvu Solo 3.1 в wine ), ну и собственно методичку по эконометрике.

Сканер настроен поэтому приступим сразу к сканированию. Запускаем программу gscan2pdf и сканируем методичку в разворот. Первые страницы в режиме «оттенки серого», т.к. обложка напечатана на цветной бумаге, остальные в «штриховая графика» с разрешением 300 dpi. (разрешение должно быть одним на весь документ или потом замучаетесь!) Закончив сканирование рекомендую развернуть страницы в альбомную ориентацию и сохранить результат в tiff в отдельную папку. Получился файл размером 22 Мб — многовато для методички, да и читать такое трудновато

_config.yml

Надо обработать! Конечно можно FineReader-ом (лезть под винду) или вручную. Но была найдена замечательная программа scantailor . Открываем, подгружаем наш файл tiff. Можно исправить ориентацию (но мы это уже сделали) поэтому начинаем разрезку. Запускаем ее в автоматическом режиме (не правильное исправим потом).

_config.yml

Бегло просматриваем и исправляем вручную, где программа накосячила. Следующий пунк компенсация наклона — нужен в основном для книг или для криворуких 🙂 Нам не надо — пропускаем.

Следующий пункт — полезная область. Из названия ясно, что это выделение тех областей документа, в которых содержится информация. Нам не обязательно лицезреть текстуры бумаги, как отсканировались скрепки и тому подобное. Запускаем в автоматическом режиме, потом исправляем. После исправления косяков, а их было мало, переходим к следующему этапу. В «Макете страниц» нам надо задать макет страниц — логично 🙂 Определяем поля, выравниваем страницы по размеру, естественно в автоматическом режиме. И мы в финале!

На последнем этапе «Вывод» задаем dpi у нас 300. Режим -Черно-белый, удалять пятна оставим по дефолту. И запускам автоматический режим 🙂 Это самая ресурсоёмкая операция — большая нагрузка на процессор, так что запускаем и идем пить чай (хотя для методички хватило времени что б только поставить чайник).

В указанной для выхода получаем набор tiff пронумерованных, очищенных. Получили 39 tiff общим объемом 2,9 мб — чувствуете разницу? Отдельные страницы это хорошо, но нам нужно это все собрать. Основных вариантов 2 — pdf или djvu. Т.к. я за правильное использование форматов, то выбираем djvu. В интернете куча скриптом и рецептов, как собрать это все в 1 документ, но не один мне не понравился (найдете что-то удобное и гибкое для linux флаг вам в руки). Поэтому я установи Djvu Solo 3.1 в wine. Добавляем все нужные нам изображения (в начале или в конце может быть пустое изображения от несуществующей половинки обложки).

И завершающий этап — жмем File — Encode As Djvu выбираем Bundled и задаем куда мы хотим сохранить и под каким названием. После подтверждения появится диалог:

_config.yml

Указываем разрешение (ну больше 300 явно не стоит, всеравно мы сканили с 300), можно указать 200. Указываем Bitonal (2 тоновый или русским языком говоря черно-белый) и жмем заветную кнопку OK. В итоге получаем файл djvu, у меня размером в 392,2 КБ. Кстати, если мы бы сжали в djvu тот первый отсканированный вариант, то объем получился бы от 1 до 2 мб, что то же не плохо.

У нас теперь методичка, которую приятно просматривать, маленького размера в читаемом виде. Это не распознанный текст, но всеравно очень даже. p.s. я буду рад, если моя заметка поможет сделать хоть на 1 книгу меньше, которая криво отсканена в pdf и занимающую 90 мб

Written on December 14, 2009