Иногда случается такая необходимость, как перенабрать из уже отпечатанного материала пару сотен страниц текста за вечер. Особенно часто такое занятие застает в период сессии у студентов. В таких случаях на помощь приходят системы OCR (оптического распознавания символов). И если в крупных компаниях для этого используются мощные и дорогие программы, то частным лицам в таком случае приходится пользоваться малоизвестными и простыми решениями.
Об одном из таких решений и пойдет далее…
Tesseract — брошенное дитя HP
Tesseract разрабатывалась в компании Hewlett-Packard в 80-х — 90-х годах прошлого века… А потом… про неё забыли. Она оказалась мало интересной за счет высокой конкуренции в отрасли и низкой стоимости конкурирующих решений. В августе 2006 года данный проект был куплен гигантом Google, который открыл исходный код данной системы и спонсировал продолжение разработки.
Что можно распознать с помощью данной программы?
Практически все символы UTF-8, включая русский и украинские языки распознаются с легкостью. Однако при распознавании текста используются словари, и если у вас текст имеет слова на различных языках это может вызвать небольшие проблемы.
Для получения изображений можно использовать любой сканер, например из имеющихся в магазине Технопортал автоакустика , или среднего качества цифровой фотоаппарат.
Какие проблемы или что нельзя распознать?
У программы трудности с испачканными, обшарпанными текстами. Текстами с вкраплением таблиц и изображений.
Если вам необходимо работать именно с подобными текстами, то желательно использовать более высокоразвитые продукты, например ABBYY FineReader.
Где взять и как установить?
Программу Tesseract можно взять на официальном сайте бесплатно и вполне легально. Но работать с ней не очень удобно, т. к. она имеет только интерфейс командной строки для работы.

Для более удобной работы вам потребуется установить еще графический интерфейс. Под операционную систему Windows я нашел только один — gImageReader
Планы на будущее
Завтра постараюсь написать инструкцию по установке и работе, следите за обновлением
Полезная программа! Мне недавно нужна была подобная… Спасибо!
Для неискушенных FineReader’ом функционал описанной программы вполне достаточен для повседневных задач. Тем более бесплатно.