Краткий обзор Tesseract — бесплатной программы для распознавания текста со сканера

Иногда случается такая необходимость, как перенабрать из уже отпечатанного материала пару сотен страниц текста за вечер. Особенно часто такое занятие застает в период сессии у студентов. В таких случаях на помощь приходят системы OCR (оптического распознавания символов). И если в крупных компаниях для этого используются мощные и дорогие программы, то частным лицам в таком случае приходится пользоваться малоизвестными и простыми решениями.

Об одном из таких решений и пойдет далее…

Tesseract — брошенное дитя HP

Tesseract разрабатывалась в компании Hewlett-Packard в 80-х — 90-х годах прошлого века… А потом… про неё забыли. Она оказалась мало интересной за счет высокой конкуренции в отрасли и низкой стоимости конкурирующих решений. В августе 2006 года данный проект был куплен гигантом Google, который открыл исходный код данной системы и спонсировал продолжение разработки.

Что можно распознать с помощью данной программы?

Практически все символы UTF-8, включая русский и украинские языки распознаются с легкостью. Однако при распознавании текста используются словари, и если у вас текст имеет слова на различных языках это может вызвать небольшие проблемы.

Для получения изображений можно использовать любой сканер, например из имеющихся в магазине Технопортал автоакустика , или среднего качества цифровой фотоаппарат.

Какие проблемы или что нельзя распознать?

У программы трудности с испачканными, обшарпанными текстами. Текстами с вкраплением таблиц и изображений.

Если вам необходимо работать именно с подобными текстами, то желательно использовать более высокоразвитые продукты, например ABBYY FineReader.
Где взять и как установить?

Программу Tesseract можно взять на официальном сайте бесплатно и вполне легально. Но работать с ней не очень удобно, т. к. она имеет только интерфейс командной строки для работы.

Скриншот работы программы Tesseract+gImageReader

Скриншот работы программы Tesseract+gImageReader

Для более удобной работы вам потребуется установить еще графический интерфейс. Под операционную систему Windows я нашел только один — gImageReader

 

Планы на будущее

Завтра постараюсь написать инструкцию по установке и работе, следите за обновлением

Запись опубликована в рубрике Софт с метками , , , . Добавьте в закладки постоянную ссылку.

2 комментария: Краткий обзор Tesseract — бесплатной программы для распознавания текста со сканера

  1. Олег говорит:

    Полезная программа! Мне недавно нужна была подобная… Спасибо!

  2. Реаниматор говорит:

    Для неискушенных FineReader’ом функционал описанной программы вполне достаточен для повседневных задач. Тем более бесплатно.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *