Как отредактировать отсканированный документ в abbyy finereader. FineReader сканирование

Хотя авансы, выданные искусственному интеллекту (ИИ) за последние 50 лет, ни на йоту не приблизили «умные» машины к когнитивным возможностям человека, полностью отрицать успехи в данном направлении было бы несправедливо. Наиболее очевидный и яркий пример - шахматы (не говоря уже о более простых играх). Компьютер пока не может имитировать наше мышление, но он вполне способен компенсировать данный пробел большим объемом специализированной памяти и скоростью перебора. Владимир Крамник охарактеризовал игру победившей его в 2006 г. программы Deep Fritz как «нечеловеческую» в том смысле, что она зачастую противоречила устоявшимся (человеческим) правилам стратегии и тактики.

А чуть более года назад очередное детище IBM, в свое время положившей начало триумфальным шахматным победам компьютеров (знаменитый Deep Blue), под названием Watson совершило новый прорыв, с большим отрывом победив сразу двух чемпионов популярной американской викторины Jeopardy. Показательно, однако, что хотя Watson самостоятельно озвучивал ответы, вопросы ему все же передавались в текстовом виде. Это говорит о том, что успехи во многих сферах приложения ИИ - распознавании речи и образов, машинном переводе - достаточно скромны, хотя это и не мешает нам уже сегодня применять их на практике. Наибольшие же успехи, пожалуй, демонстрируют системы оптического распознавания символов (OCR, Optical Character Recognition), с которыми наверняка так или иначе знакомы почти все пользователи ПК. Тем более, что российские разработки в данной области занимают достойное место в мире - я имею в виду ABBYY FineReader.

Немного истории

Текущая версия ABBYY FineReader имеет номер 11, т. е. приложение прошло достаточно долгий путь развития, и даже история этого процесса представляет определенный интерес. Не претендуя на исчерпывающую летопись, приведу лишь основные вехи за последнее десятилетие, в течение которого я более-менее следил за FineReader:

Год Версия Главные особенности
2003 7.0 Прирост точности распознавания до 25%. Больше всего это отразилось на таблицах, особенно сложных, с окрашенными ячейками, скрытыми разделителями и пр.
2005 8.0 Дальнейшая оптимизация алгоритмов распознавания, в первую очередь направленная на работу не со сканами документов, а с цифровыми фотографиями. Для этого появились дополнительные функции подготовки оригиналов (устранение искажений, выравнивание строк и пр.).
2007 9.0 Появление технологии ADRT, которая учитывает логическую структуру всего обрабатываемого (многостраничного) документа и умеет выделять повторяющиеся элементы (колонтитулы), соединять «перетекающие» объекты (таблицы) и пр.
2009 10.0 Дальнейшее совершенствование ADRT и алгоритмов распознавания, повышение точности обработки оригиналов с низким разрешением до 30%.
2011 11.0 Основное внимание уделено скорости работы программы. «Второе пришествие» черно-белого режима, который на оригиналах хорошего качества дает дополнительное ускорение до 30%.

Естественно, за это же время в FineReader расширялась поддержка форматов документов, совершенствовались встроенные инструменты и интерфейс, улучшалось воссоздание структуры оригиналов и т. п. Однако выделенные моменты непосредственно связаны с технологиями OCR и неплохо демонстрируют скачкообразный процесс развития, характерный для сложных наукоемких систем, когда после очередного «прорыва» следует некоторый период «затишья», необходимый для совершенствования новых алгоритмов. Они-то и представляют главную ценность любой OCR-программы, и поэтому сколько-нибудь подробная информация о них крайне редко доходит до пользователей. Однако компания ABBYY любезно согласилась приоткрыть завесу тайны, и сегодня мы имеем возможность заглянуть в святая святых FineReader.

Базовые принципы

Итак, поскольку OCR относится к области ИИ, вполне логично, что разработчики стремятся хоть в какой-то степени имитировать деятельность нашего мозга. Конечно, устройство нашей зрительной системы невероятно сложно, но базовые «крупноблочные» принципы ее функционирования достаточно изучены, обычно их выделяют три:

  1. Целостность (integrity) - объект рассматривается как совокупность своих частей и (для зрительных образов) пространственных отношений между ними. В свою очередь и части получают толкования только в составе всего объекта. Этот принцип помогает строить и уточнять гипотезы, быстро отсекая маловероятные.
  2. Целенаправленность (purposefulness) - поскольку любая интерпретация данных преследует определенную цель, то и распознавание представляет собой процесс выдвижения гипотез об объекте и целенаправленной их проверки. Система, действующая в соответствии с этим принципом, будет не только экономнее расходовать вычислительные мощности, но и реже ошибаться.
  3. Адаптивность (adaptability) - система сохраняет накопленную в процессе работы информацию и использует ее повторно, т. е. самообучается. Этот принцип позволяет создавать и накапливать новые знания и избегать повторного решения одних и тех же задач.

FineReader - единственная в мире OCR-система, которая действует в соответствии с вышеописанными принципами на всех этапах обработки документа. Соответствующая технология носит название IPA - по первым буквам английских терминов. К примеру, согласно принципу целостности, фрагмент изображения будет интерпретироваться как символ, только если в нем присутствуют все структурные части подобных объектов, причем находящиеся в определенных взаимоотношениях. Это помогает заменить перебор большого числа эталонов (в поисках более-менее подходящего) целенаправленной проверкой разумного количества гипотез, причем опираясь на накопленные ранее сведения о возможных начертаниях символа в распознаваемом документе.

Однако принципы IPA применяются при анализе не только фрагментов, соответствующих (предположительно) отдельным символам, но и всего исходного изображения страницы. Большинство OCR-систем основываются на распознавании иерархической структуры документа, т. е. страница разбивается на основные структурные элементы, такие как таблицы, изображения, блоки текста, которые, в свою очередь, разделяются на другие характерные объекты - ячейки, абзацы - и так далее, вплоть до отдельных символов.

Такой анализ может проводиться двумя основными способами: сверху-вниз, т. е. от составных элементов к отдельным символам, или, наоборот, снизу-вверх. Чаще всего применяется один из них, но в ABBYY разработали специальный алгоритм MDA (multilevel document analysis, многоуровневый анализ документа), который сочетает оба. Вкратце он выглядит следующим образом: структура страницы анализируется методом сверху-вниз, а воссоздание электронного документа по окончании распознавания происходит снизу-вверх, однако на всех уровнях дополнительно действует механизм обратной связи. В результате резко снижается вероятность грубых ошибок, связанных с неверным распознаванием высокоуровневых объектов.

ADRT

Исторически OCR-системы развивались от распознавания отдельных символов. Эта задача и до сих пор является важнейшей и самой трудной, именно с ней связаны наиболее сложные алгоритмы. Однако вскоре стало понятно, что в ее решении может помочь более высокоуровневая информация (к примеру, о языке документа и правильности написания распознанных слов) - так появились контекстная и словарная проверки. Затем стремление сохранять форматирование и воссоздавать физическую структуру (т. е. взаимное расположение различных объектов) документа привело к необходимости подробного анализа целой страницы. Понятно, что это также заметно влияет на общее качество распознавания, поскольку помогает корректно обрабатывать многоколоночную верстку, таблицы и другие приемы «нелинейного» расположения текста.

Большинство современных OCR действуют именно на этих трех уровнях - символов, слов, страниц, - практикуя, как уже было сказано, подходы сверху-вниз или снизу-вверх. Однако ABBYY, в соответствии с принципами IPA, ввела в FineReader еще один уровень - всего многостраничного документа. Прежде всего это понадобилось для корректного воспроизведения логической структуры, которая в современных документах становится все сложнее. Но есть и дополнительные бонусы: повышение точности и ускорение обработки повторяющихся объектов, более корректная идентификация (а значит, и распознавание) «перетекающих» со страницы на страницу объектов.

Именно для этого и была разработана ADRT (Adaptive Document Recognition Technology) - технология анализа и синтеза документа на логическом уровне. В конечном итоге она помогает сделать результат работы FineReader максимально похожим на оригинал. Для этого анализируется изображение всего документа, а распознанные слова объединяются в группы (кластеры) в зависимости от начертания, окружения и местоположения на странице. Таким образом программа как бы видит «логику» разметки документа и в дальнейшем может унифицировать оформление результата.

Благодаря ADRT, FineReader, начиная с версии 9.0, научился обнаруживать, распознавать и воспроизводить следующие структурные части и элементы форматирования документа:

  • основной текст;
  • верхние и нижние колонтитулы;
  • номера страниц;
  • заголовки одного уровня;
  • оглавление;
  • текстовые вставки;
  • подписи к рисункам;
  • таблицы;
  • сноски;
  • зоны подписи/печати;
  • шрифты и стили.

Процесс распознавания

В соответствии с алгоритмом MDA, собственно распознавание начинается сверху-вниз, с уровня страницы. Понятно, что чем больше неверных решений будет сделано на ранних этапах этого процесса, тем больше будет на следующих. Именно поэтому точность распознавания так сильно зависит от качества оригиналов, но и алгоритмы их предварительной обработки могут иметь существенное значение. Так, по мере роста популярности цветных документов в FineReader появилась процедура адаптивной бинаризации (adaptive binarization, AB ). Если отсканировать сразу в черно-белом режиме документ, где присутствуют водяные знаки либо текст расположен на текстурной или цветной подложке, то на изображении неизменно появится «мусор», который затем будет довольно сложно отделить от «полезного» изображения (т. к. исходная информация о нем уже потеряна). Именно поэтому FineReader предпочитает работать с цветными или полутоновыми изображениями, самостоятельно преобразуя их в черно-белые (этот процесс и называется бинаризацией). Но и это не всё. Поскольку цвета текста и фона могут различаться в пределах страницы и даже отдельных строк, AB выделяет слова с более-менее одинаковыми характеристиками и подбирает для каждого оптимальные с точки зрения качества распознавания параметры бинаризации. Именно в этом и состоит адаптивность алгоритма, который, таким образом, является примером использования обратной связи в MDA. Понятно, что эффективность AB сильно зависит от оформления исходных документов - на тестовой базе ABBYY этот алгоритм обеспечил повышение точности распознавания на 14,5%.

Но наиболее интересное, конечно, начинается, когда процесс распознавания опускается на самые нижние уровни. Так называемая процедура линейного деления разбивает строки на слова, а слова на отдельные буквы; далее, в соответствии с принципом IPA, формирует набор гипотез (т. е. возможных вариантов того, что́ это за символ, на какие символы разбито слово и т. д.) и, снабдив каждую оценкой вероятности, передает на вход механизма распознавания символов. Последний состоит из ряда так называемых классификаторов , каждый из которых также формирует ряд гипотез, ранжированных по предполагаемой степени вероятности. Важнейшей характеристикой любого классификатора является среднее положение правильной гипотезы. Понятно, что чем выше она находится, тем меньше работы для последующих алгоритмов - к примеру, словарной проверки. Но для достаточно отлаженных классификаторов чаще всего оценивают такие характеристики, как точность распознавания по первым трем гипотезам или только по первой - т. е., грубо говоря, способность угадать верный ответ с трех или с одной попытки. ABBYY в своих системах применяет следующие типы классификаторов: растровый, признаковый, признаковый дифференциальный, контурный, структурный и структурный дифференциальный - которые сгруппированы на двух логических уровнях.

Принцип действия РК , или растрового классификатора, основан на попиксельном сравнении изображения символа с эталонами. Последние формируются в результате усреднения изображений из обучающей выборки и приводятся к некой стандартной форме; соответственно, для распознаваемого изображения также предварительно нормализуются размер, толщина элементов, наклон. Этот классификатор отличается простотой реализации, скоростью работы и устойчивостью к дефектам изображений, но обеспечивает сравнительно низкую точность и именно поэтому используется на первом этапе - для быстрого порождения списка гипотез.

Признаковый классификатор (ПК ), как и следует из его названия, основывается на наличии в изображении признаков того или иного символа. Если всего таких признаков N, то каждую гипотезу можно представить точкой в N-мерном пространстве; соответственно, точность гипотезы будет оцениваться расстоянием от нее до точки, соответствующей эталону (который также нарабатывается на обучающей выборке). Понятно, что типы и количество признаков в значительной степени определяют качество распознавания, поэтому обычно их достаточно много. Этот классификатор также сравнительно быстр и прост, но не слишком устойчив к различным дефектам изображения. Кроме того, ПК оперирует не исходным изображением, а некой моделью, абстракцией, т. е. не учитывает часть информации: скажем, сам факт наличия каких-то важных элементов ничего не говорит об их взаимном расположении. По этой причине ПК используется не вместо, а вместе с РК.

Контурный классификатор (КК ) представляет собой частный случай ПК и отличается тем, что анализирует контуры предполагаемого символа, выделенные из исходного изображения. В общем случае его точность ниже, чем у полновесного ПК.

Признаковый дифференциальный классификатор (ПДК ) также похож на ПК, однако используется исключительно для различения похожих друг на друга объектов, таких как «m» и «rn». Соответственно, он анализирует только те области, где скрываются отличия, а на вход ему подаются не только исходные изображения, но и гипотезы, сформированные на ранних стадиях распознавания. Принцип его работы, однако, несколько отличается от ПК. На этапе обучения в N-мерном пространстве формируются два «облака» (групп точек) возможных значений для каждого из двух вариантов, затем строится гиперплоскость, отделяющая «облака» друг от друга и примерно равноудаленная от них. Результат распознавания зависит от того, в какое полупространство попадает точка, соответствующая исходному изображению.

Сам по себе ПДК не выдвигает гипотез, а лишь уточняет имеющиеся (список которых в общем случае сортируется пузырьковым методом), так что прямая оценка его эффективности не проводится, а косвенно ее приравнивают к характеристикам всего первого уровня OCR-распознавания. Однако понятно, что она зависит от корректности подобранных признаков и представительности выборки эталонов, обеспечение чего является достаточно трудоемкой задачей.

Структурно-дифференциальный классификатор (СДК ) первоначально применялся для обработки рукописных текстов. Его задача состоит в различении таких похожих объектов, как «C» и «G». Таким образом, СДК основывается на признаках, характерных для каждой пары символов, процесс его обучения еще сложнее, чем у ПДК, а скорость работы ниже, чем у всех предыдущих классификаторов.

Структурный классификатор (СК ) является предметом гордости компании ABBYY, первоначально он был разработан для распознавания так называемого рукопечатного текста, т. е. когда человек пишет «печатными» буквами, но впоследствии был применен и для печатного. Он используется на завершающих этапах распознавания и вступает в действие достаточно редко, а именно, только в том случае, когда до него доходят как минимум две гипотезы с достаточно высокими вероятностями.

Качественные характеристики всех классификаторов собраны в следующую таблицу. Они, впрочем, позволяют лишь оценить эффективность алгоритмов друг относительно друга, т. к. не являются абсолютными, а получены на основе обработки конкретной тестовой выборки. Может создаться впечатление, что на последних этапах распознавания борьба идет буквально за доли процента, но на самом деле каждый классификатор вносит существенную лепту в повышение точности распознавания - так, к примеру, СК снижает количество ошибок на ощутимые 20%.

РК ПК КК ПДК* СДК** СК**
Точность по первым трем вариантам, % 99,29 99,81 99,30 99,87 99,88 -
Точность по первому варианту, % 97,57 99,13 95,10 99,26 99,69 99,73

* оценка всего первого уровня OCR-алгоритма ABBYY
** оценка для всего алгоритма после добавления соответствующего классификатора

Любопытно, однако, что, несмотря на довольно высокую точность, алгоритм собственно распознавания не принимает окончательного решения. В соответствии с принципом MDA, гипотезы выдвигаются на каждом логическом уровне, и число их может расти в геометрической прогрессии. Соответственно, последовательная проверка всех гипотез вряд ли окажется эффективной, и потому в OCR-системах ABBYY применяется метод структурирования гипотез, т. е. отнесения их к тем или иным моделям. Последних существует пара десятков, вот только несколько их типов: словарное слово, несловарное слово, арабские цифры, римские цифры, URL, регулярное выражение - а в каждый может входить множество конкретных моделей (к примеру, слово на одном из известных языков, латиницей, кириллицей и т. д.).

Все финальные действия выполняются уже именно с гипотезами, построенными по моделям. К примеру, контекстная проверка определит язык документа и сразу же существенно понизит вероятность моделей с использованием неправильных алфавитов, а словарная компенсирует погрешности при неуверенном распознавании некоторых символов: так, слово «turn» присутствует в словаре английского языка - в отличие от «tum» (во всяком случае, оно отсутствует среди популярных). Хотя приоритет словаря выше, чем у любого классификатора, он не обязательно является последней инстанцией, и в общем случае не останавливает дальнейшие проверки: во-первых, как говорилось выше, имеется модель несловарного слова, во-вторых, специальная организация словарей позволяет с высокой долей вероятности предположить, может ли какое-то неизвестное слово относиться к тому или иному языку. Тем не менее, словарная проверка (и полнота словарей) оказывает существенное влияние на результат распознавания, и в тестах самой ABBYY сокращает количество ошибок практически вдвое.

Не только OCR

Печатные документы - далеко не единственные, представляющие интерес с точки зрения их оцифровки и автоматической обработки. Довольно часто приходится работать с формами, т. е. документами с предопределенными и фиксированными полями, которые заполняются вручную, но сравнительно аккуратно (так называемыми рукопечатными символами) - примером могут служить различные анкеты. Технология их обработки имеет отдельное название - ICR (intelligent character recognition) - и достаточно существенно отличается от OCR. Так, поскольку в данном случае задача состоит не в воссоздании всего документа, а в извлечении из него конкретных данных, то она распадается на две основные подзадачи: нахождение нужных полей и собственно распознавание их содержимого.

Это достаточно специфическая область, и ABBYY предлагает для нее совершенно отдельный программный продукт ABBYY FlexiCapture. Он предназначен для создания автоматизированных и полуавтоматизированных систем, предполагает настройку на конкретные типы документов, для которых создаются специальные шаблоны, умеет интеллектуально находить на страницах различные поля и верифицировать данные в них и т. д. Однако в самой основе лежат алгоритмы распознавания символов, аналогичные тем, что применяются в FineReader, да и общая схема весьма похожа:

Впрочем, важное отличие все же имеется: структурный классификатор является обязательным участником процесса - это связано со спецификой рукопечатных символов. Кроме того, ICR предполагает большое число специфических дополнительных проверок: например, не является ли символ зачеркнутым, или действительно ли распознанные символы формируют дату.

Итак, на компьютере у нас установлен FineReader. Включаем сканер и оцифровываем какой-нибудь многостраничный документ. Назовем его, условно, "Договор".

Укладываем на стекло сканера первую страницу документа, закрываем крышку. Запускаем программу FineReader. Кликаем кнопку "Сканировать", или клавишами давим сочетание "Ctrl+K". Открывается окно "Сканирование ABBYY FineReader". При оцифровке обычной текстовой страницы набраной шрифтом в 11-12 пунктов оставляем настройки в окне по умолчанию и нажимаем кнопку "Просмотр".

Сканер работает и через несколько секунд видим нашу страницу в окошке просмотра. Здесь мы можем изменить размер скана, если надо. И потом нажимаем кнопку "Сканировать".

FineReader начинает процесс распознавания текста и в течение минуты изображение страницы открывается в окне программы. Правая часть окна делится теперь на три раздела. В левом разделе "Изображение" мы можем редактировать изображение. Подробнее о редактировании изображения можно почитать в уроке: Сканирование книги . В правом разделе "Текст" можно сразу вносить изменения в текст - редактировать содержание страницы еще до его сохранения. Это очень удобно, когда нужно, например, быстро изменить в документе даты, реквизиты, фамилии.

В левой части окна "Страницы" появляется пиктограмма распознанной страницы:

Если редактировать ничего не надо, заменяем первую страницу на стекле сканера второй страницей и повторяем технологию. Один раз настроив размеры скана в окне "Сканирование ABBYY FineReader" в режиме "Просмотр" для первой страницы, теперь сразу кликаем кнопку "Сканировать". Установленные для первой страницы настройки сохраняются, и последующие страницы сканируем без предварительного просмотра. Так сканируем все страницы нашего документа.

Закончили, и теперь, поочередно кликая по пиктограммам открываем страницы, проверяя правильную их последовательность.

После этого, в левой части окна "Страницы" выделяем все пиктограммы кнопкой: "Правка – Выделить все" или клавиатурным сочетанием: "Ctrl+A". Затем, в выпадающем списке рядом с кнопкой "Сохранить" выбираем команду: "Сохранить как документ PDF":


Хлопаем теперь по самой кнопке и сохраняем документ с именем "Договор.pdf" в папку «Договор»:


В итоге получаем многостраничный текстовый документ pdf-формата - электронную версию нашего документа с условным названием "Договор".

Так, FineReader’ом оцифровываем текстовые документы.

Изменив режим сканирования на "цветной" в окне "Сканирование ABBYY FineReader" также легко оцифруем цветные картинки и фотографии.

А, задав в контекстном меню, например, команду: "Сохранить как документ Microsoft Word 2007" преобразуем наш проект в единый многостраничный редактируемый вордовский документ.

Вобщем, программа легко усвояемая, интуитивно понятная и везде всплывающие подсказки.

В этот раз расскажу как превращать бумажные документы в электронный вид формата PDF, а также, как бумажный документ перекинуть в компьютер с целью изменить текст. Итак начнем.
У меня на руках бумажный документ.

СКАНИРОВАНИЕ в PDF

Задача: перекинуть в компьютер (перевести в электронный вид) этот документ. Притом нужно сделать именно в таком виде чтобы нельзя было его в будущем изменить (грубо говоря надо сделать фото документа). Потом этот электронный документ нужно переслать по почте на электронный адрес. Притом клиент просит именно в формате pdf.

По этапам:
1) пропускаю документ через сканер
2) сохраняю полученный отпечаток в формате pdf на свой компьютер
3) пересылаю полученный файл по почте
В своей работе я использую для решения такой задачи 2 программы:
Foxit Phantom или ABBYY FineReader. Для понятности прикладываю скриншоты:
В Foxit Phantom при включенном сканере необходимо в главном меню выбрать ФАЙЛ-СОЗДАТЬ PDF-СО СКАНЕРА…
Произойдет сканирование и появится предложение сохранить файл. Выбираем место, пишем название файла и сохраняем.

В ABBYY FineReader в панели инструментов есть огромные кнопки. Одна из них называется СКАНИРОВАТЬ в PDF. Её и используем.

Если же надо отсканировать многостраничный документ то, по этапам:
1) Нажимаем кнопку под номером 1 СКАНИРОВАНИЕ

Получаем отсканированный документ

Также сканируем ещё одну страницу (нажимаем ещё раз кнопку под номером 1 СКАНИРОВАНИЕ).
2) Сохраняем в PDF



В итоге получаем готовый многостраничный документ в виде файла в формате PDF.

Теперь данный файл можно отправлять по электронной почте.

РАСПОЗНАВАНИЕ ТЕКСТА

Задача: перевести бумажный документ в электронный вид (в компьютер)

По этапам:
1) Сканирование (кнопка 1 СКАНИРОВАНИЕ)

2) Распознавание (кнопка 2 РАСПОЗНАТЬ ВСЕ)

Распознавание нужно понимать как процесс перевода фотографии (картинки) в текст (буквы, цифры, знаки). Если Вы сфотографировали текстовую страницу, то после распознавания 99% текста с бумаги превратиться в текст электронный. Электронный текст уже можно на компьютере менять (редактировать) так, как Вам захочется.

3) Сохранение в текстовый редактор (кнопка 4 Сохранить)
Советую выбирать ПЕРЕДАТЬ ВСЕ СТРАНИЦЫ В-MICROSOFT WORD

Получаем

Хотелось бы указать на важные моменты при процедуре РАСПОЗНАВАНИЯ. Есть нюансы при работе.
Сразу после распознавания советую поглядеть на результат. Особенно на блоки, которые создает программа FineReader.

Это области выделенные в прямоугольные рамки. Рамки эти разного цвета. Если красного цвета-то этот блок распознался как КАРТИНКА. Если черного цвета - то ТЕКСТ. Блоки бывают разного типа. Тип блока можно узнать щелкнув на блоке ПРАВОЙ клавишей мыши и выбрав ИЗМЕНИТЬ ТИП БЛОКА.

Маленькая хитрость: можно выделить произвольную область и пометить любым типом блок. Например выделим ту часть текста, которая плохо распознается, при помощи левой клавиши мыши (нажимает, удерживаем и тянем, рамка меняет размер).

В итоге документ в Word-е будет иметь блок текста и блок картинка. Блок картинка будет иметь абсолютно неизменный вид. Данный способ я использую при сохранении печатей, нестандартных шрифтов, картинок, фотографий.

ЗЫ: Знания и умения работать с PDF, сканировать и распознавать документы очень часто выручают в офисной работе. Знание - экономит Ваше время!

«ABBYY® FineReader 12 Краткое руководство пользователя Данный документ содержит основные сведения по работе ABBYY FineReader. Полное...»

ABBYY® FineReader 12

Краткое руководство пользователя

Данный документ содержит основные сведения по работе ABBYY FineReader. Полное руководство по

работе с приложениями ABBYY FineReader, Screenshot Reader и Hot Folder доступно на сайте компании

ABBYY. Если у вас нет постоянного соединения с интернетом, вы можете скачать руководство

пользователя в формате PDF.

Что такое ABBYY FineReader

Установка и запуск ABBYY FineReader

Системные требования

Установка программы

Запуск ABBYY FineReader

Работа с ABBYY FineReader

Встроенные задачи

Поэтапное конвертирование документа

Анализ структуры документа и редактирование областей

Активация и регистрация программы

Активация ABBYY FineReader

Регистрация ABBYY FineReader

Безопасность данных

Что такое ABBYY FineReader ABBYY FineReader - это система оптического распознавания текстов (OCR - Optical Character Recognition). Она предназначена для конвертирования в редактируемые форматы отсканированных документов, PDF–документов и файлов изображений, включая цифровые фотографии.

Преимущества программы ABBYY FineReader 12 Скорость и высокая точность распознавания Поддержка большинства мировых языков Проверка результатов распознавания Простой и понятный интерфейс Распознавание сфотографированных документов Сохранение документов в различных форматах, а также отправка в интернет-хранилища Бесплатная техническая поддержка для зарегистрированных пользователей Установка и запуск ABBYY FineReader Системные требования 1. 32-разрядный (x86) или 64-разрядный (x64) процессор с тактовой частотой 1 гигагерц (ГГц) или выше.



2. Операционная система Microsoft® Windows® 8, Microsoft® Windows® 7, Microsoft Windows Vista, Microsoft Windows XP, Microsoft Windows Server 2012/2012 R2, Microsoft Windows Server 2008/2008 R2, Microsoft Windows Server 2003.

Для работы с локализованным интерфейсом операционная система должна обеспечивать необходимую языковую поддержку.

3. Оперативная память - 1024 Мб.

При работе в многоядерных системах требуется дополнительно 512 Мб оперативной памяти для каждого дополнительного ядра.

4. Свободное место на диске: 850 Мб для установки всех компонентов программы, 700 Мб для работы программы.

5. Видеоплата и монитор с разрешением не менее 1024768 точек.

6. Клавиатура, мышь или другое указательное устройство.

Установка программы

Чтобы установить ABBYY FineReader 12:

1. Запустите файл Setup.exe с установочного компакт-диска или из папки дистрибутива программы.

Вы можете установить ABBYY FineReader 12 Corporate в локальной сети. Руководство для системного администратора в формате PDF можете скачать с сайта компании ABBYY.

Запуск ABBYY FineReader

Для того чтобы запустить программу ABBYY FineReader 12:

Краткое руководство пользователя ABBYY FineReader 12 Выберите пункт ABBYY FineReader 12 (ABBYY FineReader 12 Corporate) в меню ПускПрограммы, или В приложениях Microsoft Office нажмите кнопку запуска ABBYY FineReader, расположенную на панели FineReader 12, или В Windows Explorer выделите файл с изображением и в его контекстном меню выберите Открыть с помощью ABBYY FineReader или пункт конвертирования в нужный формат.

Работа с ABBYY FineReader

Процесс обработки документов с помощью программы ABBYY FineReader состоит из четырех этапов:

Получение изображения;

Распознавание документа;

Проверка и редактирование полученного текста;

Сохранение результатов распознавания.

Зачастую этот процесс состоит из одной и той же последовательности действий, например, сканирование, распознавание и сохранение распознанного текста в определенном формате. Для выполнения наиболее распространенных задач в программе предусмотрены встроенные задачи, позволяющие получить распознанный текст одним нажатием кнопки. Для распознавания документов, имеющих сложную структуру, вы можете настраивать и запускать каждый этап обработки самостоятельно.

Встроенные задачи Запуск встроенных задач осуществляется из окна Задачи, которое по умолчанию открывается при старте приложения. Если окно закрыто, нажмите на главной панели инструментов программы кнопку Задача.

Краткое руководство пользователя ABBYY FineReader 12

Чтобы конвертировать документ, используя встроенные задачи:

1. В окне Задача выберите необходимую закладку с задачами:

Основные - содержит наиболее часто используемые встроенные задачи программы ABBYY FineReader;

Microsoft Word - задачи конвертирования в документ Microsoft Word;

Microsoft Excel - задачи создания электронных таблиц Microsoft Excel;

–  –  –

Мои задачи - вы можете создать свои, пользовательские задачи, состоящие из шагов, необходимых именно для вас (только для версии ABBYY FineReader Corporate).

2. В списке Язык документа укажите языки распознавания.

3. В списке Цветовой режим выберите цветовой режим:

Цветной - цветовое оформление документа не изменится;

Черно-белый - страницы документа будут черно-белыми, что позволит уменьшить размер документа FineReader. По сравнению с Цветным режимом, в этом режиме требуется меньше времени на обработку документа.

Краткое руководство пользователя ABBYY FineReader 12 Внимание! После выбора черно-белого режима восстановить цветовое оформление документа не удастся. Чтобы получить цветной документ, откройте файл, содержащий цветные изображения страниц, или отсканируйте бумажный документ в цветном режиме.

4. При необходимости задайте дополнительные параметры для задач конвертирования в документ Microsoft Word, в документ Microsoft Excel и документ Adobe PDF в правой части окна.

5. Нажмите кнопку нужной вам задачи.

Задачи ABBYY FineReader выполняются с учетом настроек, заданных в диалоге Настройки (меню СервисНастройки…).

После запуска на экране появляется панель выполнения задачи, содержащая индикатор выполнения задачи, список шагов, а также подсказки и предупреждения.

В результате выполнения задачи будет создан документ нужного формата, а изображения будут добавлены в документ FineReader. При необходимости вы можете отредактировать выделенные на изображениях области, проверить распознанный текст и сохранить результаты распознавания в другом формате.

Поэтапное конвертирование документа Для самостоятельной настройки и запуска каждого этапа обработки документов используйте главное окно программы ABBYY FineReader.

Краткое руководство пользователя ABBYY FineReader 12

1. На главной панели инструментов в выпадающем списке Язык документа укажите языки распознавания.

2. Отсканируйте или откройте изображения.

По умолчанию анализ и распознавание документа запустятся автоматически. Вы можете изменить эти настройки на закладке Сканировать/Открыть диалога Настройки (меню СервисНастройки…).

3. В окне Изображение проверьте выделенные области и при необходимости отредактируйте их.

4. Если вы изменили области, на главной панели инструментов нажмите кнопку Распознать.

5. В окне Текст проверьте и при необходимости отредактируйте результаты распознавания.

Анализ структуры документа и редактирование областей Качество, полученного в результате конвертирования документа, зависит от многих факторов: от исходного изображения, настроек распознавания, параметров сохранения. Одним из важнейших шагов является анализ логической структуры документа, т.е. выделение областей с текстом, картинками, таблицами и штрих-кодами. Области выделяются для того, чтобы указать системе, каким образом следует распознавать те или иные части изображения и в каком порядке. Так воспроизводится исходное оформление документа.

Краткое руководство пользователя ABBYY FineReader 12 По умолчанию анализ документа в ABBYY FineReader выполняется автоматически.

Однако в сложных документах некоторые области могут быть выделены неправильно. Часто оказывается удобнее исправить только их, а не выделять все области заново Инструменты для ручной разметки и редактирования областей расположены на панели окна Изображение, а также на всплывающих панелях инструментов для областей Текст, Картинка, Фоновая картинка и Таблица. Ввсплывающая панель инструментов появляется у активной области. Чтобы выделить область щелкните по ней левой кнопкой мыши.

С помощью инструментов для ручной разметки вы можете:

Добавить или удалить область

–  –  –

Передвинуть границы области или саму область Добавить/удалить прямоугольную часть области Перенумеровать области После того, как все операции по редактированию областей будут завершены, запустите распознавание еще раз.

Подробнее о том, как работать с инструментами для ручной разметки, а так же о нестандартных ситуациях, решение которых может потребовать дополнительных настроек, вы можете прочитать в полной справке на сайте компании ABBYY.

Активация и регистрация программы Активация ABBYY FineReader Для использования ABBYY FineReader 12 в полнофункциональном режиме может потребоваться активация продукта. Активация полностью безопасна и анонимна.

Самый простой и быстрый способ - активировать программу через интернет. Вы также можете активировать программу по электронной почте или телефону/факсу. Подробную информацию об активации вы найдете на сайте компании ABBYY.

Регистрация ABBYY FineReader Компания ABBYY предлагает вам стать зарегистрированным пользователем программы ABBYY

FineReader 12. Регистрируясь, вы получаете ряд преимуществ:

Бесплатная техническая поддержка;

Возможность использовать приложение ABBYY Screenshot Reader, предназначенное для распознавания текста со снимков областей экрана (скриншотов);

Восстановление серийного номера в случае его утери;

Автоматическое обновление продукта;

Возможность получать информацию о специальных предложениях на продукты компании ABBYY.

Зарегистрировать вашу копию программы вы можете одним из следующих способов:

Заполните регистрационную карточку в процессе активации программы. Если вы не зарегистрировали программу в процессе активации, вы можете сделать это позднее, в любое удобное для вас время.

Краткое руководство пользователя ABBYY FineReader 12 В меню Справка выберите пункт Зарегистрироваться... и заполните регистрационную карточку.

Зарегистрируйтесь на сайте компании ABBYY.

Безопасность данных В процессе регистрации программы вы соглашаетесь на добровольную передачу компании ABBYY своих персональных данных. Также вы выражаете свое согласие на сбор, обработку и использование своих персональных данных компанией ABBYY на условиях обеспечения конфиденциальности и в соответствии с применимым правом согласно Лицензионному договору. Предоставленные Вами персональные данные будут использованы только в рамках группы компаний ABBYY и не будут предоставлены третьим лицам, за исключением случаев, предусмотренных применимым правом согласно Лицензионному договору или самим Лицензионным договором.

Компания ABBYY имеет право присылать вам по электронной почте письма, содержащие новости о продуктах, ценовых изменениях, специальных предложениях, а также сообщать другую информацию о продуктах или компании только в том случае, если вы подтвердили свое согласие на получение информации от ABBYY, отметив соответствующую опцию во время регистрации. Вы можете удалить свой адрес из списка подписчиков в любое время, обратившись в компанию ABBYY.

Краткое руководство пользователя ABBYY FineReader 12

Информация, содержащаяся в этом документе, может быть изменена без предварительного уведомления, и компания ABBYY не берет на себя на этот счет никаких обязательств.

Программное обеспечение, описываемое в этом документе, поставляется в соответствии с Лицензионным договором. Это программное обеспечение может быть использовано или скопировано лишь в строгом соответствии с условиями этого договора. Копирование этого программного обеспечения на какой-либо носитель информации, если на это нет специального разрешения в Лицензионном договоре или в соглашении о нераспространении, является нарушением Закона Российской Федерации "О правовой охране программ для ЭВМ и баз данных" и норм международного права.

Никакая часть настоящего Руководства ни в каких целях не может быть воспроизведена или передана в какой бы то ни было форме и какими бы, то ни было средствами, будь то электронные или механические, включая фотокопирование и запись на магнитные носители, если на то нет письменного разрешения компании ABBYY.

© ООО “Аби Продакшн”, 2013. Все права защищены.

ABBYY, ABBYY FineReader, ADRT являются зарегистрированными товарными знаками или товарными знаками компании ABBYY Software Ltd.

© 1984-2008 Adobe Systems Incorporated и их лицензиары. Все права защищены.

Охраняется патентами США: 5,929,866; 5,943,063; 6,289,364; 6,563,502; 6,185,684; 6,205,549; 6,639,593;

7,213,269; 7,246,748; 7,272,628; 7,278,168; 7,343,551; 7,395,503; 7,389,200; 7,406,599; 6,754,382; Заявки на патенты рассматриваются.

Право на использование Adobe® PDF Library предоставлено компанией Adobe Systems Incorporated.

Adobe, Acrobat®, логотип Adobe, логотип Acrobat, логотип Adobe PDF и Adobe PDF Library являются зарегистрированными товарными знаками или товарными знаками компании Adobe Systems Incorporated в Соединенных Штатах Америки и/или других странах.

Данная программа содержит компоненты, принадлежащие © 2008 Celartem, Inc. Все права защищены.

Данная программа содержит компоненты, принадлежащие © 2011 Caminova, Inc. Все права защищены.

На основе AT&T Labs Technology.

DjVu® охраняется патентами США No. 6.058.214. Заявки на патенты в других странах рассматриваются.

Данная программа содержит компоненты, принадлежащие © 2013 University of New South Wales. Все права защищены.

© 2002-2008 Intel Corporation.

© 2010 Microsoft Corporation. Все права защищены.

Microsoft, Outlook, Excel, PowerPoint, Windows Vista, Windows являются зарегистрированными товарными знаками или товарными знаками компании Microsoft Corporation в Соединенных Штатах Америки и/или других странах.

© 1991-2013 Unicode, Inc. Все права защищены.

© 2010, Oracle и/или аффилированные ему лица. Все права защищены.

OpenOffice.org, логотип OpenOffice.org являются товарными знаками, или зарегистрированными товарными знаками Oracle и/или аффилированных ему лиц.

JasPer License Версия 2.0:

© 2001-2006 Michael David Adams © 1999-2000 Image Power, Inc.

© 1999-2000 The University of British Columbia EPUB® является зарегистрированным товарным знаком IDPF (International Digital Publishing Forum Данная программа содержит компоненты, принадлежащие © 2009 The FreeType Project (www.freetype.org). Все права защищены.

Продукт включает программное обеспечение, разработанное в рамках проекта OpenSSL для использования в OpenSSL Toolkit. (http://www.openssl.org/). Продукт содержит криптографическое программное обеспечение, написанное Эриком Янгом ([email protected]).

© 1998-2011 The OpenSSL Project. Все права защищены.

© 1995-1998 Эрик Янг ([email protected]) Все права защищены.

Этот продукт включает программное обеспечение разработанное Тимом Хадсоном ([email protected]).

Остальные товарные знаки являются товарными знаками или зарегистрированными товарными

Похожие работы:

«01.02.2016 ШЕМОТ ИМЕНА Исход 1:1–6:1/Исайя 27:6-28:13; 29:22,23/Марка 1,2 Исход 1:1 Вот (ныне) имена сынов Израилевых, которые вошли в Египет, вошли каждый с домом своим с Иаковом. Исход 1:1 И вот имена сынов Израилевых, которые вошли в Египет с Иаковом, вошли каждый с домом своим. Здесь прямая...»

    Для того чтобы воспользоватся программой ABBYY FineReader которая предназначена для распознавания текста с нередактируемых и графических форматов. необходимо для начала скачать ее и установить на компьютер, а после посмотреть ролик представленный ниже здесь все подробно рассказано о данной программе.

    Данная программа, предназначена для сканирования текста и произведения, его распознавания.

    Использована она конечно же может быть, а для осуществления этого пользования, можно не выходя из самой програмке Finereader, в раках которой вы работаете, распознать текст файла и в дальнейшем трансформировать его из скано-копии документа, в классический формата, программы Word. Дальше она получится что будет в вашем пользовании.

    Finereader - это программа для сканирования и распознавания текста с экспортом информации в популярные офисные пакеты. Принцип работы с ним в двух словах можно описать так: берем бумажный лист с напечатанным текстом, сканируем его сканером, получаем некий графический файл растрового формата. Потом не выходя из программы Finereader распознаем текст файла и следующим шагом делаем из скано-копии документ формата Word. Перед этим распознанный текст можно просмотреть и отредактировать. Полученный word-овский документ можно уже дальше дополнять и редактировать.

    Программа Abbyyfinereader бесспорно является лидером среди подобных программ.

    Она обладает очень широкими возможностями по распознаванию текста с нередактируемых и графических форматов.

    Программа сможет распознать текст с таких основных форматов как (нередактируемых pdf,цифровые форматы файлов jpeg, jpg, Djvu, gif, png и т.д.).

    Также программа ABBYY FineReader неплохо работает практически со всеми моделями сканеров.

    Основными функциями программы являются:

    Сканирование документов в форматы: Microsoft Word, Microsoft Excel, Pdf, сканирование и сохранение изображений, PDF или изображение в Microsoft Word, конвертировать фото в Microsoft Word.

    Рабочая область программы ABBYY Finereader:

    Для добавления новой задачи, необходимо нажать на кнопку **новое задание **, которая находится в левой верхней части, рабочей области программы.

    Откроется окно новое задание

    В открывшемся окне необходимо выбрать ту задачу которую нужно выполнить.

    Допустим у нас есть фотография документа который мы хотим конвертирывать в формат документа Microsoft Word. Для этого в окне новое задание находим активную надпись Конвертировать фото в Microsoft Word и нажимаем на эту надпись. Откроется окно проводника программы с предворительным просмотром :

    В открывшемся окне выбираем фото текстового файла которое необходимо распознать и конвертировать в нужный вам формат.

    Откроется окно со шкалой процесса распознования :

    После того как программа обработает фото и попытается распознать текст.

    Вы увидите следующее :

    Здесь вы сможете выбрать область вашего фото для распознования текста.

    После выбора области нажмите кнопку распознать которая находится в верхнем меню программы. Программа приступит к конвертации выбранного фото в текст. После обработки изображения нажмите на стрелку рядом скнопкой сохранить и выберите нужный формат для создания текстового документа:

    Мощная и функциональная программа ABBYY FineReader , предназначена для качественного сканирования и точного распознавания (это зависит от разрешения, выставленного при сканировании) различных бумажных носителей информации с печатным текстом (книг, журналов, газет и т.п.), а также изображений цифрового формата.

    Программа поддерживает различные языки распознавания, умеет сохранять в: Microsoft Word, PDF, форматы изображений и другие форматы. Так как программа имеет интуитивно-понятный интерфейс, работать с ней удобно.

    Итак, первым делом нужно сначала выставить настройки и отсканировать документ, получим изображение, текст которого следует программе распознать . После распознавания можно подкорректировать текст (если есть какие-либо неточности) и сохранить его в желаемый формат.