четверг, 24 мая 2012 г.

OCR-сервисы онлайн. Hard`n`Soft - Интернет

OCR-сервисы онлайн. Hard`n`Soft - Интернет:
Автор: Роман Поликарпов
(Публикуется в сокращении)

Для того чтобы отредактировать информацию, полученную со сканера, необходимо применить технологию, которая получила название OCR, что в расшифровке и в переводе на русский означает «оптическое распознавание символов». Мы задались вопросом, а существуют ли надежные и качественные OCR-системы, доступные онлайн?



«Документы Google»
Первым на старт вышел Google со своими документами (docs.google.com). Не все знают, что помимо совместной работы над материалом сервис позволяет распознать документ, загруженный в виде изображения или PDF. Никаких особенных действий предпринимать не нужно, все получается автоматически. Однако размер файла ограничен 2 Мбайт, так что полноценный скан страницы книги отправить не удалось. Уменьшив размер, мы смогли «вытащить» редактируемый текст.

«Документы Google» легко распознали разворот страницы и справились с текстом. Качество работы можно оценить не выше, чем 4 балла из 5, потому что ни одного абзаца без ошибки не случилось. Однако это все же на порядок быстрее и легче, чем набирать текст с чистого листа.
Со сложными исходными файлами дело пошло хуже: качество распознавания упало до «тройки» по пятибалльной шкале и не вышло распознавание сложного форматирования и таблиц. Тем не менее удовлетворительный результат был зафиксирован, и ресурс вполне стоит взять на вооружение как действенный способ получить текст из PDF или картинки.
...
Scanоnline
Еще один русскоязычный OCR-сайт вы найдете по адресу www.scanonline.ru. Стартовые условия выглядят заманчиво — файл до 20 Мбайт, поддерживаются все популярные форматы изображений для распознавания, результаты работы будут высланы на указанный адрес электронной почты в виде текста, HTML или RTF. Ресурс владеет шестью языками.

Доступен бесплатный лимит на 5 Мбайт загружаемых изображений в день. Если нужно больше, то можно открыть доступ на сутки с помощью платной SMS по заявленной цене около 20 руб.
Качество распознавания хорошего исходного изображения можно оценить в 4 балла. Ошибок немного, скорость и качество распознавания на достойном уровне. А вот выявление текста на фотографии с телефона оказалось для данного ресурса непосильной задачей. Фактически полученный набор символов был малопригоден к дальнейшей работе. Таким образом, при его использовании нужно учитывать, что этот условно бесплатный сервис очень чувствителен к качеству изображения.

New OCR
Ресурс New OCR (www.newocr.com) обещает совершенно бесплатное применение OCR-технологии к нашим отсканированным документам. И надо сказать, с неплохим функционалом — по своим возможностям данный сервис действительно неплох. Судите сами: 58 языков, два разных OCR-алгоритма на выбор, безлимитные загрузки без необходимости регистрации и бесплатно (!), все популярные форматы, в том числе многостраничные документы, и даже загрузки заархивированных файлов.

Для исходных изображений доступен целый букет сервисных функций. Во-первых, можно выбрать область распознаваемого текста, повернуть картинку, повысить контрастность и распознать текст колонками.
Распознанный текст можно скачать во всех популярных текстовых форматах, включая ODT, отправить для публикации в «Документы Google» или, например, отправить напрямую в переводчик Google.
А что же с качеством непосредственно OCR? С качественными исходными материалами new OCR справился хорошо. Ошибок минимум, и лишь некоторая неразбериха с форматированием заставляет поставить минус к заслуженной пятерке. Можно попробовать улучшить результат, выбирая между двумя механизмами распознавания.
А вот с некачественным исходным материалом разобраться этому сервису не удалось. По существу, ничего полезного из картинки с низким разрешением и недостаточной четкостью извлечь ему не удалось. Несмотря на это, ресурс нам понравился, и рекомендуем занести его в закладки.

Sciweavers: i2OCR
Для полноты картины приведем еще один сайт. Ничего сверхвыдающегося он не обещает, зато бесплатен и имеет красивый интерфейс, в чем вы сможете убедиться сами, заглянув наwww.sciweavers.org/free-online-ocrПоддерживается 33 языка и все популярные графические форматы для исходного файла. Качество распознавания не назовешь выдающимся, но на хорошей фотографии текст определяется с минимумом ошибок и почти не требует корректировки. С плохими изображениями беда, и от получающегося набора символов никакого толка. Зато бесплатно — это раз, и сопровождается целой охапкой других полезных сервисов по решению каждодневных задач конвертирования цифровых данных — это два.

 ...

Комментариев нет:

Отправить комментарий