Распознавание текста онлайн
Содержание:
- VueScan
- Особенности
- Как перенести текст с фото в Word онлайн: 5 сервисов
- PaperScan
- Как перевести текст с фото
- Начал я с бесплатных программ:
- Abbyy Fine Reader
- Принцип действия
- И тут я решил получше разглядеть ELMA RPA, которую я уже изучал ранее.
- NAPS2
- Как пользоваться
- Freemore OCR
- Сервисы бесплатного распознавания текста с фото онлайн
VueScan
Программа, изначально не предназначалась для распознавания текстов, хотя и имеет базовый функционал в этом плане. Основное ее преимущество это невероятные функции по сканированию и обработке фото и других изображений.
Она умеет работать с любыми сканерами и призвана расширить возможности весьма ограниченного ПО от производителя. В программе доступна регулировка множества параметров – яркости, контрастности, глубины цвета и более продвинутых профессиональных настроек.
Есть пакетное, многопроходное сканирование и встроенный фоторедактор, позволяющий улучшать качество изображения не тратя время на повторное сканирование. В упрощенном интерфейсом с программой справится и неопытный пользователь, а расширенный режим не оставит равнодушным даже профессионала.
Особенности
Каждая программа способна работать только с теми символами, которые были занесены в ее базу, только их она распознает.
В программу может быть внесено несколько алфавитов, как уже писалось выше, поэтому, при выборе подходящего софта проверьте, что бы он работал с языком, на котором напечатан текст на вашей картинке.
Если речь идет о не слишком популярных и визуально нестандартных языках, то найти подходящий софт может быть непросто.
Чем сложнее форматирование или расположение букв на фотографии, тем сложнее программе правильно распознать текст, и тем больше будет ошибок.
Ведь иногда в таком случае неточности могут возникнуть уже на стадии определения местоположения печатных символов на картинке.
Распознавание текста, напечатанного на нестандартном языке, происходит с ошибками. Причем, часто чем сложнее этот текст, тем больше ошибок может быть, так как алгоритмы распознавания могут в этом случае работать неточно.
При определении буквы программа использует определенный «алгоритм» сравнений с ее основными чертами – расположением и размером элементов (некоторые утилиты также учитывают соседние распознанные буквы и лексическую сочетаемость).
Благодаря этой особенности, даже если небольшая часть буквы стерлась или изменена, она все еще может быть распознана.
Единственный минус данного способа в том, что когда букву не удается распознать, задействуются все алфавиты из базы для определения, и в результате может быть обнаружено больше сходств с буквой, например, английского алфавита, хотя текст напечатан на русском.
Перед началом процесса распознавания, обратите внимание на качество фото. Лучше всего определяется текст с отсканированных изображений документов, скриншотов
Лучше всего определяется текст с отсканированных изображений документов, скриншотов.
Более или менее нормально может быть определен и сфотографированный на камеру текст.
Хуже всего распознаются материалы с фото плохого качества, сделанного под углом, особенно если имеет место сложное форматирование.
Художественные шрифты не распознаются.
Как перенести текст с фото в Word онлайн: 5 сервисов
Прибегают к ним, как правило, для переноса текста с фото в Word в небольших объемах, а также тогда, когда операция носит разовый характер. Подавляющее большинство таких сервисов являются условно-бесплатными, при этом в бесплатном режиме они ограничивают функционал — устанавливают лимиты на объем текста, количество языков, требуют обязательной регистрации и так далее.
Convertio
Хороший сервис для перевода текста с фото в Word, понимает несколько десятков языков, работает с PDF и популярными форматами растровых изображений, позволяет сканировать до 10 страниц в бесплатном режиме. Результат сканирования может быть сохранен в 9 форматов, включая Word.
- На странице сервиса нажмите «Выберите файлы» и укажите изображение на диске. Можно последовательно добавить еще 9 файлов;
- Укажите распознаваемый язык (по умолчанию русский) и формат сохранения;
- Нажмите «Распознать», а затем появившуюся чуть выше кнопку «Скачать».
- Не требует обязательной регистрации.
- Загрузка с Dropbox, Google Drive и по URL.
Плохо работает с изображениями с многоцветным фоном.
Img2txt
Бесплатный онлайн-сканер текста с фото для Word, поддерживает работу с растровыми изображениями и PDF-документами размером не более 8 Мб.
- Выберите файл нажатием одноименной кнопки;
- Укажите язык распознаваемого текста;
- Нажмите «Загрузить» и дождитесь результата;
- Прокрутите страницу немного вниз, нажмите «Скачать» и укажите формат Word.
- Совершенно бесплатен и не требует регистрации.
- Предпросмотр результатов конвертации текста с фото в Word.
- Может распознавать текст даже из картинок с цветным фоном, но не исключены и ошибки.
Размер фото не должен превышать 8 Мб.
Online OCR
Этот бесплатный сервис позиционируется как конвертер PDF в Word с оптическим распознаванием, но с таким же успехом он может быть использован как преобразователь текста с фото в Word в режиме онлайн. Без регистрации позволяет вытащить из фото текст в Word до 15 раз в час.
- Нажмите кнопку «Файл» и выберите на жестком диске фото;
- Укажите язык распознавания и выходной формат файла DOСX;
- Нажмите «Конвертировать», отредактируйте, если потребуется, текст в поле предпросмотра и скачайте выходной файл.
- Регистрироваться необязательно.
- Распознаёт текст с картинок с цветным фоном с выводом в область предпросмотра.
- Поддерживает распознавание текста с фото в Word в пакетном режиме.
- При извлечении текста из цветного фото текст иногда приходится копировать из области предпросмотра, так как при сохранении даже хорошо распознанного текста в Word в файл вставляется картинка-исходник.
- Разрешение картинки должно быть не менее 200 DPI, в противном случает текст будет содержать много ошибок.
Free Online OCR
Неказистый на вид, но достаточно неплохой англоязычный сервис, позволяющий распознать текст с фото в Word онлайн. В отличие от аналогичных ресурсов, Free Online OCR умеет автоматически определять язык текста на изображении, поддерживается добавление дополнительных локализаций на случай, если фото содержит текст двух языков. Из дополнительных возможностей стоит отметить поворот картинки на 180°, 90° вправо/влево, а также разделение многоколоночного текста на столбцы.
- Нажмите кнопку выбора файла, а когда его имя появится рядом с кнопкой, нажмите «Preview»;
- Убедитесь, что программа точно определила язык, если нужно, добавьте кликом по полю «Recognition language(s) (you can select multiple)» второй язык.
- Нажмите кнопку «OCR» для запуска процедуры распознавания.
- Проверьте корректность распознавания, в меню выберите Download → DOC.
- Прост и удобен.
- Наличие дополнительных опций.
- Имеется возможность выбрать конкретный участок изображения.
- Нет поддержки пакетного режима.
- Иногда игнорирует второй язык.
- Не поддерживает конвертирование в DOCX.
ABBYY FineReader Online
Наиболее известный и качественный сервис, позволяющий выполнить распознавание текста с фото в Word онлайн. Отличается функциональностью, поддержкой множества языков и девяти форматов, загрузкой файлов с облачных хранилищ, а также сохранением результатов в облачные хранилища.
- Зайдите на сервис с помощью учетной записи Facebook, Google или Microsoft;
- Нажатием одноименной кнопки загрузите изображения с текстом;
- Выберите язык документа и формат сохранения;
- Нажмите «Распознать»;
- Скачайте готовый файл на следующей странице.
- Отличное качество распознавания.
- Пакетный режим.
- Требуется обязательная регистрация.
- В бесплатном режиме можно обработать не более 12 документов.
- Текст в документах Word может нуждаться в дополнительном форматировании.
PaperScan
Больше возможностей для работы с отсканированными копиями вы получите в PaperScan – мощной программе с поддержкой драйверов TWAIN и VIA, а также механизмом распознавания текста. Вы можете сделать быстрый скан или воспользоваться «Мастером сканирования», чтобы выбрать тип получения документа, формат бумаги, включить дуплексное сканирование (с двух сторон), изменить разрешение изображения, настроить яркость, контраст и прочее, а затем обрезать полученную копию, персонализировать ее, поставив цифровую подпись, распечатать или сохранить на компьютер в одном из девяти доступных форматов.
В PaperScan есть встроенный редактор для коррекции и улучшения изображений, включающий в себя такие опции, как автоматическое удаление границ документа и следов от пробивных отверстий, обнаружение и удаление пустых страниц, устранение пятен и мелких дефектов, настройка цвета, фильтры, эффекты, аннотации и многое другое. Программа распространяется в трех лицензиях, причем одна из них бесплатная, но она же и самая ограниченная функционально. Полностью упаковано издание «Professional», но, возможно, некоторые функции в нем вам будут не нужны, поэтому перед покупкой изучите таблицу сравнения на официальном сайте PaperScan.
Достоинства:
- Пакетное сканирование;
- Инструменты для постобработки изображений;
- Преобразование документа в PDF-файл;
- Есть бесплатная лицензия;
- Поддержка горячих клавиш;
- Функция распознавания текста.
Недостатки:
Бесплатная версия ограничена функционально.
Как перевести текст с фото
Онлайн-сервис img2txt.com
Простой, но мощный ресурс готовый распознать любой текст, изображенный на фотографии. Он работает всего с четырьмя основными расширениями изображений:
- jpg
- jpeg
- png
- bmp
Распознает и переводит текст более чем с 30 языков.
За три простых шага можно получить готовый текстовый документ.
Для примера возьму изображение, снятое со старой газеты, и загрузим его для получения текста.
Результат неплохой, но мелкие корректировки не помешают.
Онлайн-ресурс finereaderonline.com
Этот сервис, кусочек огромной и мощной программы любезно предоставлен нам для такой работы. Он более функционален, в сравнении с предыдущем сайтом, так как на выходе он предлагает получить результат в форматах:
- docx
- xlsx
- rtf
- txt
и другие.
Действия при работе на сайте остаются стандартными: загрузил, перевел, получил.
Для начала потребуется пройти регистрацию и можно воспользоваться бесплатно 10 раз в месяц. Массовое обработка уже будет стоить денег.
За полученное качество обработки, да еще в больших объемах думаю не жалко заплатить. Ну а в качестве перевода убедитесь сами.
Исходник был тот же самый, статья из газеты. Результат налицо.
Кстати, на сервисе Воркзилла довольно часто подбрасывают работенку по переводу текста из фоток и платят неплохие деньги. Используя данные сервисы, такую работу можно выполнить за 10 минут и получить от 300 до 600 рублей.
Конвертер Online OCR
Также, довольно неплохой сервис. Работает с 32 языками и выдает основные форматы:
- docx
- xlsx
- txt
Газетный снимок распознал на 5 с небольшим минусом, так как есть небольшие недочеты в тексте.
Скорость конвертирования изображений без регистрации 15 изображений в час. Я думаю этого более чем достаточно для обычного пользователя.
Еще один конвертер Convertio
Этот сервис полноценный конвертер, работающий с аудио, видео, текстовыми файлами и изображениями. Здесь воспользуемся только одной функцией OCR (оптическим распознаванием текста).
Отработаем все тот же газетный материал. Без регистрации доступно преобразовать только 10 страниц.
- загрузили изображение
- выбрали язык
- выбрали формат документа (в котором получим текст)
- ввели капчу
- получили результат
В итоге скачал на компьютер документ с отличным текстом. Убедитесь сами.
Яндекс-Переводчик
В завершение предлагаю обратить ваш взор на сервис от Яндекса – Переводчик. Да, да обычный переводчик способен также отработать изображение и выдать в виде текста на любом языке.
Этих сервисов вам будет достаточно чтобы распознать текст с отснятых изображений
Обращайте внимание на объем (в Мб) загружаемых снимков, у каждого сайта имеются свои ограничения
Начал я с бесплатных программ:
- glmageReader
- Paperwork
- VietOCR
- CuneiForm.
- В таких программах как VietOCR, Paperwork, glmageReader можно настроить хранение отсканированных документов в определенные папки, Paperwork умеет их даже сортировать, согласно меткам.
- В основном они хорошо справляются с текстом, а там, где текст распознан некорректно, в некоторых программах можно вручную изменить содержимое, прежде чем экспортировать файл.
- Есть разница между работой с pdf сканами и png. Не всегда удается удачно конвертировать png в pdf.
- Большинство таких программ сложно справляются с распознаванием документов табличного вида, даже самого простого формата. В результате мы получаем распознанный текст без размеченных полей.
- Иногда неточно определяется шрифт, вследствие чего при конвертации весь распознанный текст наезжает друг на друга.
- В процессе распознавания иногда необходимо делать выравнивание по ключевым словам, с доворотами и смещением координат.
- В некоторых программах таблица распознавалась как картинка и экспортировалась в новый документ Word тоже в качестве картинки, очень урезанной, которую даже сложно разглядеть.
- При редактировании распознанного содержимого в некоторых программах возникали проблемы, менялся шрифт или сам текст.
Abbyy Fine Reader
Это наиболее качественный и многофункциональный софт в данном ТОПе. Он отличается высокой точностью распознавания и имеет целый ряд преимуществ, распространяется платно.
Программа успешно работает со множеством языков, в ходе распознавания способна сохранять структуру текста и тип его форматирования.
Предназначена для профессионалов, потому, по мнению большинства пользователей, своих денет стоит.
Позитив:
- Высокое качество распознавания;
- Большое количество поддерживаемых языков;
- Способность сохранять стиль форматирования и особенности структуры документа достаточно точно;
- Наличие бесплатной пробной версии на 10 дней;
- Отсутствие снижения качества работы даже при больших объемах текста (что нередко наблюдается у других программ, которые хуже и хуже распознают текст с каждой последующей загруженной фотографии, и проблема устраняется только после перезапуска).
Негатив:
- Довольно значительная нагрузка на аппаратные ресурсы компьютера;
- Платное распространение по высокой стоимости при довольно коротком пробном периоде (всего на 10 дней);
- Замедление работы устройства при работе программы.
Принцип действия
Как же работает такая программа? Какие алгоритмы используются для распознавания текста и как они взаимодействуют в софте? Чем объясняются отличия в качестве распознавания материалов разными программами?
Принцип действия программы такой:
1 В каждой программе имеется база данных, в которую занесен алфавит, при этом каждой букве, как строчной, так и заглавной, присваивается целая группа вероятных графических отображений этой буквы – различные шрифты, учет качества фото, поворота и угла камеры при съемке и т. д.;
2 Таким образом, после попадания в программу изображение анализируется с целью выявления имеющихся символов и определения их положения, то есть, фактически, определяется, где именно на фото расположены буквы;
3 Распознавание обнаруженных букв, по окончанию которого формируется печатный текст;
4 Распознавание особенностей форматирования, величины отступов и т. д. (только некоторые программы способны сохранять форматирование, при работе большинства доступных бесплатных сервисов этот пункт вовсе отсутствует);
5 Как только распознавание заканчивается, то, в зависимости от типа программы и принципов ее работы, готовый текст появляется в окне софта или создается текстовый файл с ним (того или иного формата, также в зависимости от программы).
Полученный таким образом материал остается только отредактировать.
<Рис. 2 Принцип>
И тут я решил получше разглядеть ELMA RPA, которую я уже изучал ранее.
Распознавание по шаблону
- Этот вид распознавания работает именно со сканами формата jpg и png, pdf он пока не рассматривает. Но продукт еще молодой, думаю, все впереди.
- Этот вид распознавания входит в бесплатную версию Community Edition
- Удобно размечен текст по блокам, которые можно сопоставить, согласно переменным, которые мы создали в контексте робота. Таким образом вручную настроить, что именно тянем в распознавание.
- Нашу счет-фактуру он распознал 50/50, некоторые слова подменил как посчитал нужным. 🙂
другой вид распознавания — intellect labЧто отметил по поводу этого распознавания:
- Здесь уже распознавание работает как программа сканирования документов pdf, и при этом работает и с форматами jpg и png.
- Качество документа не влияет на эффективность распознавания. Даже документы с плохим качеством распознаются корректно.
- Счет-фактура распозналась полностью и без подмен переменных.
- Робот сумел получить скан с почты, распознать его и создать его экземпляр в 1С. То есть автоматически сохранил файл там, где мы ему задали, что, естественно, крайне удобно.
- Входит в бесплатную Community Edition в виде распознавания документа в облаке. Подходит, если используем стандартные типы (СФ, УПД, АВР и др.), и, например до 100 документов в месяц или до 500 в год. (Стоит заметить, что считаем не в страницах, а в документах непосредственно.)
- примерно 180 000 руб. единовременно,
- плюс, допустим, 400 000 руб. покупка робота с оркестратором
- итого: 580 000 руб.
- Можно настроить получение документов по событию, а также, например из электронной почты и любых других внешних источников. У меня пока была цель настроить получение с почты.
- Все считанные данные с документа можно спокойно записать в контекстные переменные и далее их передать в необходимые системы, приложения, сайты, ВМ и т д. И я не переписываю уже ничего руками.
- Скорость обработки. 15 секунд и объект распознан, а остальной порядок действий — это счет по минутам. Если заявиться с потоковым сканированием с большим количеством документов, думаю это не составит больших временных затрат.
- Много качественного функционала в свободном доступе, для небольших компаний им можно вполне обойтись.
NAPS2
В NAPS2 есть функция оптического распознавания символов. Достаточно ее включить и она автоматически будет извлекать текстовые данные из отсканированных документов, но чтобы скопировать этот текст, придётся открыть полученную копию в сторонней программе для просмотра PDF-файлов. Помимо графического, здесь предусмотрен интерфейс командной строки, предназначенный для автоматизации различных сценариев сканирования и сохранения документов. NAPS2 – бесплатная программа с открытым исходным кодом и Portable-версией, поэтому ее можно хранить на флешке и запускать на любом компьютере.
Достоинства:
- Система скан-профилей;
- Открытый исходный код;
- Портативная версия;
- Поддержка OCR;
Недостатки:
В интерфейсе программы нельзя копировать распознанный текст.
Как пользоваться
Ознакомьтесь визуально с принципом работы данной программы:
Горячие клавиши
Помимо основных, отображаемых в пользовательском интерфейсе, клавиш, в FineReader существуют т.н. «горячие клавиши». Ниже приведен их неполный список.
Стандартные команды, знакомые нам по пакету MS Office:
- Ctrl+S – сохранение документа
- Ctrl+P – напечатать документ/текст
- Ctrl+Z – отмена предыдущей команды
- Ctrl+X, Ctrl+C, Ctrl+V – вырезать, скопировать, вставить текст/изображение
- И др.
Команды, характерные для FineReader:
- Ctrl+K – запустить сканирование страниц
- Ctrl+N – открыть в программе новый документ
- Ctrl+M – отправить текущий документ по эл. почте
- И др.
Разработчик: | ABBYY FineReader |
Операционная система: | Windows XP/ 7/ 8/ 8.1/ 10/ Vista |
Язык программы: | Русский |
Лицензия: | Бесплатно |
Рейтинг: |
4.1 5 голосов |
Freemore OCR
Программа позволяет оперативно извлекать текст и графику с изображений. Софт поддерживает работу с несколькими сканерами без потери производительности.
Извлеченный текст может быть сохранен в формате текстового документа или документа MS Office.
Кроме того предусмотрена функция многостраничного распознавания.
Распространяется Freemore OCR бесплатно, однако, интерфейс только на английском.
Но это обстоятельство никак не влияет на удобство пользования, потому как организованы элементы управления интуитивно понятным образом.
Достоинства:
- бесплатное распространение;
- возможность работы с несколькими сканерами;
- достойна точность распознавания.
Недостатки
- Отсутствие русского языка в интерфейсе;
- Необходимость загрузки русского языкового пакета для распознавания.
Сервисы бесплатного распознавания текста с фото онлайн
Хочу заменить, что качество, получаемое при считывании текста с картинки, зависит от следующих факторов:
- качества исходника;
- размера элементов и четкости символов на отсканированном материале;
- формата файла.
Вашему вниманию представляю подборку сервисов, позволяющих преобразовать картинку в текст онлайн. Большинство из них бесплатные, а об имеющихся ограничениях, я упомяну в отдельной таблице. Большинство сайтов на английском языке.
Сравнение онлайн распознавателей текста с фото или PDF смотрите в таблице ниже:
Сервис от Гугл
Чтобы перевести с текст с фото в ворд понадобится электронная почта gmail. С ее помощью вы получите доступ ко многим сервисам от Google. Ограничений по количеству файлов нет, как и по их объему.
После этого кликаете по нему правой кнопкой и выбираете в меню открыть с помощью “Google Документы”:
Результат перевода текста с картинки в ворд будет помещен в Google Документы и откроется на соседней вкладке. Далее вы можете его там редактировать или скопировать на компьютер в одном из форматов:
Abbyy Finereader Online
Это онлайн распознаватель текста с pdf или изображения в word, аналог одноименной программы для ПК. Файн ридер онлайн позволяет бесплатно распознать до 5 страниц в месяц и то только после регистрации. Плюс бонусом предоставляется 10 страниц после подтверждения имейла. Стоимость платного пакета услуг — 129 € / год на 5000 страниц.
Как использовать сервис показано на скрине — всего 5 шагов к получению текста с фото или pdf в ворд онлайн:
Ссылка для перехода finereaderonline.com
Online OCR
Отличный сервис распознавания текста с фото или из pdf с приемлемыми ограничениями в формате гостевого доступа, т.е. без регистрации на сайте. Позволяет произвести преобразование картинки в текст онлайн в количестве до 15 штук в час или 15 страниц в многостраничном PDF файле
Обратите внимание, что для работы с PDF документами понадобится регистрация
Ссылка на сам сервис OnlineOCR.net
Как вытащить текст из картинки в word этим сервисом смотрите ниже на скрине:
Отличительная особенность — в получаемых результатах изображения сохраняются с текстом. В других сервисах, что будут описаны ниже такого нет.
Free Online OCR
Довольно неплохой бесплатный и не имеющий ограничений по количеству файлов переводчик текста с картинки онлайн. Один его недостаток — сохранение результата без изображений с источника.
Для открытия сайта кликните newocr.com
Выбираем файл, ниже уже будет добавлено 2 языка, при необходимости добавьте другие. Кликните по кнопке «Upload & OCR»:
Изображение будет автоматически загружено и распознано. Результаты можно сохранить в документ или скопировать прямо из сайта:
Есть возможность выделить участок на изображении для распознавания. А также несколько разных языков.
OCR Convert
Распознавание текста с картинки онлайн сервисом OCR Convert происходит не мгновенно! Вам предлагают оставить имейл, на который придет оповещении об удачном завершении распознавания. И скачать готовый файл можно в течении 24 часов, дальше он будет удален автоматически. Это главный минус данного сайта!
Работать просто, выберите файл, язык и кликните по кнопке «Convert»:
Soda PDF OCR
Многофункциональный сервис для работы с PDF документами. Полный список возможностей представлен на скрине ниже, но нас в первую очередь интересует распознавание текста из pdf в word онлайн.
Загрузите файл и получите расшифрованный документ.
I2OCR
Работать с сайтом просто, всего 4 действия, чтобы преобразовать фото в текст:
- Выбираем язык.
- Загружаем файл.
- Подтверждаем, что мы не робот.
- Кликаем по кнопке «Extract».
Ожидаем минутку и появляется возможность скопировать текст с картинки онлайн на свой компьютер в одном из форматов по кнопке «Download».
OCR от Яндекс
Его назначение — перевод текста из подгруженного изображения, но с задачей сканировать текст с фотографии онлайн он успешно справляется. Работает без регистрации и каких-либо ограничений.
Вот таким не хитрым способом, используя яндекс переводчик не по назначению нам удалось скопировать текст с картинки онлайн.