Как распознать текст с картинки, фото, PDF-файла: подборка полезных программ (OCR) и сервисов

Автор: Alexandr, 15.04.2022 Рубрики: Офис

РаспознованиеДоброго дня!

Сегодня в заметке хочу коснуться одного "больного" офисного вопроса: "...вот у меня есть фото страницы книги/документа, как мне ее загнать в Word чтобы отредактировать текст...?". (его вариации могут чуть отличаться)

Основная "проблема" здесь в том, что на фотографии (скане) нет текста — там он представлен в виде графической картинки, или иными словами буквы на фото — это просто черные палочки, квадратики и кружки на белом фоне (обычный рисунок в виде букв)! Т.е. это не символы, их нельзя выделить, скопировать и вставить в Word!

Что делать? Сначала потребуется, чтобы "кто-то" преобразовал эти "палочки и кружочки" (т.е. буквы с картинки) в формат обычного текста, символов (эта операция назыв. по англ. OCR // optical character recognition // оптич. распознавание символов). А вот уже потом текст можно перенести в Word и редактировать...

Собственно, о программах и сервисах, решающих эту задачу, и пойдет сегодня речь... 👌

 

*

📌 По теме!

1) Как отсканировать документ на компьютер с принтера (МФУ) — https://ocomp.info/kak-otskanirovat-dokument.html

2) Как отсканировать документ с помощью смартфона на Андроид — https://ocomp.info/skaniruem-dokumentyi-android.html

 

*

«Чем» распознать текст (OCR)

Софт для Windows

FineReader 👍

Сайт: https://pdf.abbyy.com/ru/finereader-pdf/

Пример работы с FineReader

Пример работы с FineReader

Одна из лучших программ для распознавания текста с фотографий, сканов и PDF-файлов. Благодаря мощным алгоритмам (с автоматическим выделением областей) — процесс перевода "графики" в текст становится простым и легким!

Стоит отметить, что у FineReader почти нет конкурентов и заменить его очень сложно (особенно, если сканы для распознавания в плохом качестве или с редкими шрифтами).

Преимущества:

  1.  поддерживает все самые популярные языки (рус., англ., укр., немецкий, и пр.) и шрифты (даже отчасти рукописные);
  2. ручной и автоматический режимы работы;
  3. многостраничный режим (когда можно сразу же открыть 3 разных документа - и программа автоматически их обработает);
  4. встроенный редактор для исправления ошибок и корректировки текста;
  5. возможность передать распознанный текст в MS Word одним кликом мышки!
Открыть в OCR-редакторе — FineReader

Открыть в OCR-редакторе — FineReader

Как пользоваться: достаточно открыть нужную фотографию или PDF-файл, а затем нажать кнопку "Распознать страницу". Далее программа все сделает автоматически. См. скриншоты выше, стрелочками всё показано. 👆

 

 

*

NAPS2

Сайт: https://naps2.ru/

лого naps2

Компактная и простая программа для быстрого сканирования и распознавания документов. Отлично подходит для работы со сканерами и МФУ — можно сразу же с бумажного листа быстро "получить" документ Word с текстом для редактировки...

Кстати, в меню NAPS2 можно указать конкретно те языки, которыми вы будете пользоваться (чаще всего это русский и англ.). Прим.: программа поддерживает более 100 языков! См. скрин ниже. 👇

Загрузка русского (NAPS2)

Загрузка русского (NAPS2)

 

Что по использованию: то здесь все просто. Сначала указываем языки, затем добавляем нужные файлы (JPG, TIFF, PNG, PDF и пр.), нажимаем кнопку распознать и сохраняем полученные страницы.

Пример работы со страничкой из книги - NAPS2

Пример работы со страничкой из книги - NAPS2

 

 

*

CuneiForm

РазработчикCognitive Technologies

Можно загрузить с soft.mydiv.net

Несмотря на то, что программа давно не обновлялась — русский и англ. текст она распознает довольно неплохо. Меню у нее выполнено в стиле минимализма (нет ничего лишнего): достаточно выбрать файл, указать параметры распознавания и приступить к операции. См. пример ниже. 👇

Cuneiform — пример работы со страничкой

Cuneiform — пример работы со страничкой

Можно выделить:

  1. поддержка 20 языков;
  2. встроенный словарь для проверки документа;
  3. поддержка большинства печатных шрифтов;
  4. поддержка страниц, распечатанных на старых факсах, матричных принтерах и пр. устройствах (не все ПО такое может обработать!).

 

 

*

SimpleOCR

Сайт: https://www.simpleocr.com/download/

Примечание: см. в первую очередь на Classic версию (она бесплатна).

SimpleOCR — пример работы

SimpleOCR — пример работы

SimpleOCR — крайне простая утилита для работы со сканерами (и документами, полученными с них). Позволяет преобразовать файлы BMP, TIF, JPG в текстовые форматы.

По умолчанию SimpleOCR умеет работать только с документами на англ., французском, немецком языками (русский придется до-устанавливать вручную!).

Также обратите внимание, что более расширенный функционал предоставляет платно.

На мой взгляд SimpleOCR может подойти, если вы активно работаете со сканами в хор. качестве с иностранным текстом (благо, что с ними она неплохо справляется!).

 

*

Scannitto Pro

Сайт: https://www.scanitto.com/ru/

Пример работы с Scannitto Pro - распознавание странички текста

Пример работы с Scannitto Pro - распознавание странички текста

Scannitto Pro — эта программа больше подходит для получения сканов с МФУ и сканеров (и в этом плане здесь много опций: и повороты, и подрезки, и шаблоны...). Однако, в ее арсенале функций есть и распознавание, причем, русский и англ. шрифты поддерживаются! (правда, опций здесь маловато...).

Суть работы сводится к следующему: сначала нужно добавить страничку, затем открыть доп. окно для распознавания, выделить синим цветом блок текста и произвести операцию. Далее текст нужно подредактировать (замечу, что ошибок здесь больше, чем у того же FineReader, а потому нужны качественные сканы!).

Важно: программа Scannitto Pro платная (это еще один недостаток)!

В остальном особых нареканий нет. Отлично подойдет тем, у кого возникли сложности с другим ПО, или кто занимается сканированием от случая к случаю...

 

 

*

Онлайн-сервисы (OCR)

📌 Img2txt.com

Сервис поддерживает относительно небольшие файлы, размер которых не превышает 8 МБ. Доступные форматы: PDF, JPG, PNG, BMP и пр.

Что касается качества - то оно среднее (проигрывает FineReader, но лучше ряда др. софта и сервисов).

img2txt.com — сервис распознавания онлайн (скрин главной странички)

img2txt.com — сервис распознавания онлайн (скрин главной странички)

 

*

📌 Onlineocr.net

Этот сервис выигрывает у предыдущего поддержкой 15 Мб файлов, зато проигрывает по качеству распознавания (по крайней мере в отношении русских шрифтов).

Как пользоваться: достаточно выбрать файл на жестком диске, далее указать его язык и нажать кнопку "Convert". После вы сможете загрузить doc-файл с распознанным текстом. Удобно?!

Onlineocr.net - скриншот главной страницы сайта

Onlineocr.net - скриншот главной страницы сайта

 

 

*

📌 Convertonlinefree.com

Этот сервис выгодно отличается тем, что может обрабатывать не только PDF-файлы и картинки, но и архивы со множеством файлов (согласитесь это удобнее?!). Да и качество распознавания весьма на хорошем уровне (для рус. и англ. текста перепроверял на своих документах).

Примечание: обратите внимание, что на сервисе обрабатывается лишь 20 страниц! Большие документы придется разбивать, прежде чем загружать их на этот сайт.

convertonlinefree.com - скриншот страницы сайта

convertonlinefree.com - скриншот страницы сайта

 

 

*

📌 Convertio.co

Этот сервис хорош тем, что поддерживает десятки самых разных файлов + неплохое качество распознавания. Бесплатная версия, кстати, позволяет обработать лишь 10 страниц. Полученные результаты можно сохранить в Word, PDF, TXT-документы.

Примечание: полная поддержка русских шрифтов, большой ассортимент импортируемых файлов: PDF, JPG, BMP, GIF, JP2, JPEG, PBM, PCX, PGM, PNG, PPM, TGA, TIFF, WBMP.

Convertio — скриншот с сайта

Convertio — скриншот с сайта

 

*

Дополнения по теме заметки - приветствуются в комментариях!

За сим прощаюсь, всем удачи!

👋

Есть 1 комментарий.

  1. Игнат:

    Имхо... Кроме FineReader ничего по-сути и нет. Качество проигрывает везде, я почти все это уже пробовал ранее.

    Особенно, если у вас есть 5 ПДФ файлов, например, и вам нужно их выделить и получить текст. Ничем другим провести эту операцию за 5-10 минут у меня не получилось...

Написать комментарий 📎

 

Прикрепить картинку, скрин:

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!:

  • Интересное
  • Оптимизируем и ускоряем
  • Удаляем вирусы
  • Настраиваем звук
  • Содержание статьи
  •