Доброго дня!
Сегодня в заметке хочу коснуться одного "больного" офисного вопроса: "...вот у меня есть фото страницы книги/документа, как мне ее загнать в Word чтобы отредактировать текст...?". (его вариации могут чуть отличаться)
Основная "проблема" здесь в том, что на фотографии (скане) нет текста — там он представлен в виде графической картинки, или иными словами буквы на фото — это просто черные палочки, квадратики и кружки на белом фоне (обычный рисунок в виде букв)! Т.е. это не символы, их нельзя выделить, скопировать и вставить в Word!
Что делать? Сначала потребуется, чтобы "кто-то" преобразовал эти "палочки и кружочки" (т.е. буквы с картинки) в формат обычного текста, символов (эта операция назыв. по англ. OCR // optical character recognition // оптич. распознавание символов). А вот уже потом текст можно перенести в Word и редактировать...
Собственно, о программах и сервисах, решающих эту задачу, и пойдет сегодня речь... 👌
*
📌 По теме!
1) Как отсканировать документ на компьютер с принтера (МФУ) — https://ocomp.info/kak-otskanirovat-dokument.html
2) Как отсканировать документ с помощью смартфона на Андроид — https://ocomp.info/skaniruem-dokumentyi-android.html
*
Содержание статьи📎
«Чем» распознать текст (OCR)
Софт для Windows
FineReader 👍
Сайт: https://pdf.abbyy.com/ru/finereader-pdf/
Одна из лучших программ для распознавания текста с фотографий, сканов и PDF-файлов. Благодаря мощным алгоритмам (с автоматическим выделением областей) — процесс перевода "графики" в текст становится простым и легким!
Стоит отметить, что у FineReader почти нет конкурентов и заменить его очень сложно (особенно, если сканы для распознавания в плохом качестве или с редкими шрифтами).
Преимущества:
- поддерживает все самые популярные языки (рус., англ., укр., немецкий, и пр.) и шрифты (даже отчасти рукописные);
- ручной и автоматический режимы работы;
- многостраничный режим (когда можно сразу же открыть 3 разных документа - и программа автоматически их обработает);
- встроенный редактор для исправления ошибок и корректировки текста;
- возможность передать распознанный текст в MS Word одним кликом мышки!
Как пользоваться: достаточно открыть нужную фотографию или PDF-файл, а затем нажать кнопку "Распознать страницу". Далее программа все сделает автоматически. См. скриншоты выше, стрелочками всё показано. 👆
*
NAPS2
Сайт: https://naps2.ru/
Компактная и простая программа для быстрого сканирования и распознавания документов. Отлично подходит для работы со сканерами и МФУ — можно сразу же с бумажного листа быстро "получить" документ Word с текстом для редактировки...
Кстати, в меню NAPS2 можно указать конкретно те языки, которыми вы будете пользоваться (чаще всего это русский и англ.). Прим.: программа поддерживает более 100 языков! См. скрин ниже. 👇
Что по использованию: то здесь все просто. Сначала указываем языки, затем добавляем нужные файлы (JPG, TIFF, PNG, PDF и пр.), нажимаем кнопку распознать и сохраняем полученные страницы.
*
CuneiForm
Разработчик: Cognitive Technologies
Можно загрузить с soft.mydiv.net
Несмотря на то, что программа давно не обновлялась — русский и англ. текст она распознает довольно неплохо. Меню у нее выполнено в стиле минимализма (нет ничего лишнего): достаточно выбрать файл, указать параметры распознавания и приступить к операции. См. пример ниже. 👇
Можно выделить:
- поддержка 20 языков;
- встроенный словарь для проверки документа;
- поддержка большинства печатных шрифтов;
- поддержка страниц, распечатанных на старых факсах, матричных принтерах и пр. устройствах (не все ПО такое может обработать!).
*
SimpleOCR
Сайт: https://www.simpleocr.com/download/
Примечание: см. в первую очередь на Classic версию (она бесплатна).
SimpleOCR — крайне простая утилита для работы со сканерами (и документами, полученными с них). Позволяет преобразовать файлы BMP, TIF, JPG в текстовые форматы.
По умолчанию SimpleOCR умеет работать только с документами на англ., французском, немецком языками (русский придется до-устанавливать вручную!).
Также обратите внимание, что более расширенный функционал предоставляет платно.
На мой взгляд SimpleOCR может подойти, если вы активно работаете со сканами в хор. качестве с иностранным текстом (благо, что с ними она неплохо справляется!).
*
Scannitto Pro
Сайт: https://www.scanitto.com/ru/
Scannitto Pro — эта программа больше подходит для получения сканов с МФУ и сканеров (и в этом плане здесь много опций: и повороты, и подрезки, и шаблоны...). Однако, в ее арсенале функций есть и распознавание, причем, русский и англ. шрифты поддерживаются! (правда, опций здесь маловато...).
Суть работы сводится к следующему: сначала нужно добавить страничку, затем открыть доп. окно для распознавания, выделить синим цветом блок текста и произвести операцию. Далее текст нужно подредактировать (замечу, что ошибок здесь больше, чем у того же FineReader, а потому нужны качественные сканы!).
Важно: программа Scannitto Pro платная (это еще один недостаток)!
В остальном особых нареканий нет. Отлично подойдет тем, у кого возникли сложности с другим ПО, или кто занимается сканированием от случая к случаю...
*
Онлайн-сервисы (OCR)
Сервис поддерживает относительно небольшие файлы, размер которых не превышает 8 МБ. Доступные форматы: PDF, JPG, PNG, BMP и пр.
Что касается качества - то оно среднее (проигрывает FineReader, но лучше ряда др. софта и сервисов).
*
Этот сервис выигрывает у предыдущего поддержкой 15 Мб файлов, зато проигрывает по качеству распознавания (по крайней мере в отношении русских шрифтов).
Как пользоваться: достаточно выбрать файл на жестком диске, далее указать его язык и нажать кнопку "Convert". После вы сможете загрузить doc-файл с распознанным текстом. Удобно?!
*
Этот сервис выгодно отличается тем, что может обрабатывать не только PDF-файлы и картинки, но и архивы со множеством файлов (согласитесь это удобнее?!). Да и качество распознавания весьма на хорошем уровне (для рус. и англ. текста перепроверял на своих документах).
Примечание: обратите внимание, что на сервисе обрабатывается лишь 20 страниц! Большие документы придется разбивать, прежде чем загружать их на этот сайт.
*
Этот сервис хорош тем, что поддерживает десятки самых разных файлов + неплохое качество распознавания. Бесплатная версия, кстати, позволяет обработать лишь 10 страниц. Полученные результаты можно сохранить в Word, PDF, TXT-документы.
Примечание: полная поддержка русских шрифтов, большой ассортимент импортируемых файлов: PDF, JPG, BMP, GIF, JP2, JPEG, PBM, PCX, PGM, PNG, PPM, TGA, TIFF, WBMP.
*
Дополнения по теме заметки - приветствуются в комментариях!
За сим прощаюсь, всем удачи!
👋
Другие записи:
Имхо... Кроме FineReader ничего по-сути и нет. Качество проигрывает везде, я почти все это уже пробовал ранее.
Особенно, если у вас есть 5 ПДФ файлов, например, и вам нужно их выделить и получить текст. Ничем другим провести эту операцию за 5-10 минут у меня не получилось...