лучшие программы распознавания текста для linux

8 лучших программ для распознавания текста на 2020 год [Free and Paid]

В наши дни почти все (например, фотографии, музыка, видео) стали цифровыми, и это имеет смысл, поскольку цифровым контентом можно удобно управлять. Так как же текстовые документы могут остаться позади? Благодаря достижениям в Оптическое распознавание символов (OCR) техники, теперь стало проще, чем когда-либо оцифровывать печатные или рукописные тексты. Для этого вам нужны действительно хорошие приложения для распознавания текста, и именно об этом и рассказывается в этой статье. Это программное обеспечение может либо получать источник со сканирующих устройств, либо вы можете вводить свои собственные изображения или файлы PDF для преобразования в редактируемый текст. Заинтригованный? Ну, тогда давайте не будем биться вокруг, и перейдем к 8 лучшим программам для распознавания текста, которые вы должны использовать в 2020 году.

Лучшее программное обеспечение для распознавания текста для Windows, MacOS и Linux

1. ABBYY FineReader

Когда дело доходит до оптического распознавания символов, вряд ли найдется что-то, что даже близко подходит к ABBYY FineReader. ABBYY FineReader позволяет загружать текст со всех видов изображений на одном дыхании.

Несмотря на широкий набор функций, ABBYY FineReader очень прост в использовании. Он может извлекать текст практически из всех популярных форматы изображений, такие как PNG, JPG, BMP и TIFF. И это еще не все. ABBYY FineReader также может извлекать текст из файлов PDF и DJVU. После загрузки исходного файла или изображения (которое предпочтительно должно иметь разрешение не менее 300 т / д для оптимального сканирования) программа анализирует его и автоматически определяет различные разделы файла, имеющие извлекаемый текст. Вы можете либо извлечь весь текст, либо выбрать только некоторые конкретные разделы. После этого все, что вам нужно сделать, это использовать опцию Сохранить, чтобы выбрать формат вывода, а ABBYY FineReader позаботится обо всем остальном. Поддерживаются многочисленные форматы вывода, такие как TXT, PDF, RTF и даже EPUB.

лучшие программы распознавания текста для linux

Выводимый текст является полностью редактируемым, и текст даже из самых содержательных документов (например, имеющих несколько столбцов и сложные макеты) извлекается безупречно. Другие функции включают в себя обширная языковая поддержка, многочисленные стили шрифтов / размеры и инструменты коррекции изображения для файлов, полученных из сканеров и камер.

Сказав все это, то, что отличает ABBYY FineReader от остальных программ, это его почти идеальная точность. С новым обновлением Finereader 15, теперь программное обеспечение использует AI для улучшения распознавания символов, AI особенно используется при извлечении текстов из документов, написанных на японском, корейском и китайском языках. Таким образом, если вы хотите получить абсолютно лучшее программное обеспечение для оптического распознавания текста с расширенными функциями, расширенным форматом ввода-вывода и поддержкой обработки, выберите ABBYY FineReader.

Доступность платформы: Windows и macOS

2. Тессеракт

Тессеракт, пожалуй, самое мощное и передовое программное обеспечение для распознавания текста в этом списке, и я скажу вам почему. Прежде всего, немного истории. Он был разработан HP в 1994 году, но вскоре компания выпустила его под лицензией Apache для разработки с открытым исходным кодом. В 2006 году Google принял проект и спонсировал разработчиков для работы над Tesseract. Перенесемся вперед, и Tesseract стал самым мощным Механизм распознавания текста, который использует Deep Learning для извлечения текстов из изображений (BMP, PNG, JPEG, TIFF и т. Д.) И файлов PDF., Существует множество онлайн-сервисов, которые используют OCR API Tesseract для распознавания и преобразования больших массивов изображений и файлов PDF. И самое приятное, что он доступен для всех основных операционных систем, включая Windows, macOS и Linux. Не говоря уже о том, что в отличие от ABBYY и Adobe, Tesseract совершенно бесплатно и вы можете использовать его для преобразования тысяч изображений в текст, не платя ни копейки.

лучшие программы распознавания текста для linux

Тем не менее, есть одна небольшая проблема. Tesseract не предлагает интерфейс с графическим интерфейсом. Вам придется использовать механизм OCR в командной строке, который не является чашкой чая для всех. Чтобы решить эту проблему, разработчики создали клиенты с графическим интерфейсом использование исходного кода Tesseract для различных операционных систем. Я протестировал несколько из них и отсортировал лучшие клиенты Tesseract GUI для различных операционных систем. Если вы хотите быстро преобразовать изображения или PDF-файлы в редактируемый текст, используйте OCR Space (ссылка ниже) в веб-браузере. Это очень быстро и делает отличную работу. Если вы на Windows тогда используйте gImageReader; для Linux используйте OCRFeeder, а для macOS — PDF OCR X. Это все, но если вы хотите самостоятельно протестировать больше клиентов с графическим интерфейсом, перейдите к этому ссылка на сайт, Кроме того, если у вас есть опыт, то вы, конечно, можете использовать Tesseract в командной строке.

Доступность платформы: Интернет, Windows, macOS и Linux

Цена: Свободно

3. OmniPage Ultimate от Kofax

OmniPage Ultimate — это профессиональное программное обеспечение для преобразования ваших изображений (JPG и PNG), документов и PDF-файлов в цифровые файлы. Если у вас большая компания и вам нужно надежное программное обеспечение для распознавания текста, я очень рекомендую OmniPage Ultimate от Kofax. Однако для частных лиц это программное обеспечение будет слишком дорогим. Что касается функций, OmniPage может точно оцифровывать изображения и документы, делая их одновременно редактируемыми и доступными для поиска. Он также поддерживает длинный список форматов изображений, поэтому независимо от расширения файла вы можете легко преобразовать его в любой формат файла, который вам нужен. С точки зрения возможностей, я бы сказал, это очень близко к ABBYY FineReader.

лучшие программы распознавания текста для linux

Кроме того, OmniPage Ultimate использует свою запатентованную технологию для определения макета изображений и автоматически поворачивает документ в правильной ориентации. Кроме того, вы можете запланировать большие объемы файлов PDF для пакетной обработки, используя инструмент автоматизации. Не говоря уже о том, что может обнаружить более 120 языков и может обрабатывать изображения и документы соответственно. Что касается форматов выходного файла, он поддерживает PDF, DOC, EXCL, PPT, CDR, HTML, ePUB и другие. Учитывая все вышесказанное, OmniPage Ultimate представляется надежным решением для оптического распознавания текста для корпоративных пользователей.

Доступность платформы: Windows

4. Readiris

В поисках чрезвычайно мощного программного обеспечения для оптического распознавания символов, которое имеет множество функций, но не требует ли много усилий, чтобы начать работу? Посмотрите на Readiris, так как это может быть именно то, что вам нужно.

Приложение профессионального уровня Readiris имеет обширный набор функций, который в значительной степени идентичен ранее обсуждавшемуся ABBYY FineReader. Readiris поддерживает несколько форматов изображений: от BMP до PNG и от PCX до TIFF. Кроме этого, PDF и DJVU файлы могут быть обработаны так же хорошо. Изображения могут быть получены из устройств сканера, и приложение также позволяет вам задавать пользовательские параметры обработки для исходных файлов / изображений, такие как сглаживание и регулировка DPI, перед их анализом. Хотя Readiris может обрабатывать изображения с более низким разрешением очень хорошо, оптимальное разрешение должно быть не менее 300 dpi.

Как только анализ завершен, Readiris определяет текстовые разделы (или зоны), и текст может быть извлекается из определенных зон или всего файла, Извлеченный текст доступен для редактирования и поиска и может быть сохранен в различных форматах, таких как PDF, DOCX, TXT, CSV и HTM.

лучшие программы распознавания текста для linux

Более того, облачная функция сохранения в Readiris Pro позволяет напрямую сохранять извлеченный текст в различные облачные службы хранения, такие как Dropbox, OneDrive, Google Drive и другие. Существует также множество полезных функций редактирования / обработки текста, и даже штрих-коды можно сканировать.

В общем, вы должны использовать Readiris, если хотите надежные функции извлечения / редактирования текста в простом в использовании пакете, в комплекте с обширной поддержкой формата ввода / вывода. Однако Readiris немного колеблется, когда дело доходит до обработки документов со сложными макетами, такими как несколько столбцов, таблиц и т. Д.

Доступность платформы: Windows и macOS

5. Adobe Acrobat Pro DC

Если вы ищете мощное программное обеспечение для оптического распознавания текста для профессионального использования, я не могу рекомендовать Adobe Acrobat Pro DC. Так как это Adobe — создатель PDF и различных стандартов документов — компания имеет разработал мощный механизм распознавания текста для точного извлечения текстов из файлов PDF, имеющих отсканированные изображения. Несмотря на то, что он не так многофункциональн, как ABBYY FineReader, Adobe Acrobat, безусловно, превосходит по уровню извлечения. Например, вы можете легко импортировать текстовые PDF-файлы в Adobe Acrobat, а затем использовать технологию распознавания текста для преобразования файла в редактируемый текст. Однако, если вы хотите выбрать изображение, то сначала вам нужно создать PDF-файл изображения, а затем только вы можете импортировать его. В этом отношении есть некоторые ограничения, но кроме этого, Adobe Acrobat является гораздо более мощным программным обеспечением для распознавания текста.

лучшие программы распознавания текста для linux

Сказав все это, лучшая часть этого программного обеспечения заключается в том, что оно сохраняет шрифт исходного документа, используя метод создания пользовательских шрифтов. Поскольку у Adobe есть огромный репозиторий фирменных обычных и дизайнерских шрифтов, он автоматически соответствует стилю шрифта исходного документа, а затем преобразует PDF в этот конкретный шрифт. И в случае, если нет доступного шрифта, то это создает собственный шрифт, используя похожую типографику, Это особенность, которую может использовать только Adobe. Проще говоря, если вы хотите конвертировать тысячи страниц отсканированных изображений в виде файлов PDF (например, книг), то Adobe Acrobat Pro DC — лучшее программное обеспечение для распознавания текста, которое вы можете выбрать.

Доступность платформы: Windows и macOS

6. Microsoft OneNote

OneNote — это впечатляющее многофункциональное приложение для создания заметок, с которым легко начать работу. Тем не менее, заметки не единственное, в чем они хороши. Если вы используете OneNote как часть вашего рабочего процесса, вы можете использовать его для основное извлечение текстаБлагодаря доброте OCR, встроенной в него.

лучшие программы распознавания текста для linux

Использование OneNote для извлечения текста из изображений смехотворно просто. Если вы используете настольное приложение, все, что вам нужно сделать, это использовать Вставить Возможность добавить изображение в любой из блокнотов или разделов. Как только это будет сделано, просто щелкните правой кнопкой мыши на изображение и выберите Копировать текст с картинки вариант. Весь текстовый контент с изображения будет скопирован в буфер обмена и может быть вставлен (и, следовательно, отредактирован) куда угодно, согласно требованию. Будь то PNG, JPG, BMP или TIFF, OneNote поддерживает практически все основные форматы изображений.

Однако возможности OneNote по извлечению текста весьма ограничены, и он не может работать с изображениями, имеющими сложные макеты текстового содержимого, такие как таблицы и подразделы. Так что это то, что вы должны иметь в виду.

Доступность платформы: Windows и macOS

Цена: Свободно

7. Amazon Textract

В 2019 году Amazon запустила свое программное обеспечение для оптического распознавания текста Textract, которое имеет модель машинного обучения и обучено использованию миллионов документов. Он может автоматически определять печатный текст из изображений (JPG и PNG) и файлов PDF и отображать его в цифровом виде с почти идеальной точностью. Хотя Textract в основном доступен в веб-браузере, вы также можете загрузить его и использовать службу через командную строку. Кроме того, Textract кажется довольно мощным программным обеспечением для распознавания текста. он может извлекать не только тексты, но также таблицы, поля, числа и ключевые значения. Мне особенно нравится извлечение таблиц из отсканированных изображений, так как это может упростить процесс редактирования текста. Textract хранит данные таблицы, используя предопределенную схему, где он извлекает все данные в виде строк и столбцов.

лучшие программы распознавания текста для linux

Сказав все это, Amazon Textract предлагает свои услуги как для частных лиц, так и для предприятий. Как домашний пользователь, вы можете зарегистрировать бесплатную учетную запись уровня AWS и использовать эту услугу, но имейте в виду, что вы можете конвертировать только 1000 страниц в месяц. В целом, Amazon Textract делает отличное программное обеспечение для распознавания текста и может использоваться как обычными пользователями, так и предприятиями.

Доступность платформы: Интернет, Windows, macOS, Linux

8. Документы Google

Не многие знают, что в Документах Google есть скрытая функция распознавания текста. Да, вы правильно прочитали, и вам не нужна учетная запись G Suite для использования этой функции. Конечно, это не самый простой подход, но для обычных пользователей, которые хотят конвертировать PDF файлы в редактируемый текст бесплатно тогда Google Docs — лучший, без исключения. Все, что вам нужно сделать, это загрузить файл PDF на Google Drive. После этого щелкните его правой кнопкой мыши и перейдите к параметру «Открыть с помощью». Наконец, нажмите на Google Docs, и все готово. Теперь файл PDF откроется в Google Docs и автоматически преобразует его в редактируемый текст в течение нескольких секунд. Как это круто?

лучшие программы распознавания текста для linux

Теперь вы можете редактировать весь текст, искать его, редактировать и, наконец, сохранять файл в нескольких форматах, которые изначально поддерживаются Документами Google. В моем тестировании это работало довольно хорошо для файлов PDF которые были созданы с помощью текстовых процессоров. Однако имейте в виду, что он не может конвертировать изображения или отсканированные изображения в виде файлов PDF. Итак, если вам нужен бесплатный и простой инструмент OCR для преобразования PDF-файлов в редактируемый текст, Google Docs предоставит вам все необходимое.

Доступность платформы: Интернет, Windows, macOS, Linux

Цена: Свободно

Все готово для преобразования изображений и PDF-файлов в текст?

Оцифровка печатного и рукописного текстового содержимого чрезвычайно полезна, поскольку делает хранение, редактирование и обмен чрезвычайно легкими. И вышеупомянутое программное обеспечение для распознавания текста делает быструю работу по выполнению именно этого, независимо от того, насколько сложны или сложны ваши потребности в извлечении текста. Нужны функции извлечения текста профессионального уровня с лучшими инструментами пост-обработки? Перейти на ABBYY FineReader, Tesseract или OmniPage. Вы бы предпочли более простое программное обеспечение для оптического распознавания текста, которое только делает основы? Используйте OneNote или Google Docs. Попробуйте их, и посмотрите, как они работают для вас. Знаете ли вы о каком-либо другом программном обеспечении OCR, которое могло бы быть включено в приведенный выше список? Кричите в комментариях ниже.

Источник

Распознавание текста в Linux (OCR)

Оглавление

Для Linux имеются разнообразные инструменты командной строки и с графическим интерфейсом для преобразования изображений в текст. В этой статье будут рассмотрены программы, с помощью которых вы можете после сканирования страниц книги или документов перевести их в текстовый формат.

OCR программы в Linux с графическим интерфейсом

OCRFeeder

OCRFeeder — это система анализа макета документов и оптического распознавания символов.

Откройте в этой программе изображения и она автоматически определит контуры областей, в которых находятся изображения и текст и выполнит OCR (распознавание текста) этого документа. Программа может сохранять полученные результаты в разные форматы, главным из них является ODT.

Программа имеет законченный GTK+ графический пользовательский интерфейс, который позволяет пользователям корректировать любые нераспознанные символы, определять или корректировать границы областей текста, устанавливать стили параграфов, очищать введённые изображения, импортировать PDF, сохранять и загружать проект, экспортировать всё в несколько форматов и так далее.

В общем, это программа по функциям схожая с Abbyy FineReader, в некотором смысле, можно сказать, что OCRFeeder это аналог Abbyy FineReader для Linux, по крайней мере, в его базовой функциональности.

В своей работе OCRFeeder использует сторонние движки оптического распознавания символов, например, по умолчанию она использует Tesseract. Для установки нужно установить и графический интерфейс OCRFeeder и Tesseract. В Debian и производных Tesseract устанавливается в качестве зависимости, поэтому необязательно указывать этот пакет явно. Но при этом помните, что вместе с Tesseract устанавливается по умолчанию только распознавание английского языка, для дополнительной поддержки русского, нужно явно указать этот пакет. Про распознавание других языков, а также про работу с Tesseract будет рассказано в этой же статье далее.

Установка OCRFeeder в Ubuntu, Linux Mint, Debian, Kali Linux и их производные:

Установка OCRFeeder в Arch Linux, BlackArch и их производные:

Как пользоваться OCRFeeder

Для запуска программы найдите её в меню (скорее всего, в разделе Офис):

лучшие программы распознавания текста для linux

Или в командной строке выполните команду:

Внешний вид программы:

лучшие программы распознавания текста для linux

Для анализа у меня есть тестовое изображение:

лучшие программы распознавания текста для linux

Загрузим его в программу (для этого нажмите знак плюс +). Вам необязательно добавлять изображения по одному — можно добавлять целыми папками или импортировать PDF документ.

Для распознавания в меню Документ выберем «Распознать документ» (будут распознаны все страницы, которые загружены в программу), либо «Распознать страницу» (будет распознана страница, которая выделена в данный момент).

В правом нижнем углу появляются результаты распознавания текста:

лучшие программы распознавания текста для linux

С моим тестовым файлом, результаты неудовлетворительные, поскольку программа неудачно выбрала области для распознавания. Это исправить легко, просто выбираем новую область и выбираем «Распознать выделенную область»:

лучшие программы распознавания текста для linux

Как видим, результаты не идеальные, но вполне удовлетворительные — после небольшой ручной корректировки, этот текст пригоден для использования.

Как обычно с системами OCR — чем лучше качество исходного текста (имеют значение ровность, размер, контрастность и другое), тем лучше получается результат (хотя в любом случае требуется вычитка и корректировка полученного при распознавании текста):

лучшие программы распознавания текста для linux

По умолчанию языком для распознавания установлен тот же язык, что имеет ваша система, то есть, скорее всего, русский язык. Вы можете изменить язык в Меню → Настройки → Распознавание → Default language. Если вы выбрали неверный язык, то движок оптического распознавания символов вернёт плохие результаты. Если вы выбрали язык, который не поддерживается движком, то он может вернуть пустую страницу.

Вы можете экспортировать для распознавания PDF документы. А полученные результаты сохранять в различных форматах:

Также вы можете сохранить весь проект целиком в собственном формате программы.

Если вы запускаете OCRFeeder из командной строки, то вы можете использовать несколько опций для ускорения процесса добавления изображений.

gImageReader

gImageReader — это графический GTK+ интерфейс для tesseract-ocr.

Tesseract — пожалуй, самое точное программное обеспечение с открытым исходным кодом для оптического распознавания символов (OCR) и может распознавать текст на более чем 60 языках.

gImageReader поддерживает автоматическое определение макета страницы, но пользователь также может вручную задать и отредактировать области распознавания. Есть возможность импортировать изображения с диска, устройств сканирования, буфера обмена и скриншотов. gImageReader также поддерживает многостраничные документы PDF. Распознанный текст отображается непосредственно рядом с изображением и базовое редактирование текста включает поиск/замену и удаление сломанных строк если это возможно. Также поддерживается проверка орфографии для выводимого текста если установлены соответствующие словари.

лучшие программы распознавания текста для linux

Установка OCRFeeder в Ubuntu, Linux Mint, Debian, Kali Linux и их производные:

Установка OCRFeeder в Arch Linux, BlackArch и их производные:

ocrgui

ocrgui — это графический интерфейс для OCR программ (Tesseract, GOCR). Программа давно не обновлялась и может отсутствовать в стандартных репозиториях.

лучшие программы распознавания текста для linux

Установка OCRFeeder в Arch Linux, BlackArch и их производные:

screentranslator

Это экранный переводчик, программа захватывает область экрана, распознаёт текст и выполняет его перевод. Если вам не нужен перевод, то его можно отключить.

лучшие программы распознавания текста для linux

Установка OCRFeeder в Arch Linux, BlackArch и их производные:

В настройках укажите путь к tesseract: /usr/bin/tesseract

Утилиты командной строки для OCR

Далее будут рассмотрены движки оптического распознавания символов, которые имеют интерфейс командной строки. Эта информация может пригодиться продвинутым пользователям, привыкшим иметь дело с консолью, а также пользователям OCRFeeder, поскольку эта программа умеет работать с каждым из рассмотренных ниже OCR инструментов, и знание их особенностей и различий помогут вам правильно выбрать используемый движок OCR:

лучшие программы распознавания текста для linux

Tesseract

Tesseract — это движок оптического распознавания символов (OCR) с открытым исходным кодом. Его можно использовать напрямую, с помощью API для извлечения печатного текста из изображений, а также программы с графическим интерфейсом, такие как OCRFeeder, могут использовать Tesseract. Этот движок поддерживает большое количество языков. Пакет включает в себя утилиту командной строки.

Обратите внимание на опцию -l, после которой нужно указать используемый язык. Если он не указан, то подразумевается английский. Можно указать несколько языков, разделённых знаком плюс. Tesseract использует 3-символьные коды языков ISO 639-2.

Доступны следующие языки:

Ocrad

GNU Ocrad это OCR (Optical Character Recognition — оптическое распознавание символов) программа, основывающаяся на методе извлечения признаков. Она считывает битовую карту изображения в формате pgm/pbm и выдаёт текств в байтовом (8-бит) или UTF-8 форматах.

Ocrad включает анализатор разметки, способный разделять столбцы или блоки текста, какие обычно бывают на печатных страницах.

Слитые, очень смелые или очень светлые (сломанные) символы обычно не распознаются правильно. Старайтесь избегать их.

Статусы выхода: 0 для нормального выхода, 1 при проблемах в среде (файл не найден, неверные флаги, ошибки ввода/вывода и т.д.), 2 говорит о повреждённом или неверном файле ввода, 3 для ошибки внутренней консистенции (например, баг), которая вызвала панику в ocrad.

gocr — это мультиплатформенная программа распознавания текстов (OCR). Она принимает файлы изображений pnm, pbm, pgm, ppm, some pcx и tga. В настоящее время программа должна быть способна хорошо работать со сканами, в которых есть текст в один столбец и нет таблиц. Поддерживается размер шрифта от 20 до 60 пикселей.

Опции (больше подробностей в мануале man gocr):

Провести анализ разметки:

Расширенная база данных:

Использовать файл jpeg переданный по трубе:

Cuneiform

Cuneiform — это многоязычная система OCR (распознавания текста). В дополнении к распознаванию текста, она также анализирует разметку и распознаёт формат текста.

Поддерживаются следующие языки: болгарский, хорватский, чешский, датский, голландский, английский, эстонский, французский, немецкий, венгерский, итальянский, латышский, литовский, польский, португальский, румынский, русский, сербский, словенский, испанский, шведский, турецкий и украинский.

—dotmatrix

Режим распознавания оптимизирован для текстов, напечатанных на принтерах с точечной матрицей

Использовать режим распознавания, оптимизированный для текстов, переданных по факсу.

—singlecolumn

Отключить анализ разметки страницы и исходить из того, что изображение состоит из одной колонки текста.

-f формат

Выбрать формат вывода. Доступны следующие форматы:

По умолчанию это plain text.

-l язык

Поддерживаются следующие языки:

-o вывод

Форматы ввода

Cuneiform может обрабатывать любые изображения с единичной страницой, которые GraphicsMagick знает как открывать. Посмотрите мануала gm(1) для полного списка поддерживаемых форматов изображений.

ocropy

ocropy — это написанный на Python OCR пакет, использующий рекуррентные нейронные сети (ранее назывался OCRopus).

ocropy — это коллекция программ для анализа документов, это не простая OCR система, которая распознаёт тексты в графическом интерфейсе или с запуском одной команды. Функции ocropy разбиты на отдельные модули и, например, для простого распознавания текста может потребоваться ввести несколько команд для подготовки документа.

В дополнении к самим скриптам распознавания, имеется ряд скриптов для базового редактирования и коррекции, измерению процента ошибок, определению матриц путаницы и т. п.

Установка OCRFeeder в Arch Linux, BlackArch и их производные:

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *