Распознавание текста с изображения в UBUNTU/*nix

Tesseract OCR — это отличный движок распознавания текста, который в свое время (еще в 80-ых) был разработан HP, потом на длительное время заброшен, в позже выкуплен Google. Последняя принялась доводить его до совершенства, так что прогресс движется семимильными шагами, и программа уже вовсю способна составить конкуренцию какому-нибудь Fine Reader.

Установка

sudo apt update sudo apt install tesseract-ocr tesseract-ocr-rus

Использование

# Только русский язык
tesseract input.jpg output -l rus
# Только английский язык
tesseract input.jpg output -l eng
# Русский и английский язык
tesseract input.jpg output -l rus+eng

Сперто тут.

Добавление текстового слоя на PDF

Используем ocrmypdf.

Установка

sudo apt update sudo apt install ocrmypdf

Использование

# Только русский язык
ocrmypdf -l rus input.pdf output.pdf
# Только английский язык
ocrmypdf -l eng input.pdf output.pdf
# Русский и английский язык
ocrmypdf -l rus+eng input.pdf output.pdf

Сперто тут.

P.S. А все из-за того, что кто-то запретил в телеграмме копировать текст.

Распознавание текста с изображения в UBUNTU/*nix

Установка

Использование

Добавление текстового слоя на PDF

Установка

Использование

Оставьте комментарий

Отменить ответ