Распознавание текста с изображения в UBUNTU/*nix

Tesseract OCR — это отличный движок распознавания текста, который в свое время (еще в 80-ых) был разработан HP, потом на длительное время заброшен, в позже выкуплен Google. Последняя принялась доводить его до совершенства, так что прогресс движется семимильными шагами, и программа уже вовсю способна составить конкуренцию какому-нибудь Fine Reader.

Установка

sudo apt update
sudo apt install tesseract-ocr tesseract-ocr-rus

Использование

# Только русский язык
tesseract input.jpg output -l rus

# Только английский язык
tesseract input.jpg output -l eng

# Русский и английский язык
tesseract input.jpg output -l rus+eng

Сперто тут.

Добавление текстового слоя на PDF

Используем ocrmypdf.

Установка

sudo apt update
sudo apt install ocrmypdf

Использование

# Только русский язык
ocrmypdf -l rus input.pdf output.pdf

# Только английский язык
ocrmypdf -l eng input.pdf output.pdf

# Русский и английский язык

ocrmypdf -l rus+eng input.pdf output.pdf

Сперто тут.

P.S. А все из-за того, что кто-то запретил в телеграмме копировать текст.

Оставьте комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *