Texterkennung unter Linux: Unterschied zwischen den Versionen

Aus Xinux Wiki

Zur Navigation springen Zur Suche springen

Aktuelle Version vom 25. Oktober 2023, 05:36 Uhr

Tesseract OCR

Tesseract ist eine der beliebtesten Open-Source-OCR-Engines.
Sie können es in Kombination mit anderen Tools verwenden, um Text aus Bildern zu extrahieren.
Um Tesseract unter Ubuntu zu installieren, können Sie folgenden Befehl verwenden:
sudo apt-get install tesseract-ocr

OCRmyPDF

Dieses Tool spezialisiert sich auf die Texterkennung in PDF-Dateien.
Es nutzt Tesseract unter der Haube, um Text aus eingescannten Dokumenten zu extrahieren und PDF-Dateien durchsuchbar zu machen.
Sie können OCRmyPDF mit pip installieren:
pip install ocrmypdf

gImageReader

Ein benutzerfreundlicher OCR-Client für Tesseract.
Es ermöglicht die Texterkennung aus Bildern und PDF-Dateien über eine grafische Benutzeroberfläche.
Sie können es über den Paketmanager Ihrer Linux-Distribution installieren.

OCRFeeder

Dies ist eine weitere GUI-Anwendung, die auf Tesseract basiert.
OCRFeeder ermöglicht das Scannen von Dokumenten und die Extraktion von Text.
Installieren Sie es je nach Distribution über den Paketmanager.

Abgerufen von „http://wiki.ixheim.de/index.php?title=Texterkennung_unter_Linux&oldid=50013“