{"id":5130,"date":"2017-06-27T14:13:53","date_gmt":"2017-06-27T12:13:53","guid":{"rendered":"https:\/\/www.bdjl.de\/localhost\/?p=5130"},"modified":"2017-06-27T14:14:45","modified_gmt":"2017-06-27T12:14:45","slug":"ocr-revisited","status":"publish","type":"post","link":"https:\/\/www.bdjl.de\/localhost\/?p=5130","title":{"rendered":"OCR revisited"},"content":{"rendered":"<p>Zwar liefert Finereader die besseren Ergebnisse und obendrein noch ein Layout f\u00fcr die Scans, aber f\u00fcr eine lokale Suche nach einem PDF reicht auch ein bischen weniger, so dass man sich die Ausgaben bei ABBYY f\u00fcr jede einzelne Seite zumindest teilweise sparen kann.<\/p>\n<p>Unter einem Debian 9:<\/p>\n<pre class=\"lang:default decode:true \">sudo apt-get install poppler-utils ocrmypdf tesseract-ocr-deu<\/pre>\n<p>Details und weitere Konfigurationsm\u00f6glichkeiten, Batch-Skripte und mehr sind <a href=\"https:\/\/ocrmypdf.readthedocs.io\/en\/latest\/cookbook.html#\" target=\"_blank\" rel=\"noopener\">hier<\/a> zu haben. Ich setze ocrmypdf bisher gezielt auf einzelne Verzeichnis an mit diesem Einzeiler:<\/p>\n<pre class=\"lang:default decode:true\">for i in $( ls *.pdf ) ; do ocrmypdf --skip-text -l deu --deskew --clean --rotate-pages --clean-final $i - | pdftotext - $i.txt ; done<\/pre>\n<p>Das ergibt dann TXT Dateien mit zu \u00fcber 95% richtig erkanntem Inhalt, wenn die Vorlage gut ist. Presst man PDF-Faxe und \u00e4hnlichen Mist durch die tool chain, dann kommt leider weitaus weniger Brauchbares hinten raus &#8211; aber zum Wiederfinden auf der lokalen Platte mit <em>recoll<\/em> reicht es.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Zwar liefert Finereader die besseren Ergebnisse und obendrein noch ein Layout f\u00fcr die Scans, aber f\u00fcr eine lokale Suche nach einem PDF reicht auch ein bischen weniger, so dass man sich die Ausgaben bei ABBYY f\u00fcr jede einzelne Seite zumindest teilweise sparen kann. Unter einem Debian 9: sudo apt-get install poppler-utils ocrmypdf tesseract-ocr-deu Details und [&hellip;]<\/p>\n","protected":false},"author":2,"featured_media":0,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[5,7],"tags":[347,583],"class_list":["post-5130","post","type-post","status-publish","format-standard","hentry","category-linux","category-office","tag-ocr","tag-ocrmypdf"],"_links":{"self":[{"href":"https:\/\/www.bdjl.de\/localhost\/index.php?rest_route=\/wp\/v2\/posts\/5130","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.bdjl.de\/localhost\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.bdjl.de\/localhost\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.bdjl.de\/localhost\/index.php?rest_route=\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/www.bdjl.de\/localhost\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=5130"}],"version-history":[{"count":4,"href":"https:\/\/www.bdjl.de\/localhost\/index.php?rest_route=\/wp\/v2\/posts\/5130\/revisions"}],"predecessor-version":[{"id":5134,"href":"https:\/\/www.bdjl.de\/localhost\/index.php?rest_route=\/wp\/v2\/posts\/5130\/revisions\/5134"}],"wp:attachment":[{"href":"https:\/\/www.bdjl.de\/localhost\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=5130"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.bdjl.de\/localhost\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=5130"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.bdjl.de\/localhost\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=5130"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}