{"id":389,"date":"2009-04-06T13:19:07","date_gmt":"2009-04-06T12:19:07","guid":{"rendered":"http:\/\/www.bdjl.de\/localhost\/?p=389"},"modified":"2017-03-01T12:24:15","modified_gmt":"2017-03-01T11:24:15","slug":"online-ocr","status":"publish","type":"post","link":"https:\/\/www.bdjl.de\/localhost\/?p=389","title":{"rendered":"Online OCR"},"content":{"rendered":"<p>Politiklehrer brauchen Zeitungsausschnitte wie ein Fisch das Wasser. Ideal ist es, wenn diese noch mit Zeilennummern versehen und um unn\u00fctze Details gek\u00fcrzt werden k\u00f6nnen. Hierzu setze ich OCR Software ein &#8211; leider in einer virtuellen Maschine, weil Linux sich hier von seiner spr\u00f6den Seite zeigt (siehe: <a href=\"http:\/\/www.bdjl.de\/localhost\/?p=224\">OCR unter Linux<\/a>).<\/p>\n<p>Einen Scan des lesenswerten Artikels &#8218;<a title=\"SZ\" href=\"http:\/\/www.sueddeutsche.de\/politik\/847\/457507\/text\/print.html\" target=\"_blank\">Die Unsicherheitskrise<\/a>&#8218; von Stefan Kornelius aus der SZ vom 7.\/8.02.2009 (p. 4) nahm ich zur Vorlage, um die Qualit\u00e4t verschiedener Online-OCR-Dienste zu testen (mit freundlicher Genehmigung der SZ). Dabei wurde darauf verzichtet, die Dienste mit mehrspaltigem Layout und eingebetteten Bildern zu foltern. Daf\u00fcr war aber die Scanqualit\u00e4t an sich nicht gerade rosig.<\/p>\n<h3>tohoku<\/h3>\n<p><a href=\"http:\/\/ocr1.sc.isc.tohoku.ac.jp\/e1\/\" target=\"_blank\">http:\/\/ocr1.sc.isc.tohoku.ac.jp\/e1\/<\/a><\/p>\n<blockquote><p>Ein Staat geht hr die Sicherheit sei-<br \/>\nner B\u00fcrger drei Verpflichtungen ein: Er<br \/>\nsch\u00fctzt mit seinem Milit\u00e4r vor einem \u00e4u-<br \/>\nQeren Feind, er sor&amp; rr_t der Pol\u00faei f\u00fcr<br \/>\nSicherheitiInInneren, und erbetreibt ei-<br \/>\nne uIwichtige Wirtschaftspolitik, die vor<br \/>\n\u00f6konomischer Unsicherheit sch\u00fctzen<br \/>\nsoll. Erstaunlich nw, dass der Zusam-<br \/>\nmemang zwischen der \u00f6konomischen<br \/>\nKnse und der physisclien Sicherheit, der<br \/>\nUnverseMheit der B\u00fcrger von Riga bis<br \/>\nSh h . S_ p lobisSacramen<\/p><\/blockquote>\n<p>Ich behaupte, dass hier GOCR im Hintergrund l\u00e4uft &#8211; zumindest erinnert mich die schlechte Erkennungsleistung stark an dieses Programm. Ich habe es zwar nicht ausprobiert, aber die Nachbearbeitung d\u00fcrfte in diesem Fall fast so viel Zeit brauchen wie das Abtippen.<\/p>\n<h3>my.ocrnow<\/h3>\n<p><a href=\"https:\/\/my.ocrnow.com\" target=\"_blank\">https:\/\/my.ocrnow.com<\/a><\/p>\n<blockquote><p>Ein Staat geht f\u00fcr die Sicherheit sei\u00adner B\u00fcrger drei Verpflichtungen ein: Er sch\u00fctzt mit seinem Milit\u00e4r vor einem \u00e4u\u00ad\u00dferen Feind, er sorgt mit der Polizei f\u00fcr Sicherheit im Inneren, und er betreibt ei\u00adne umsichtige Wirtschaftspolitik, die vor \u00f6konomischer Unsicherheit sch\u00fctzen soll. Erstaunlich nur, dass der Zusam\u00admenhang zwischen der \u00f6konomischen Krise und der physischen Sicherheit, der Unversehrtheit der B\u00fcrger von Riga bis Shanghai, von S\u00e4o Paulo bis Sacramen-to<\/p><\/blockquote>\n<p>Keine schlechte Erkennungsleistung f\u00fcr einen kostenlosen Service, der lediglich eine Registrierung voraussetzt. Fortgeschrittene Funktionen sind kostenpflichtig und beinhalten das Zusenden des fertigen OCRs und die Einreichung per Mail.<\/p>\n<h3>iupr<\/h3>\n<p><a href=\"http:\/\/demo.iupr.org\/cgi-bin\/main.cgi\" target=\"_blank\">http:\/\/demo.iupr.org\/cgi-bin\/main.cgi<\/a><\/p>\n<blockquote><p>Ein Staat geht fiir die Sicherheit sei<\/p>\n<p>ner Burger drei Verpflichtungen ein: Er schiitzt mit seinem Militar vor einem auBeren Feind, er sorgt mit der Polizei fiir Sicherheit im Inneren, und er betreibt eine iunsichtige Wirtschaftspolitik, die vor okonomischer Unsicherheit schiitzen soll. Erstaunlich nur, dass der Zusammenhang zwischen der okonomischen Krise und der physischen Sicherheit, der Unversehrtheit der Burger von Riga bis Shanghai, von S50 Paulo bis Sacramen- &#8218; ` &#8218; &#8220; i&#8217;Dl\u20ac1H\u2018Is\u20ac\u00b0<\/p><\/blockquote>\n<p>Schon besser als tohoku &#8211; aber auch nur, weil die Fehler auf den ersten Blick zu sehen sind. An den besser erkennbaren Bildstellen (also nicht am Falz in der Zeitung) ist die Erkennungsleistung ordentlich.<\/p>\n<h3>ocrterminal<\/h3>\n<p><a href=\"http:\/\/www.ocrterminal.com\" target=\"_blank\">http:\/\/www.ocrterminal.com<\/a><\/p>\n<blockquote><p>Ein Staat geht fur die Sicherheit seiner Burger drei Verpflichtungen ein: Er schutzt mit seinem Militar vor einem au-Beren Feind, er sorgt mit der Polizei fur Sicherheit im Inneren, und er betreibt eine umsichtige Wirtschaftspolitik, die vor okonomischer Unsicherheit schutzen soil. Erstaunlich nur, dass der Zusam-menhang zwischen der okonomischen Krise und der physischen Sicherheit, der Unversehrtheit der Burger von Riga bis Shanghai, von Sao Paulo bis Sacramento<\/p><\/blockquote>\n<p>Saubere Erkennungsleistung auf dem Niveau von my.ocrnow. Die Seite bietet ihre Dienste kostenlos an, erlaubt aber &#8222;nur&#8220; 30 Seiten am Tag, was f\u00fcr den Alltag wohl v\u00f6llig ausreichend sein d\u00fcrfte.<\/p>\n<h3>Fazit<\/h3>\n<p>Die Ergebnisse waren recht eindeutig: my.ocrnow oder ocrterminal k\u00f6nnen weiter empfohlen werden. Standalone Anwendungen wie FineReader oder Omnipage schlagen diese Services aber um L\u00e4ngen in der Erkennungsleistung (bezogen auf den Gesamtartikel), sind schneller, arbeiten sich auch durch umfangreiche Dokumentenstapel und beschweren sich nicht, wenn sie mit mehrspaltigem Layout konfrontiert werden.<\/p>\n<p>F\u00fcr anspruchsvollere OCR-Jobs f\u00fchrt demnach kein Weg an Programmen wie FineReader und Omnipage vorbei, aber f\u00fcr den schnellen Scan zwischendurch und auch f\u00fcr kurze Artikel reicht inzwischen ein Online-OCR. Unter Linux sind diese bei unter einer Seite Textumfang wohl auch schneller zu nutzen als der Start der virtuellen Maschine an Zeit braucht.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Politiklehrer brauchen Zeitungsausschnitte wie ein Fisch das Wasser. Ideal ist es, wenn diese noch mit Zeilennummern versehen und um unn\u00fctze Details gek\u00fcrzt werden k\u00f6nnen. Hierzu setze ich OCR Software ein &#8211; leider in einer virtuellen Maschine, weil Linux sich hier von seiner spr\u00f6den Seite zeigt (siehe: OCR unter Linux). Einen Scan des lesenswerten Artikels &#8218;Die [&hellip;]<\/p>\n","protected":false},"author":2,"featured_media":0,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[6,5,12,7],"tags":[347],"class_list":["post-389","post","type-post","status-publish","format-standard","hentry","category-bildgrafik","category-linux","category-netzfunde","category-office","tag-ocr"],"_links":{"self":[{"href":"https:\/\/www.bdjl.de\/localhost\/index.php?rest_route=\/wp\/v2\/posts\/389","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.bdjl.de\/localhost\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.bdjl.de\/localhost\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.bdjl.de\/localhost\/index.php?rest_route=\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/www.bdjl.de\/localhost\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=389"}],"version-history":[{"count":20,"href":"https:\/\/www.bdjl.de\/localhost\/index.php?rest_route=\/wp\/v2\/posts\/389\/revisions"}],"predecessor-version":[{"id":5001,"href":"https:\/\/www.bdjl.de\/localhost\/index.php?rest_route=\/wp\/v2\/posts\/389\/revisions\/5001"}],"wp:attachment":[{"href":"https:\/\/www.bdjl.de\/localhost\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=389"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.bdjl.de\/localhost\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=389"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.bdjl.de\/localhost\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=389"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}