Archiv der Kategorie: Netzfunde

Online OCR

Politiklehrer brauchen Zeitungsausschnitte wie ein Fisch das Wasser. Ideal ist es, wenn diese noch mit Zeilennummern versehen und um unnütze Details gekürzt werden können. Hierzu setze ich OCR Software ein – leider in einer virtuellen Maschine, weil Linux sich hier von seiner spröden Seite zeigt (siehe: OCR unter Linux).

Einen Scan des lesenswerten Artikels ‚Die Unsicherheitskrise‚ von Stefan Kornelius aus der SZ vom 7./8.02.2009 (p. 4) nahm ich zur Vorlage, um die Qualität verschiedener Online-OCR-Dienste zu testen (mit freundlicher Genehmigung der SZ). Dabei wurde darauf verzichtet, die Dienste mit mehrspaltigem Layout und eingebetteten Bildern zu foltern. Dafür war aber die Scanqualität an sich nicht gerade rosig.

tohoku

http://ocr1.sc.isc.tohoku.ac.jp/e1/

Ein Staat geht hr die Sicherheit sei-
ner Bürger drei Verpflichtungen ein: Er
schützt mit seinem Militär vor einem äu-
Qeren Feind, er sor& rr_t der Polúei für
SicherheitiInInneren, und erbetreibt ei-
ne uIwichtige Wirtschaftspolitik, die vor
ökonomischer Unsicherheit schützen
soll. Erstaunlich nw, dass der Zusam-
memang zwischen der ökonomischen
Knse und der physisclien Sicherheit, der
UnverseMheit der Bürger von Riga bis
Sh h . S_ p lobisSacramen

Ich behaupte, dass hier GOCR im Hintergrund läuft – zumindest erinnert mich die schlechte Erkennungsleistung stark an dieses Programm. Ich habe es zwar nicht ausprobiert, aber die Nachbearbeitung dürfte in diesem Fall fast so viel Zeit brauchen wie das Abtippen.

my.ocrnow

https://my.ocrnow.com

Ein Staat geht für die Sicherheit sei­ner Bürger drei Verpflichtungen ein: Er schützt mit seinem Militär vor einem äu­ßeren Feind, er sorgt mit der Polizei für Sicherheit im Inneren, und er betreibt ei­ne umsichtige Wirtschaftspolitik, die vor ökonomischer Unsicherheit schützen soll. Erstaunlich nur, dass der Zusam­menhang zwischen der ökonomischen Krise und der physischen Sicherheit, der Unversehrtheit der Bürger von Riga bis Shanghai, von Säo Paulo bis Sacramen-to

Keine schlechte Erkennungsleistung für einen kostenlosen Service, der lediglich eine Registrierung voraussetzt. Fortgeschrittene Funktionen sind kostenpflichtig und beinhalten das Zusenden des fertigen OCRs und die Einreichung per Mail.

iupr

http://demo.iupr.org/cgi-bin/main.cgi

Ein Staat geht fiir die Sicherheit sei

ner Burger drei Verpflichtungen ein: Er schiitzt mit seinem Militar vor einem auBeren Feind, er sorgt mit der Polizei fiir Sicherheit im Inneren, und er betreibt eine iunsichtige Wirtschaftspolitik, die vor okonomischer Unsicherheit schiitzen soll. Erstaunlich nur, dass der Zusammenhang zwischen der okonomischen Krise und der physischen Sicherheit, der Unversehrtheit der Burger von Riga bis Shanghai, von S50 Paulo bis Sacramen- ‚ ` ‚ “ i’Dl€1H‘Is€°

Schon besser als tohoku – aber auch nur, weil die Fehler auf den ersten Blick zu sehen sind. An den besser erkennbaren Bildstellen (also nicht am Falz in der Zeitung) ist die Erkennungsleistung ordentlich.

ocrterminal

http://www.ocrterminal.com

Ein Staat geht fur die Sicherheit seiner Burger drei Verpflichtungen ein: Er schutzt mit seinem Militar vor einem au-Beren Feind, er sorgt mit der Polizei fur Sicherheit im Inneren, und er betreibt eine umsichtige Wirtschaftspolitik, die vor okonomischer Unsicherheit schutzen soil. Erstaunlich nur, dass der Zusam-menhang zwischen der okonomischen Krise und der physischen Sicherheit, der Unversehrtheit der Burger von Riga bis Shanghai, von Sao Paulo bis Sacramento

Saubere Erkennungsleistung auf dem Niveau von my.ocrnow. Die Seite bietet ihre Dienste kostenlos an, erlaubt aber „nur“ 30 Seiten am Tag, was für den Alltag wohl völlig ausreichend sein dürfte.

Fazit

Die Ergebnisse waren recht eindeutig: my.ocrnow oder ocrterminal können weiter empfohlen werden. Standalone Anwendungen wie FineReader oder Omnipage schlagen diese Services aber um Längen in der Erkennungsleistung (bezogen auf den Gesamtartikel), sind schneller, arbeiten sich auch durch umfangreiche Dokumentenstapel und beschweren sich nicht, wenn sie mit mehrspaltigem Layout konfrontiert werden.

Für anspruchsvollere OCR-Jobs führt demnach kein Weg an Programmen wie FineReader und Omnipage vorbei, aber für den schnellen Scan zwischendurch und auch für kurze Artikel reicht inzwischen ein Online-OCR. Unter Linux sind diese bei unter einer Seite Textumfang wohl auch schneller zu nutzen als der Start der virtuellen Maschine an Zeit braucht.

Zielgruppengoogle

Es gibt eine extra Suchseite von Google für Linux:

linxugoogle

http://www.google.de/linux

Selbstverständlich gibt es das Angebot von Google auch für viele weitere Betriebssysteme und Zielgruppen:

Hier fand ich dann noch die folgenden Seiten gelistet:

Aktuelle Entwicklungen sind im Google Watch Blog zu verfolgen.

So weit – so gut. Was es allerdings auch gibt, ist ein Mod von Google für Katholiken:

cathgoogle

http://www.catholicgoogle.com/

Diese Seite hat mit Google selbst nichts am Hut, verwendet lediglich die Engine von Google und filtert – so die Aussage der Betreiber – die Ergebnisse so, dass diese für Katholiken angemessen sind. Was auch immer das bedeuten mag ist durch Ausprobieren herauszufinden.

Wer die Seite nun nutzt, um z.B. nach „condom bible“ zu suchen wird auch schnell fündig. Schon der zweite Treffer ist ChristianCondoms:

Im Webshop der Seite sind dann keineswegs Kondome mit Loch (das wäre ja auch eine Möglichkeit gewesen), sondern Kondome mit Bibelsprüchen zu finden:

Before having sex, consider that „Anyone who looks at a woman lustfully has already committed adultery …“ (Matthew 5:28) We ask „So why just look?“ Quelle

Na dann. Darauf hat die Welt gewartet.

XMind

xmind-3

Der in einer OpenSource Version vorliegende MindMapper XMind hat es mir angetan. Zwar bringt das Programm in der freien Version einige Dinge nicht mit, die FreeMind hat (z.B. PDF Export), aber die Vielzahl der Optionen für die Darstellung der Map und die schicke Programmoberfläche hält mich gerade gefangen.

darstellungsformen

Nervig wird das Programm jedoch, wenn man Maps auf share.xmind.net hochladen will: Ein Updatedialog versucht einem dauernd die Pro Version unterzuschieben.

Wirklich überzeugend finde ich die Portable Version: ZIP herunterladen und auf dem USB Stick auspacken – und schon steht in vier Unterverzeichnissen XMind für Linux 32, Linux 64, Windows und Mac OS X zur Verfügung. Ebenfalls nicht schlecht ist die einfache Möglichkeit in XMind eigene Bilder als Icons zu nutzen und diese thematisch zu gruppieren.

Volltreffer

Die lesenswerte Bachelorarbeit von Tamara Specht landet zumindest bei der Definition des typischen, bloggenden Lehrers was mich angeht einen Volltreffer:

Der typische bloggende Lehrer im deutschsprachigen Raum ist männlich, 40 Jahre alt und unterrichtet an einem Gymnasium. Darüber hinaus ist er sehr medienaffin, übernimmt an seiner Schule häufig eine Sonderrolle in Bezug auf Medien und nutzt sehr rege das Internet, auch zur Unterrichtsvorbereitung und durchaus mal im Unterricht.

Na dann.

Quelle: Uni Augsburg via D21

VMware und die Tastatur

Nach der Installation von VMWare Workstation auf meinem Laptop unter Intrepid Ibex wollten die VMs nicht erkennen, welches Tastaturlayout ich eingestellt habe. Alle Versuche, dies über die xorg.conf oder über Gnome in [System] [Einstellungen] [Tastatur] zu richten, schlugen fehl. Nach einiger Zeit kam ich darauf, dass ich auf dem Laptop die [Fn] Taste gedrückt halten muss und die „Nummerntastatur“ verwenden muss, um den Cursor zu steuern. Zeichen wie € und @ konnte ich aber jedesmal von Neuem suchen, weil ich mir einfach nicht merken konnte, wo nun welches Zeichen liegt.

Am Anfang brachte auch Google nicht viel – ich verwendete immer die falschen Suchbegriffe. Erst eine Suche in den Foren von ubuntuusers.de brachte nun den gewünschten Hack zum Vorschein. VMware hat so seine Probleme bei der Interpretation von Tasten. Allerdings lässt sich dies auf sehr einfache Weise richten (wenn man Glück hat). Dieser Blogeintrag war für mich die Lösung, die ich hier mal auf Deutsch übersetzt ablege.

Offensichtlich handelt es sich um ein Problem mit dem evdev input driver. Dank des Posts von „doranikov“, ist aber die Lösung einfach: Teile VMWare mit, was Deine Tastatur wirklich tut! Lege hierzu die Datei ~/.vmware/config an:

xkeymap.keycode.108 = 0x138 # Alt_R
xkeymap.keycode.106 = 0x135 # KP_Divide
xkeymap.keycode.104 = 0x11c # KP_Enter
xkeymap.keycode.111 = 0x148 # Up
xkeymap.keycode.116 = 0x150 # Down
xkeymap.keycode.113 = 0x14b # Left
xkeymap.keycode.114 = 0x14d # Right
xkeymap.keycode.105 = 0x11d # Control_R
xkeymap.keycode.118 = 0x152 # Insert
xkeymap.keycode.119 = 0x153 # Delete
xkeymap.keycode.110 = 0x147 # Home
xkeymap.keycode.115 = 0x14f # End
xkeymap.keycode.112 = 0x149 # Prior
xkeymap.keycode.117 = 0x151 # Next
xkeymap.keycode.78 = 0x46 # Scroll_Lock
xkeymap.keycode.127 = 0x100 # Pause
xkeymap.keycode.133 = 0x15b # Meta_L
xkeymap.keycode.134 = 0x15c # Meta_R
xkeymap.keycode.135 = 0x15d # Menudone!

Die Datei ~/.vmware/config existierte bei mir noch nicht – was aber nichts weiter ausmacht: Einfach neu anlegen.

Sollte dies nicht den erwünschten Erfolg bringen, dann führt der oben schon verlinkte Artikel weiter aus, dass mit Hilfe von xev die Keycodes gefunden werden können:

Um die für Deine Tastatur passenden keycodes in Erfahrung zu bringen, startest Du xev in einem Terminal. Setze Deinen Cursor in das xev Fenster und drücke dann eine Taste auf Deiner Tastatur (im folgenden Fall die rechte STRG Taste).

Im Terminal sind nun Ausgaben wie die Folgende zu sehen:

KeyPress event, serial 33, synthetic NO, window 0x3200001,
root 0x1cb, subw 0x0, time 749698, (167,181), root:(1793,706),
state 0x10, keycode 105 (keysym 0xffe4, Control_R), same_screen YES,
XLookupString gives 0 bytes:
XmbLookupString gives 0 bytes:
XFilterEvent returns: False

KeyRelease event, serial 33, synthetic NO, window 0x3200001,
root 0x1cb, subw 0x0, time 749810, (167,181), root:(1793,706),
state 0x14, keycode 105 (keysym 0xffe4, Control_R), same_screen YES,
XLookupString gives 0 bytes:
XFilterEvent returns: False

Entscheidend sind die Werte nach keycode – im Schnipsel oben fett. Für die Taste [Strg] -Rechts ist das in diesem Fall 105. Verändere nun in der ~/.vmware/config den xkeymap.keycode. auf 105:

xkeymap.keycode.105 = 0x11d # Control_R

0x11d ist der scan code.

… und es tut tatsächlich, auch wenn es im dümmsten Fall eine ganze Weile dauert, die Anpassungen vorzunehmen.

Lingoes

Jochen Lüders schreibt in seinem Blog JochenEnglish über Lingoes – eine Software, die zumindest auf Windowsrechnern die Installation von vielen Wörterbüchern für Umme erlaubt (Freibier – nicht Freiheit). Darunter sind auch Klassiker wie Merriam-Webster, LDCE, CALD, Roget’s Thesaurus oder das AHD. Warum auch immer – schön, dass diese kostenlos erhältlich sind.

lingoes

Ich hab mir diese nun für die Schule auch geholt (und damit die Anschaffungswünsche des Fachbereichs etwas konterkariert) – auf Linux scheinen diese auch mit Wine nicht laufen zu wollen.

Dafür gibt es für Linux StarDict, das zumindest mal viele der wichtigsten Wörterbücher mitbringt, leider aber die Wörterbücher von lingoes nicht importieren kann. Das Paket ist Teil von Ubuntu:

sudo apt-get install stardict

Auf der Webseite von StarDict gibt es viele Wörterbücher zum Download, die nicht über den Paketmanager selbst erhältlich sind – als Tarball.