Eines der Dinge, die mich oft frustriert haben, ist die Unfähigkeit, einfach Text aus Bildern und bestimmten PDF-Dateien zu kopieren (z. B. solche, die aus gescannten Dokumenten erstellt wurden). Glücklicherweise wurden im Laufe der Zeit Softwarelösungen entwickelt, um dieses Problem zu beheben. Dies spart erheblich Zeit, die sonst durch manuelles Kopieren und erneutes Eingeben des Texts aufgewendet worden wäre. Im heutigen Tipp gehe ich auf ein kostenloses Softwaretool namens Capture2Text ein, das einen optischen Zeichenerkennungsalgorithmus (Optical Character Recognition, OCR) verwendet, mit dem Sie Text aus Bild- und PDF-Dateien erfassen können.
Installation und Einrichtung
Besuchen Sie zunächst die SourceForge-Seite des Projekts und laden Sie die neueste Version von Capture2Text herunter. Die Software wird als Zip-Archiv geliefert und enthält derzeit kein spezielles Installationsprogramm. Entpacken Sie das heruntergeladene Archiv und starten Sie die Datei Capture2Text.exe. Dadurch wird die Software gestartet und ein Symbol in der Taskleiste abgelegt:
Zunächst müssen Sie die Einstellungen der Software festlegen, insbesondere welche Tastenkombinationen (oder Verknüpfungen) zum Starten und Beenden der Aufzeichnung verwendet werden sollen:
In meinem Fall habe ich mich dafür entschieden, die Erfassung mit den Tasten „Windows + q“ zu starten und mit der Eingabetaste zu stoppen. Sie können diese Optionen so anpassen, dass sie für Sie am besten geeignet sind. Beachten Sie, dass die Windows + -Taste häufig bereits für die Bildschirmaufnahme verwendet wird (z. B. von Programmen wie Microsoft One Note).
Auf der nächsten Registerkarte können OCR-Optionen konfiguriert werden, einschließlich der Eingabesprache (derzeit werden sieben Sprachen unterstützt) und der Frage, ob die OCR-Vorverarbeitung zur Verbesserung der Genauigkeit verwendet werden soll (dringend empfohlen). Schließlich können Sie auf der Registerkarte Ausgabe unter anderem auswählen, ob der erfasste Text nur in der Zwischenablage gespeichert oder ein separates Popup-Fenster geöffnet werden soll.
Verwenden der Software
Sobald die Software installiert und konfiguriert ist, können Sie sie über die Tastenkombination zum Starten der Erfassung verwenden. Wählen Sie mit der Maus den Bereich auf dem Bild aus, der den Text enthält, den Sie erfassen möchten. Um die Aufnahme zu stoppen, drücken Sie einfach den Hotkey, den Sie zum Stoppen der Aufnahme ausgewählt haben. Der Text wird dann entweder in die Zwischenablage, in ein Popup-Ausgabefenster oder in beides kopiert. Ein Beispiel ist unten zu sehen.
Durch das schnelle Testen des Tools mit Bildern habe ich festgestellt, dass seine Genauigkeit angemessen ist. Es ist offensichtlich, dass Tools wie dieses und OCR im Allgemeinen Einschränkungen unterliegen. Beispielsweise funktioniert stark geänderter Text (sehr kursiv, kursiv oder modern) möglicherweise nicht so gut und manchmal überhaupt nicht. In einigen Fällen kann es auch hilfreich sein, die Abmessungen des Aufnahmefelds geringfügig anzupassen oder mit dem Zoom auf das Bild selbst zu spielen, um ein genaueres Ergebnis zu erzielen.
Beim Erfassen von Text aus gescannten PDF-Dokumenten ist die Genauigkeit in Ordnung. Im Allgemeinen sind noch einige letzte Änderungen an der erfassten Ausgabe erforderlich (abhängig von der Qualität des ersten Scans). Außerdem ist mir aufgefallen, dass die Verarbeitung der Software möglicherweise einige Sekunden länger dauert, insbesondere wenn Sie aufgefordert werden, große Textmengen zu konvertieren.
Alles in allem finde ich, dass das Tool einen guten Job macht, zumal es frei verfügbar ist - ich ermutige Sie, es auszuprobieren.
Nachtrag 16.11.2015:
Als weitere Option können diejenigen, die über ein Google-Konto verfügen, die OCR-Funktionen von Google nutzen, indem sie eine Datei auf Ihr Google Drive hochladen (weitere Informationen finden Sie hier). Darüber hinaus steht Google Chrome-Nutzern ein OCR-Plugin namens Copyfish zur Verfügung, das Sie möglicherweise ebenfalls ausprobieren möchten.
