 |
| Hinweise |
Willkommen im TP-Hilfe-Forum!Dies ist ein Forum zu den Themen Photoshop, Dreamweaver, Flash, Selbständigkeit und mehr, in dem Du Hilfe, Anleitung oder eine Lösung zu Deinen Problemen erhältst. Aktuell bist Du in unseren Foren als Gast mit reinen Leserechten unterwegs. Wenn Du Dich registrierst, kannst Du eigene Themen verfassen, deine Frage stellen und privat mit anderen TPlern kommunizieren. Weitere Foren werden zugänglich, und Du wirst – falls gewünscht – per Mail über neue Beiträge informiert. Die Registrierung ist schnell und kostenlos. Sollten bei der Registrierung Fragen auftauchen, reicht ein Klick in unsere Hilfe - Häufig gestellte Fragen oder eine kurze Mitteilung an das Support-Team. Viel Spaß bei Traum-Projekt.com |
08.10.2007, 11:27
|
#1
|
|
TP-Newbie
Registriert seit: May 2006
|
Struktur in OCR bringen
Hi,
ich versuche gerade Adressen einzuscannen und sie mittels OCR erkennen zu lassen.
Die sehen halt aus wie Adressen so aussehen:
Max Mustermann
Musterstr. 17
12345 Musterstadt
Gibt es eine Möglichkeit der Software beizubringen davon 50 Stück zu lesen und vernünftig in eine Excel Tabelle zu exportieren?
Ich habe es mit Abby versucht, aber das Programm kann das wohl nicht.
Danke schon mal
Bye, Chris
|
|
|
08.10.2007, 17:17
|
#2
|
|
TP-Senior
Registriert seit: May 2007
Ort: Berlin
|
Hallo Chris,
wenn die Adressen tabellenförmig angeordnet sind, dann kann Abby das erkennen und das auch als Exceltabelle abspeichern.
Zählen wirst du Abby auch kaum beibringen können, Du kannst aber Deine Erkennungskästchen so aufziehen, dass genau 50 Adressen enthalten sind.
Speichere das Erkennungsergebnis im einfachen Textformat ab und öffne die Datei in einem Texteditor (notfalls in Notepad, wenn der das Zeilenende ersetzen kann - ohne Formatierung kannst Du auch Word verwenden - ein ordentlicher Texteditor ist aber besser).
Wenn alle Zeilenumbrüche ordentlich enthalten sind und jede Adresse durch eine Leerzeile von der nächsten getrennt ist, dann benutze die Suchen/Ersetzen-Funktion und ersetze alle Zeilenumbrüche durch einen Tabulator (oder ein anderes Trennzeichen (Semikolon oder Komma)).
Danach ersetzt Du in einem 2. Schritt 2 Tabulatoren durch einen Zeilenumbruch.
Ein bisschen problematisch ist, wenn die Adressen unterschiedlich viele Zeilen haben, in der Adresse darf keine Leerzeile sein, oder Du musst die Adressen durch mehr Leerzeilen trennen und den 2. Ersetzvorgang anpassen.
Tabulatorgetrennte Daten kann Excel problemlos einlesen.
SchneewittchenX
|
|
|
08.10.2007, 17:44
|
#3
|
|
TP-Newbie
Registriert seit: May 2006
|
Ja, das hatte ich schon probiert.
Hatte nur gehofft, es geht einfacher, automatischer, benutzerfreundlich usw.
|
|
|
08.10.2007, 18:36
|
#4
|
|
TP-Senior
Registriert seit: May 2007
Ort: Berlin
|
Hallo Chris,
woher soll abby denn wissen, das Du untereinander stehende Adressen als Tabelle angeordnet haben möchtest.
Es macht doch "weiter" nichts, als zu versuchen, Pixelansammlungen bestimmten Buchstaben oder Zeichen zuzuordnen. Es kann zwar Trennstriche vom Text unterscheiden und hat auch eine Rechtschreibprüfung, aber mehr geht doch wirklich nicht.
Sicher könnte man auch ein Skript schreiben, das die Textdatei automatisch konvertiert, aber sowie die Zahl der Adresszeilen und Leerzeilen nicht stimmt, kommt das Script ins Rudern oder Du musst eine so aufwändige Fehlerbehandlung einbauen, dass sich der Aufwand nur für sehr viele Adressen lohnt.
Einfacher wäre es, wenn es ein eindeutiges Trennzeichen zwischen den Adressen gibt (Vielleicht ein dicker Strich mit Stift und Lineal?, der in der Textdatei als ------- abgespeichert wird.)
Dann wird alles zwischen 2 Strichen als eine Adresse gespeichert.
Wenn aber die Zahl der Adresszeilen unterschiedlich ist, dann kann es in Excel immer noch zu Verschiebungen kommen.
SchneewittchenX
|
|
|
|
Aktive Benutzer in diesem Thema: 1 (Registrierte Benutzer: 0, Gäste: 1)
|
|
|
| Themen-Optionen |
Thema durchsuchen |
|
|
|
| Thema bewerten |
|
|
Forumregeln
|
Es ist dir nicht erlaubt, neue Themen zu verfassen.
Es ist dir nicht erlaubt, auf Beiträge zu antworten.
Es ist dir nicht erlaubt, Anhänge hochzuladen.
Es ist dir nicht erlaubt, deine Beiträge zu bearbeiten.
HTML-Code ist aus.
|
|
|
Alle Zeitangaben in WEZ +2. Es ist jetzt 07:46 Uhr.
|
 |