Ergebnis 1 bis 2 von 2

Thema: Text extrahieren mit Perl

  1. #1
    TP-Insider Avatar von Wolfgang G
    Registriert seit
    Aug 2003
    Ort
    Bonn-Beuel
    Beiträge
    708

    Text extrahieren mit Perl

    Hallo zusammen,

    mein heutiges Problem besteht darin, dass ich aus einer HTML-Datei Texte extrahieren muss. Die Datei sieht ungefähr so aus:

    HTML-Code:
    <h2>Dies ist eine einzeilige Überschrift</h2>
    <p>Dies ist ein 
    mehrzeiliger Text</p>
    <h2>Dann kommt eine
    mehrzeilige Überschrift</h2>
    usw. usf.
    Ziel ist jetzt, alle Texte zwischen den <h2>-Tags zu extrahieren und in eine separate Datei zu schreiben. So weit, so trivial.

    Da ich von Perl so gut wie keine Ahnung habe, habe ich das Netz bemüht und jede Menge Tips gefunden, wie man einzeilige Strings verarbeiten kann. Also via "while (<FILEHANDLE>)" oder mit Hilfe eines "@Arrays". Da meine Quelldatei aber jede Menge mehrzeilige Überschriften beinhaltet, hilft mir das nicht weiter.

    Ich bin also zu dem Schluss gekommen, dass ich die gesamte (zum Glück recht kleine) Textdatei in eine Variable packen und sie dann irgendwie durchsuchen muss.

    Code:
      
        if ( open(IN, "< $htmlInFile/$Datei") ){
        $filedata =    join('', <IN>)
       }
            close IN;
            
            if ($filedata =~ m/<h2>(.+?)<\/h2>/ism) {
              $temp = $1;
              $temp =~ s/\n/ /g; #Zeilenumbruch in der Überschrift entfernen soweit vorhanden
                trim ($temp);
                $result .= $temp."\n"; #Text speichern mit Zeilenumbruch am Ende
            }
    
    
    print LOG $result;
    Dieser Code verarbeitet zwar tatsächlich auch mehrzeilige Überschriften, liefert aber logischerweise nur den ersten Treffer.

    Die große Frage ist jetzt: Wie kann ich den Text in $filedata nach allen vorkommenden Überschriften durchsuchen?

    Grüße
    Wolfgang


  2. #2
    TP-Insider Avatar von Wolfgang G
    Registriert seit
    Aug 2003
    Ort
    Bonn-Beuel
    Beiträge
    708
    Hat sich erledigt. split war das Zauberwort.


Aktive Benutzer

Aktive Benutzer

Aktive Benutzer in diesem Thema: 1 (Registrierte Benutzer: 0, Gäste: 1)

Ähnliche Themen

  1. Prob bei Extrahieren PS 6
    Von rednug im Forum Photoshop
    Antworten: 13
    Letzter Beitrag: 22.07.2008, 10:57
  2. Aus *.swf File Text + Anordnung extrahieren / in PDF umwandeln?
    Von unclefu86 im Forum Flash & Multimedia
    Antworten: 4
    Letzter Beitrag: 12.12.2005, 09:58
  3. CAB Dateien Extrahieren?
    Von Dene im Forum Einfach so ...
    Antworten: 5
    Letzter Beitrag: 26.06.2004, 20:12
  4. audio aus avi extrahieren
    Von chrissie im Forum Video & Fotografie
    Antworten: 2
    Letzter Beitrag: 21.09.2003, 16:34
  5. Farbe extrahieren
    Von D-Nero im Forum Photoshop
    Antworten: 3
    Letzter Beitrag: 18.02.2002, 07:27

Aktive Benutzer

Aktive Benutzer

Aktive Benutzer in diesem Thema: 1 (Registrierte Benutzer: 0, Gäste: 1)

     

Berechtigungen

  • Neue Themen erstellen: Nein
  • Themen beantworten: Nein
  • Anhänge hochladen: Nein
  • Beiträge bearbeiten: Nein
  •  

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51