3.1. Die reinen Texte
Abhängig von der typographischen Form, in der die Texte vorliegen, wird entweder ein Scanner zur Erfassung benutzt oder eine manuelle Eingabe durchgeführt. Die Umwandlung der mit einem Scanner eingelesenen Texte geschieht mit Hilfe des Programms "Omnipage Professional".
Seit kurzem werden auch im Internet eine ganze Reihe von Texten des Autors Karl May angeboten. Diese Texte sind ebenfalls in die Abteilung der reinen ASCII-Texte des Karl-May-Korpus übernommen worden.
Nach der Übernahme wird der betreffende Text nochmals gelesen und dabei nötigenfalls korrigiert. Danach liegt er in Form einer Datei im ASCII-Code vor.
3.1.1. Die Kodierung der Texte
ASCII 48 - 57 Ziffern 0 bis 9 ASCII 65 - 90 große Buchstaben A bis Z ASCII 97 - 122 kleine Buchstaben a bis z ASCII 10 Neue Zeile ASCII 13 Return ASCII 32 Zwischenraum ASCII 39 ' ASCII 40 ( ASCII 41 ) ASCII 44 , ASCII 45 - ASCII 46 . ASCII 58 : ASCII 59 ; ASCII 60 < ASCII 62 > ASCII 63 ? ASCII 96 ` ASCII 124 | ASCII 129 ü ASCII 130 é ASCII 131 â ASCII 132 ä ASCII 133 à ASCII 134 å ASCII 135 ç ASCII 136 ê ASCII 137 ë ASCII 138 è ASCII 139 ï ASCII 140 î ASCII 141 ì ASCII 142 ä ASCII 143 Å ASCII 144 É ASCII 145 æ ASCII 146 Æ ASCII 147 ô ASCII 148 ö ASCII 149 ò ASCII 150 û ASCII 151 ù ASCII 152 ÿ ASCII 153 ö ASCII 154 Ü ASCII 160 á ASCII 161 í ASCII 162 ó ASCII 163 ú ASCII 164 ñ ASCII 165 Ñ ASCII 225 ß ASCII 249 Abkürzungspunkt ASCII 254 NIL (*) ASCII 255 "harter" Zwischenraum (**)Anmerkungen:
3.1.2. Der Zeitaufwand
Erfahrungswerte für den Zeitaufwand sind:
3.1.4. Stand der Untersuchung
Bisher wurden folgende Werke von Karl May und einigen anderen zeitgenössischen Autoren als ASCII-Texte in das Karl-May-Korpus aufgenommen und anschließend markiert:
Titel des Werks | Kurztitel | Sigel |
---|---|---|
Durch die Wüste (HKA) | Wüste | GR01 |
Durchs wilde Kurdistan (HKA) | Kurdistan | GR02 |
Von Bagdad nach Stambul (HKA) | Bagdad | GR03 |
In den Schluchten des Balkan (HKA) | Balkan | GR04 |
Durch das Land der Skipetaren (HKA) | Skipetar | GR05 |
Der Schut (HKA) | Schut | GR06 |
Winnetou Bd. 1 (HKA) | Winnetou I | GR07 |
Am Jenseits (Pawlak) | Jenseits | GR25 |
Im Reiche des silbernen Löwen Band 3 | Slöwe3 | GR28 |
Im Reiche des silbernen Löwen Band 4 | Slöwe4 | GR29 |
Waldröschen Teil 1 (Seiten 3-446) | Waldrose 1 | - |
Waldröschen Teil 3 (Seiten 897-1291) | Waldrose 3 | - |
Der Nachsommer v. A.Stifter | Nachsommer | - |
Als ASCII-Texte sind erfasst und korrigiert, aber noch nicht markiert:
Titel des Werks | Kurztitel |
---|---|
Scepter und Hammer(Reprint) | Scepter |
Der Schatz im Silbersee (Reprint) | Silber |
Weihnacht (HKA) | Weihnacht |
Ardistan und Dschinnistan (Reprint) | Mir |
Der Augenblick des Glücks v. Hackländer | Augenblick |
El Sendador(Reprint) (Am Rio de la Plata, In den Kordilleren) | Sendador |
Die Sklavenkarawane (HKA) | Sklaven |
Der verlorene Sohn | Sohn |
Erläuterung:
(HKA) = Historisch-kritische Ausgabe der Werke Karl May's, herausgegeben von Wiedenroth und Wollschläger
(Pawlak)= Karl-May-Ausgabe des Verlags Pawlak
Werk | Seiten- zahl | Token | Satzz. |
---|---|---|---|
Wüste | 543 | 171785 | 26594 |
Kurdistan | 551 | 177117 | 28142 |
Bagdad | 547 | 184343 | 28106 |
Balkan | 520 | 170393 | 27143 |
Skipetar | 510 | 170331 | 26168 |
Schut | 473 | 162667 | 24636 |
Winnetou I | 540 | 187738 | 28791 |
Jenseits | 318 | 177560 | 26610 |
Slöwe3 | 636 | 188232 | 29274 |
Slöwe4 | 644 | 198092 | 30278 |
Waldrose 1 | 446 | 215518 | 35204 |
Waldrose 3 | 395 | 204806 | 31306 |
Nachsommer | 679 | 282649 | 35243 |
Erläuterung:
"Token"= Gesamtzahl aller Wortformen incl. Satzzeichen
"Satzz.= Satzzeichen
3.2. Die markierten Texte
3.2.1. Die Markierungen (Die Tags)
Zu jeder Wortform des Textes, der markiert werden soll, werden als Markierungen (Tags) hinzugefügt:
3.2.1.1. Die Wortklasse
Für den hier vorliegenden Zweck - den Aufbau eines markierten Korpus - ist ein Satz von 43 Wortklassen aufgestellt worden, der durchgängig angewendet wird. Bei der Zusammenstellung dieser Wortklasse wurde im wesentlichen von den Arbeiten von Hans Eggers(1) ausgegangen.
Liste der Wortklassen:
SUB | Substantiv |
NAM | Name |
ITJ | Interjektion |
ADJ | Adjektiv |
ADJP | Adjektiv, prädikativ gebraucht |
ADJS | Adjektiv, substantivisch gebraucht |
ADJV | Adjektiv, adverbiell gebraucht |
ADV | Adverb |
INF | Infinitiv |
IZU | Infinitiv mit "zu" |
IZUA | Infinitiv mit "zu", adjektivisch gebraucht (Gerundivform) |
IZUS | Infinitiv mit "zu", substantivisch gebraucht |
SBI | substantivierter Infinitiv |
FIV | finite Verbform |
PT1 | Partizip-1 |
PT1A | Partizip-1, adjektivisch gebraucht |
PT1P | Partizip-1, prädikativ gebraucht |
PT1S | Partizip-1, substantivisch gebraucht |
PT1V | Partizip-1, adverbiell gebraucht |
PT2 | Partizip-2 |
PT2A | Partizip-2, adjektivisch gebraucht |
PT2S | Partizip-2, substantivisch gebraucht |
PT2V | Partizip-2, adverbiell gebraucht |
VZS | Verbzusatz |
DEM | Demonstrativpronomen, Artikel |
REL | Relativpronomen |
FRA | Fragewort |
FRAN | Fragewort, einen Nebensatz einleitend |
PER | Personalpronomen |
POS | Possessivpronomen |
IND | Indefinitpronomen |
NUM | Zahlwort |
NKO | nebenordnende Konjunktion |
UKO | unterordnende Konjunktion |
UOA | um - ohne - anstatt (mit "zu") |
ZU | "zu" + Infinitiv |
PRP | Präposition, Postposition |
DSS | "daß" |
OB | "ob" |
UEB | zu übergehender Textanteil |
FRMD | fremdsprachlicher Textanteil |
SATZ | Satzzeichen (ohne Komma) |
KOMA | Komma |
Fußnote:
(1) Eggers, Hans und Mitarbeiter: Elektronische Syntaxanalyse der deutschen Gegenwartssprache, Tübingen, 1969
Eggers, Hans und andere: SALEM - Ein Verfahren zur automatischen Lemmatisierung deutscher Texte, Tübingen, 1980
3.2.1.2. Das Lemma
Als weitere Markierung wird jeder Wortform des in Bearbeitung befindlichen
Textes die entsprechende Grundform - das Lemma - beigegeben. Das ist
- bei Substantiven: | Der Nominativ des Singular |
- bei Adjektiven: | Die Normalform des Adjektivs (im Positiv) |
- bei Verben: | Der Infinitiv (Präsenz Aktiv) |
- bei Pronomina: | Der Nominativ Singular - ggf. des Maskulinums |
Einige Ausnahmen sind anzumerken:
3.2.1.3. Die Lemma-Wortklasse
Für die Klassifizierung der Lemmata wurden acht Lemmawortklassen eingeführt:
Lemmaklasse | zugehörige Wortklassen |
---|---|
S = Substantiv | SUB |
A = Adjektiv | ADJ ADJP ADJS ADJV |
V = Verb | INF IZU IZUA IZUS SBI FIV PT1 PT1A PT1P PT1S PT1V PT2 PT2A PT2S PT2V |
P = Partikel | ADV NUM ITJ REL DEM FRA FRAN PER POS IND NKO UKO UOA ZU PRP DSS OB |
N = Name | NAM |
F = Fremdsprachlicher Textanteil | FRMD |
U = zu übergehender Textanteil | VZS UEB |
"NIL" = Satzzeichen | SATZ KOMA |
3.2.1.4. Die Positionsangabe
Bei der Vertikalisierung des Textes wird jeder Wortform eine Angabe über ihre Position im Text beigegeben, damit gegebenenfalls diese Wortform im Referenztext wieder aufgefunden werden kann.
Die Positionsangabe enthält dabei
Nach Beendigung der Markierung ist also jede Wortform des markierten Textes mit 4 "Tags" versehen.
Einige Beispiele dazu:
Tag 1 | Tag 2 | Tag 3 | Tag 4 | ||||
---|---|---|---|---|---|---|---|
Wortform | Wortklasse | Grundform | Lemmaklasse | Seite | Absatz | Wort | Lfd.Nr. |
Todesritt | SUB | todesritt | S | 9 | 2 | 2 | 25 |
willst | FIV | wollen | V | 9 | 3 | 12 | 96 |
verächtlicher | ADJ | verächtlich | A | 9 | 3 | 16 | 129 |
3.2.1.5. Das interne Speicherformat
Die markierten Texte werden in einem festen Format gespeichert. Für eine Wortform mit ihren Markierungen sind einundachtzig Bytes vorgesehen. Diese einundachtzig Bytes werden wie folgt belegt:
Belegung: | Anzahl Bytes |
---|---|
Wortform | 25 |
Zwischenraum | 1 |
Wortklasse | 4 |
Zwischenraum | 1 |
Lemma | 25 |
Zwischenraum | 1 |
Lemmaklasse | 3 |
Zwischenraum | 1 |
Seitennummer | 4 |
Absatznummer | 3 |
Wortnummer | 4 |
Lfd. Zeichennummer | 7 |
"ASCII-13" | 1 |
"ASCII-10" | 1 |
Dieses feste Format - und nicht ein SGML-Format - wurde bewußt gewählt, um die nachfolgenden computergestützten Untersuchungen sowohl programmiertechnisch als auch hardwaremäßig erheblich zu erleichtern.
Es ist jedoch bei Bedarf ohne großen Aufwand möglich, die Texte aus diesem festen Format in ein SGML-Format zu konvertieren.
Anmerkung des Verfassers:
Mittlerweile wurde es notwendig, das Karl-May-Korpus in ein SGML-Format zu konvertieren. Die "Document Type Definition (DTD)" dazu lautet:
<!DOCTYPE kmk.dtd [ <!ELEMENT kmk - - (s-corp+)> <!ELEMENT s-corp - - (head, body)> <!ELEMENT head - - (author, title, part)> <!ELEMENT author - - (#PCDATA)> <!ELEMENT title - - (#PCDATA)> <!ELEMENT part - - (#PCDATA)> <!ELEMENT body - - (w+)> <!ELEMENT w - O (#PCDATA)> <!ATTLIST w lemma #PCDATA #REQUIRED wc #PCDATA #REQUIRED lc #PCDATA #REQUIRED > ]>
Als Beispiel wird ein Textstück von Anfang und Ende des Bandes "Kurdistan" hier angeführt:
<kmk.dtd> <kmk> <s-corp> <head> <author>Karl May</author> <title>Durchs wilde Kurdistan</title> <part></part> </head> <body> <W wc="ADJ" lemma="erste" lc="A">ERSTES</W> <W wc="SUB" lemma="kapitel" lc="S">KAPITEL</W> <W wc="SATZ" lemma="" lc="">.</W> <W wc="DEM" lemma="der/die/das" lc="P">Der</W> <W wc="SUB" lemma="opfertod" lc="S">Opfertod</W> <W wc="DEM" lemma="der/die/das" lc="P">des</W> <W wc="ADJS" lemma="heilig" lc="A">Heiligen</W> <W wc="SATZ" lemma="" lc="">.</W> <W wc="PER" lemma="wir" lc="P">Wir</W> <W wc="FIV" lemma="zurückkehren" lc="V">kehrten</W> <W wc="PRP" lemma="von" lc="P">von</W> <W wc="DEM" lemma="der/die/das" lc="P">dem</W> <W wc="SUB" lemma="besuch" lc="S">Besuche</W> <W wc="DEM" lemma="der/die/das" lc="P">des</W> <W wc="SUB" lemma="häuptling" lc="S">Häuptlings</W> <W wc="DEM" lemma="der/die/das" lc="P">der</W> <W wc="SUB" lemma="badinankurde" lc="S">Badinankurden</W> <W wc="VZS" lemma="zurück" lc="U">zurück</W> <W wc="SATZ" lemma="" lc="">.</W> . . . . . <W wc="ADV" lemma="freilich" lc="P">freilich</W> <W wc="FIV" lemma="können" lc="V">konnte</W> <W wc="PER" lemma="ich" lc="P">ich</W> <W wc="ADV" lemma="nicht" lc="P">nicht</W> <W wc="INF" lemma="erwarten" lc="V">erwarten</W> <W wc="KOMA" lemma="" lc="">,</W> <W wc="DSS" lemma="daß" lc="P">daß</W> <W wc="DEM" lemma="der/die/das" lc="P">der</W> <W wc="SUB" lemma="inhalt" lc="S">Inhalt</W> <W wc="DEM" lemma="ein" lc="P">ein</W> <W wc="ADV" lemma="so" lc="P">so</W> <W wc="PT1A" lemma="überraschen" lc="V">überraschender</W> <W wc="FIV" lemma="sein" lc="V">sei</W> <W wc="SATZ" lemma="" lc="">.</W> </body> </s-corp> </kmk> </kmk.dtd>
3.2.2. Der Vorgang der Markierung (Das Tagging)
Um die Durchführung der komplexen Aufgabe der linguistischen Markierung eines Textes auf einem PC mit seinen vorgegebenen technischen Beschränkungen zu ermöglichen, erfolgt die Markierung - das "Tagging" - in mehreren aufeinander folgenden Schritten, die genau in dieser Reihenfolge ausgeführt werden:
Der erste dieser Schritte erfolgt automatisch, d.h. ohne Eingriffsmöglichkeit des Bearbeiters. Die anderen Schritte werden im Dialog zwischen dem jeweiligen Markierungsprogramm und dem Bearbeiter durchgeführt. Das Markierungsprogramm erstellt einen Vorschlag zur Markierung. Der Bearbeiter hat die Möglichkeit, diesen Vorschlag zu akzeptieren oder ganz bzw. in Teilen abzuändern.
In diesen Arbeitsschritten wird eine Reihe von Lexika benutzt, die jeweils auf empirischer Grundlage aufgrund von Wortschatzuntersuchungen von Texten des Autors Karl May erstellt worden sind. Diese Lexika sind gut nutzbar bei der Markierung des Karl-May-Korpus, erheben aber keinen Anspruch auf Allgemeingültigkeit.
3.2.2.1. Markierung eindeutiger Wortformen
In der deutschen Sprache gibt es Wortformen, die in Bezug auf ihre Wortklasse und ihre Grundform eindeutig bestimmbar sind. Darunter befinden sich besonders viele Partikel, die recht häufig auftreten. Diese Wortformen kann man anhand eines "Lexikons eindeutiger Wortformen" automatisch markieren. Hierzu zählen auch die Satzzeichen.
Aus Gründen der Zweckmäßigkeit ist dieses "Lexikon eindeutiger Wortformen" in mehrere Teile zerlegt, von denen jeder eine - oder mehrere verwandte - Wortklassen enthält. Die Teile dieses Lexikons sind im Anhang 1 zu finden.
In diesem Bearbeitungsschritt werden durchschnittlich 52,2 Prozent des Textes markiert.
3.2.2.2. Ein Lexikon markierter Wortformen
Aus allen Texten, die schon komplett markiert sind, ist ein Wortformen-Lexikon zusammengestellt worden. Dieses Lexikon ist nach Wortformen sortiert und enthält neben den Markierungen "Wortklasse", "Grundform" und "Lemmawortklasse" eine Angabe über die Häufigkeit des bisherigen Vorkommens.
Soll eine Wortform markiert werden, so zeigt das Markierungsprogramm alle Wortformen aus dem Lexikon - mit ihren "Tags" - , die mit der gesuchten Wortform identisch sind, und zwar werden diese Vorschläge in der Reihenfolge absteigender Häufigkeit angezeigt. Der Bearbeiter kann unter Berücksichtigung des ebenfalls angezeigten Kontextes einen dieser Vorschläge auswählen und akzeptieren oder die Bearbeitung dieser Wortform zurückstellen.
In diesem zweiten Bearbeitungsschritt der Markierung werden durchschnittlich weitere 44,5 Prozent des Textes markiert. Damit sind im ersten und zweiten Schritt der Markierung insgesamt 96,7 Prozent aller Wortformen bearbeitet.
3.2.2.3. Analyse von Substantiv-Suffixen
In der deutschen Sprache gibt es eine Anzahl von Suffixen, mit deren Hilfe
Substantive gebildet werden können. In diesem dritten Bearbeitungsschritt werden bisher noch unmarkierte Wortformen auf das Vorhandensein solcher Suffixe abgetestet. Wird ein solches Suffix gefunden, so wird aus der Wortform die Grundform gefunden, indem das Suffix der Wortform durch das entsprechende Suffix seiner Grundform ersetzt wird. Das Analyseergebnis wird dem Bearbeiter als Vorschlag vorgestellt, der akzeptiert oder zurückgewiesen werden kann.
Anhang 2 zeigt die Liste der benutzten Suffixe, die zugehörige Wortklasse, das Suffix der zugehörigen Grundform und die entsprechende Lemmaklasse.
3.2.2.4. Morphologische Analyse von Verben
Zur morphologischen Analyse von Verbformen sind mehrere Lexika angelegt worden:
Das Markierungsverfahren besteht darin, daß von der zu klassifizierenden Wortform eventuell vorhandene Präfixe und Suffixe - auch vorkommenden Falles das Präfix/Infix des Partizips II "(-)ge-" - abgeschnitten werden und der verbleibende Rest in den Lexika der Verbstämme aufgesucht wird.
Wird der Rest als Verbstamm gefunden, so wird er mit einem eventuellen Präfix und der Infinitiv-Endung zur zugehörigen Grundform ergänzt. Das Ergebnis dieser Analyse wird dem Bearbeiter als Vorschlag vorgestellt, der akzeptiert oder zurückgewiesen werden kann.
Anhang 3 zeigt die Lexika von starken, schwachen und unregelmäßigen Verbstämmen.
Anhang 4 bringt die möglichen Endungen von Verbformen.
In Anhang 5 sind mögliche trennbare und untrennbare Präfixe von Verben zu finden.
3.2.2.5. Analyse von Adjektiv-Suffixen
In einem weiteren Arbeitsschritt werden bisher noch unmarkierte Wortformen anhand eines Lexikons von möglichen Adjektivsuffixen daraufhin überprüft, ob es sich bei ihnen um Adjektive handelt.
Falls ein solches Suffix am Ende einer Wortform entdeckt wird, wird es durch das Suffix der Grundform aus dem Lexikon ersetzt. Das Ergebnis dieser Analyse wird dem Bearbeiter als Vorschlag vorgestellt, der akzeptiert oder zurückgewiesen werden kann.
Anhang 6 enthält mögliche Adjektivsuffixe zusammen mit den Suffixen der zugehörigen Grundform.
3.2.2.6. Analyse großgeschriebener Wortformen
Im vorletzten Arbeitsschritt werden alle bisher noch unmarkierten Wortformen daraufhin untersucht, ob sie mit einem Großbuchstaben beginnen. In diesem Fall wird dem Bearbeiter die Wortklasse "SUB" vorgeschlagen; die Grundform muß der Bearbeiter erstellen. Sollte der Vorschlag nicht richtig sein, so kann der Bearbeiter ihn verwerfen.
3.2.2.7. Manuelle Markierung
Der Rest der bisher noch unmarkierten Wortformen muß vom Bearbeiter mit den nötigen Markierungen versehen werden. Die Wortform wird dem Bearbeiter auf dem Bildschirm in einer Dialogmaske - ähnlich wie in den vorangegangenen Schritten - angezeigt, die Eingabefelder für die benötigten Markierungen enthält.
Während der Eingabe der Wortklasse wird die Lemmaklasse automatisch hinzugefügt.
3.2.2.8. Abschlußarbeiten nach der Markierung
Nach erfolgter Markierung wird der Text nach Wortformen sortiert und
zusammengefaßt. Jeder Wortform wird ihre Häufigkeit im Text vorangesetzt. Dadurch entsteht für den gerade behandelten Text ein Wortformenlexikon mit Häufigkeitsangabe.
Das interne Format dieser Datei entsteht aus dem in Abschnitt 3.2.1.5.
vorgestellten Format dadurch, daß jedem Satz acht Bytes vorangestellt werden, von denen die ersten sieben die Häufigkeit der Wortform enthalten, das achte einen Zwischenraum. Dafür entfallen die neunzehn Bytes, die für eine einzelne Wortform die Angaben über den Fundort enthalten. Somit enthält in dieser Datei jeder Satz siebzig Bytes. Diese Datei wird nun mit dem in Abschnitt 3.2.2.2. erwähnten Wortformenlexikon zusammengemischt. Dadurch enthält dieses Wortformenlexikon zu jeder bisher aufgetretenen Wortform die Häufigkeit innerhalb des Gesamtkorpus.
Anschließend wird das Wortformenlexikon des gerade behandelten Textes nach Grundformen sortiert und zusammengefaßt. Das Ergebnis ist ein Grundformenverzeichnis für diesen Text. Dieses Grundformenverzeichnis enthält somit den "Wortschatz" des gerade bearbeiteten Textes.
3.2.2.9. Der Zeitaufwand
Grobe Erfahrungswerte für den Zeitaufwand, der für die Markierung gerechnet werden muß, sind:
Es ist nahezu unmöglich, an jedem Arbeitstag kontinuierlich an der Markierung eines Textes zu arbeiten. Diese Arbeit erfordert einerseits viel Konzentration, ist aber andererseits sehr eintönig und ermüdend. Deshalb zeigt die Erfahrung, daß die Markierung eines der Werke von Karl May, die zwischen 160.000 und 180.000 Wortformen umfassen, ungefähr ein Vierteljahr benötigt.