3. Aufbau des Korpus

Das Karl-May-Korpus wird in zwei aufeinander folgenden Phasen aufgebaut. Zuerst wird ein Text, der zur Aufnahme in das Korpus ausgewählt ist, in maschinell lesbare Form gebracht und als "reiner ASCII-Text" erfaßt. Anschließend wird dieser Text vertikalisiert, das heißt, er wird in Wortformen eingeteilt, und daraufhin mit den erforderlichen linguistischen Markierungen zu den einzelnen Wortformen als "Markierter Text" gespeichert.

3.1. Die reinen Texte

Abhängig von der typographischen Form, in der die Texte vorliegen, wird entweder ein Scanner zur Erfassung benutzt oder eine manuelle Eingabe durchgeführt. Die Umwandlung der mit einem Scanner eingelesenen Texte geschieht mit Hilfe des Programms "Omnipage Professional".

Seit kurzem werden auch im Internet eine ganze Reihe von Texten des Autors Karl May angeboten. Diese Texte sind ebenfalls in die Abteilung der reinen ASCII-Texte des Karl-May-Korpus übernommen worden.

Nach der Übernahme wird der betreffende Text nochmals gelesen und dabei nötigenfalls korrigiert. Danach liegt er in Form einer Datei im ASCII-Code vor.

3.1.1. Die Kodierung der Texte

Der Zeichenvorrat

Die folgenden ASCII-Codes werden als mögliche Textzeichen anerkannt:

ASCII 48 -  57 Ziffern 0 bis 9 	ASCII 65 - 90 große Buchstaben A bis Z
ASCII 97 - 122 kleine Buchstaben a bis z
ASCII 10 Neue Zeile 	ASCII 13 Return 		ASCII 32 Zwischenraum
ASCII 39 '	ASCII 40 (	ASCII 41 )	ASCII 44 ,	ASCII 45 -
ASCII 46 .	ASCII 58 :	ASCII 59 ;	ASCII 60 <	ASCII 62 >
ASCII 63 ?	ASCII 96 `	ASCII 124 |	ASCII 129 ü	ASCII 130 é
ASCII 131 â	ASCII 132 ä	ASCII 133 à	ASCII 134 å	ASCII 135 ç
ASCII 136 ê	ASCII 137 ë	ASCII 138 è	ASCII 139 ï	ASCII 140 î
ASCII 141 ì	ASCII 142 ä	ASCII 143 Å	ASCII 144 É	ASCII 145 æ
ASCII 146 Æ	ASCII 147 ô	ASCII 148 ö	ASCII 149 ò	ASCII 150 û
ASCII 151 ù	ASCII 152 ÿ	ASCII 153 ö	ASCII 154 Ü	ASCII 160 á
ASCII 161 í	ASCII 162 ó	ASCII 163 ú	ASCII 164 ñ	ASCII 165 Ñ
ASCII 225 ß			ASCII 249 Abkürzungspunkt
ASCII 254 NIL (*) 		ASCII 255 "harter" Zwischenraum (**)

Anmerkungen:
(*) Das Zeichen ASCII-254 hat keine eigene Bedeutung; es ersetzt im ASCII-Text ein Zeichen, das während einer späteren Bearbeitungsphase gelöscht wurde, dessen Platz aber erhalten bleiben muß, damit die Zeichenzählung unverändert bleibt.
(**) Das Zeichen ASCII-255 ersetzt den Zwischenraum (ASCII-32) in mehrteiligen Ausdrücken, die im Korpus nicht in ihre Bestandteile zerlegt, sondern als selbständiger Begriff behandelt werden sollen (z.B.: Old Shatterhand).

Die Satzzeichen

Als Satzzeichen gelten die Zeichen:

ASCII-33 ! Ausrufezeichen
ASCII-46 . Punkt
ASCII-58 : Doppelpunkt
ASCII-59 ; Semicolon
ASCII-63 ? Fragezeichen

Durch Satzzeichen wird ein Satz (besser: Satzgefüge) begrenzt.
Das Komma (ASCII-44 , ) teilt einen Satz in Satzteile ab.
Die Zeichen:

ASCII-40 ( Klammer auf
ASCII-41 ) Klammer zu

haben eine Sonderfunktion; sie trennen wohl Wortformen (siehe unten), haben aber keinen Einfluß auf die Einteilung eines Satzes.

Zeilen und Absätze

Die Einteilung in Zeilen wird aus der Textvorlage nicht übernommen, da diese Eigenschaft des Textes nicht bei der Niederschrift, sondern erst beim Drucksatz entsteht, und somit keine direkte Beziehung zum Autor und seinem Stil besitzt. Im Gegensatz dazu hat der Autor selbst den Text in einzelne Absätze eingeteilt. Diese Einteilung wird erhalten und durch die Zeichenkombination ASCII-13 + ASCII-10 angezeigt.

Die Wortform

Das Zeichen ASCII-32 "Zwischenraum", die Zeichen ASCII-10 und ASCII-13 "Absatz" und alle unter dem Punkt "Satzzeichen" genannten Zeichen trennen Wortformen voneinander ab. Das heißt: eine Wortform umfaßt alle Zeichen, die zwischen zwei aufeinander folgenden der genannten Zeichen stehen.

Referenz zur Textvorlage

Die Verbindung zur Textvorlage wird dadurch erreicht, daß innerhalb des fortlaufenden Textes vor der ersten vollständigen Wortform einer jeden Seite der Textvorlage die Seitennummer eingefügt wird, der das Zeichen ASCII-124 vorgesetzt wird.

3.1.2. Der Zeitaufwand

Erfahrungswerte für den Zeitaufwand sind:

6 - 8 Arbeitsstunden für die Eingabe eines Buches mit einem Umfang von 900.000 bis 1.000.000 Zeichen über einen Scanner,
30 Arbeitsstunden für die Korrekturlesung.

3.1.3. Fehlerquellen

In dieser Phase der Bearbeitung treten als Fehlerquellen auf :

- das OCR(1)-Programm zur Texterkennung:: zur Eingabe der Texte mittels Scanner steht mir in einem befreundeten Rechenzentrum in betriebsschwachen Zeiten eine Datenverarbeitungsanlage zur Verfügung. Die dort bezüglich des OCR-Programms benutzten Parameter kann ich nicht in allen Fällen nach meinen Bedürfnissen abändern. Vielleicht ist das die Ursache für sporadisch auftretende Erkennungsfehler. Recht häufig zerteilt dieses Programm nämlich Formen zusammengesetzter Verben, die eigentlich zusammengeschrieben werden müssten (z.B.: zusammengeschrieben - zusammen geschrieben). Dieser Fehler ist auch bei der Korrektur schlecht zu erkennen, weil es ja im Deutschen auch vorkommt, daß solche Formen berechtigterweise getrennt geschrieben werden, und weil der Autor Karl May selbst nicht ganz konsequent in dieser Schreibung ist.
- die Korrekturlesung:: die Anstrengungen lang dauernder Arbeit am Bildschirm verhindern immer wieder, daß letztendlich wirklich alle Fehler erkannt werden, die sich in vorhergehenden Arbeitsschritten eingeschlichen haben. Die Fehlerquote kann auf 1 Fehler pro 10 000 Worte geschätzt werden.

Fußnote:
(1) OCR = Optical Character Recognition

3.1.4. Stand der Untersuchung

Bisher wurden folgende Werke von Karl May und einigen anderen zeitgenössischen Autoren als ASCII-Texte in das Karl-May-Korpus aufgenommen und anschließend markiert:

Titel des Werks	Kurztitel	Sigel
Durch die Wüste (HKA)	Wüste	GR01
Durchs wilde Kurdistan (HKA)	Kurdistan	GR02
Von Bagdad nach Stambul (HKA)	Bagdad	GR03
In den Schluchten des Balkan (HKA)	Balkan	GR04
Durch das Land der Skipetaren (HKA)	Skipetar	GR05
Der Schut (HKA)	Schut	GR06
Winnetou Bd. 1 (HKA)	Winnetou I	GR07
Am Jenseits (Pawlak)	Jenseits	GR25
Im Reiche des silbernen Löwen Band 3	Slöwe3	GR28
Im Reiche des silbernen Löwen Band 4	Slöwe4	GR29
Waldröschen Teil 1 (Seiten 3-446)	Waldrose 1	-
Waldröschen Teil 3 (Seiten 897-1291)	Waldrose 3	-
Der Nachsommer v. A.Stifter	Nachsommer	-

Als ASCII-Texte sind erfasst und korrigiert, aber noch nicht markiert:

Titel des Werks	Kurztitel
Scepter und Hammer(Reprint)	Scepter
Der Schatz im Silbersee (Reprint)	Silber
Weihnacht (HKA)	Weihnacht
Ardistan und Dschinnistan (Reprint)	Mir
Der Augenblick des Glücks v. Hackländer	Augenblick
El Sendador(Reprint) (Am Rio de la Plata, In den Kordilleren)	Sendador
Die Sklavenkarawane (HKA)	Sklaven
Der verlorene Sohn	Sohn

Erläuterung:
(HKA) = Historisch-kritische Ausgabe der Werke Karl May's, herausgegeben von Wiedenroth und Wollschläger
(Pawlak)= Karl-May-Ausgabe des Verlags Pawlak

3.1.5. Der Umfang der Texte

**Übersicht über die Gesamtzahl der Wortformen im Text**
Werk	Seiten- zahl	Token	Satzz.
Wüste	543	171785	26594
Kurdistan	551	177117	28142
Bagdad	547	184343	28106
Balkan	520	170393	27143
Skipetar	510	170331	26168
Schut	473	162667	24636
Winnetou I	540	187738	28791
Jenseits	318	177560	26610
Slöwe3	636	188232	29274
Slöwe4	644	198092	30278
Waldrose 1	446	215518	35204
Waldrose 3	395	204806	31306
Nachsommer	679	282649	35243

Erläuterung:
"Token"= Gesamtzahl aller Wortformen incl. Satzzeichen
"Satzz.= Satzzeichen

3.2. Die markierten Texte

3.2.1. Die Markierungen (Die Tags)

Zu jeder Wortform des Textes, der markiert werden soll, werden als Markierungen (Tags) hinzugefügt:

die Wortklassenangabe
die zugehörige Grundform (das Lemma)
eine Angabe über die Lemmaklasse
eine Angabe der Position im Text

3.2.1.1. Die Wortklasse

Für den hier vorliegenden Zweck - den Aufbau eines markierten Korpus - ist ein Satz von 43 Wortklassen aufgestellt worden, der durchgängig angewendet wird. Bei der Zusammenstellung dieser Wortklasse wurde im wesentlichen von den Arbeiten von Hans Eggers⁽¹⁾ ausgegangen.

Liste der Wortklassen:

SUB Substantiv
NAM Name
ITJ Interjektion
ADJ Adjektiv
ADJP Adjektiv, prädikativ gebraucht
ADJS Adjektiv, substantivisch gebraucht
ADJV Adjektiv, adverbiell gebraucht
ADV Adverb
INF Infinitiv
IZU Infinitiv mit "zu"
IZUA Infinitiv mit "zu", adjektivisch gebraucht (Gerundivform)
IZUS Infinitiv mit "zu", substantivisch gebraucht
SBI substantivierter Infinitiv
FIV finite Verbform
PT1 Partizip-1
PT1A Partizip-1, adjektivisch gebraucht
PT1P Partizip-1, prädikativ gebraucht
PT1S Partizip-1, substantivisch gebraucht
PT1V Partizip-1, adverbiell gebraucht
PT2 Partizip-2
PT2A Partizip-2, adjektivisch gebraucht
PT2S Partizip-2, substantivisch gebraucht
PT2V Partizip-2, adverbiell gebraucht
VZS Verbzusatz
DEM Demonstrativpronomen, Artikel
REL Relativpronomen
FRA Fragewort
FRAN Fragewort, einen Nebensatz einleitend
PER Personalpronomen
POS Possessivpronomen
IND Indefinitpronomen
NUM Zahlwort
NKO nebenordnende Konjunktion
UKO unterordnende Konjunktion
UOA um - ohne - anstatt (mit "zu")
ZU "zu" + Infinitiv
PRP Präposition, Postposition
DSS "daß"
OB "ob"
UEB zu übergehender Textanteil
FRMD fremdsprachlicher Textanteil
SATZ Satzzeichen (ohne Komma)
KOMA Komma

Fußnote:
(1) Eggers, Hans und Mitarbeiter: Elektronische Syntaxanalyse der deutschen Gegenwartssprache, Tübingen, 1969
Eggers, Hans und andere: SALEM - Ein Verfahren zur automatischen Lemmatisierung deutscher Texte, Tübingen, 1980

3.2.1.2. Das Lemma

Als weitere Markierung wird jeder Wortform des in Bearbeitung befindlichen Textes die entsprechende Grundform - das Lemma - beigegeben. Das ist

- bei Substantiven:	Der Nominativ des Singular
- bei Adjektiven:	Die Normalform des Adjektivs (im Positiv)
- bei Verben:	Der Infinitiv (Präsenz Aktiv)
- bei Pronomina:	Der Nominativ Singular - ggf. des Maskulinums

Die Formen von Konjunktionen, Präpositionen, Postpositionen, Adverbien, Numeralia, sind unveränderlich. Sie bilden das jeweilige Lemma.

Einige Ausnahmen sind anzumerken:

Die Grundform zu allen Wortformen "all-" ist die Form ALL.
Die Grundform zu allen Wortformen "and(e)r-" ist die Form ANDER
Die Grundform zu allen Wortformen "manch-" ist die Form MANCH
Die Grundform zu allen Wortformen "viel-" ist die Form VIEL
Die Grundform zu allen Wortformen "wenig-" ist die Form WENIG
Karl May kennt Steigerungen über den Superlativ hinaus.
Beispiel:
- "allergrößter"; die Grundform dazu ist "allergrößte"
- "hochinteressanter"; die Grundform dazu ist "hochinteressant"

3.2.1.3. Die Lemma-Wortklasse

Für die Klassifizierung der Lemmata wurden acht Lemmawortklassen eingeführt:

Lemmaklasse zugehörige Wortklassen
S = Substantiv SUB
A = Adjektiv ADJ ADJP ADJS ADJV
V = Verb INF IZU IZUA IZUS SBI FIV
PT1 PT1A PT1P PT1S PT1V
PT2 PT2A PT2S PT2V
P = Partikel ADV NUM ITJ
REL DEM FRA FRAN
PER POS IND
NKO UKO UOA ZU
PRP DSS OB
N = Name NAM
F = Fremdsprachlicher Textanteil FRMD
U = zu übergehender Textanteil VZS UEB
"NIL" = Satzzeichen SATZ KOMA

Lemmaklasse	zugehörige Wortklassen
S = Substantiv	SUB
A = Adjektiv	ADJ ADJP ADJS ADJV
V = Verb	INF IZU IZUA IZUS SBI FIV PT1 PT1A PT1P PT1S PT1V PT2 PT2A PT2S PT2V
P = Partikel	ADV NUM ITJ REL DEM FRA FRAN PER POS IND NKO UKO UOA ZU PRP DSS OB
N = Name	NAM
F = Fremdsprachlicher Textanteil	FRMD
U = zu übergehender Textanteil	VZS UEB
"NIL" = Satzzeichen	SATZ KOMA

3.2.1.4. Die Positionsangabe

Bei der Vertikalisierung des Textes wird jeder Wortform eine Angabe über ihre Position im Text beigegeben, damit gegebenenfalls diese Wortform im Referenztext wieder aufgefunden werden kann.
Die Positionsangabe enthält dabei

die Nummer der Seite, auf der die Wortform beginnt,
die Nummer des Absatzes auf der Seite, der die Wortform enthält,
die Nummer der Wortform innerhalb des Absatzes
die laufende Nummer des ersten Zeichens der Wortform innerhalb des Textes.

Nach Beendigung der Markierung ist also jede Wortform des markierten Textes mit 4 "Tags" versehen.

Einige Beispiele dazu:

	Tag 1	Tag 2	Tag 3	Tag 4
Wortform	Wortklasse	Grundform	Lemmaklasse	Seite	Absatz	Wort	Lfd.Nr.
Todesritt	SUB	todesritt	S	9	2	2	25
willst	FIV	wollen	V	9	3	12	96
verächtlicher	ADJ	verächtlich	A	9	3	16	129

3.2.1.5. Das interne Speicherformat

Die markierten Texte werden in einem festen Format gespeichert. Für eine Wortform mit ihren Markierungen sind einundachtzig Bytes vorgesehen. Diese einundachtzig Bytes werden wie folgt belegt:

Belegung:	Anzahl Bytes
Wortform	25
Zwischenraum	1
Wortklasse	4
Zwischenraum	1
Lemma	25
Zwischenraum	1
Lemmaklasse	3
Zwischenraum	1
Seitennummer	4
Absatznummer	3
Wortnummer	4
Lfd. Zeichennummer	7
"ASCII-13"	1
"ASCII-10"	1

Dieses feste Format - und nicht ein SGML-Format - wurde bewußt gewählt, um die nachfolgenden computergestützten Untersuchungen sowohl programmiertechnisch als auch hardwaremäßig erheblich zu erleichtern.

Es ist jedoch bei Bedarf ohne großen Aufwand möglich, die Texte aus diesem festen Format in ein SGML-Format zu konvertieren.

Anmerkung des Verfassers:

Mittlerweile wurde es notwendig, das Karl-May-Korpus in ein SGML-Format zu konvertieren. Die "Document Type Definition (DTD)" dazu lautet:

<!DOCTYPE kmk.dtd [
   <!ELEMENT kmk     - -    (s-corp+)>
   <!ELEMENT s-corp  - -    (head, body)>
   <!ELEMENT head    - -    (author, title, part)>
   <!ELEMENT author  - -    (#PCDATA)>
   <!ELEMENT title   - -    (#PCDATA)>
   <!ELEMENT part    - -    (#PCDATA)>
   <!ELEMENT body    - -    (w+)>
   <!ELEMENT w       - O    (#PCDATA)>
   <!ATTLIST w
     lemma  #PCDATA #REQUIRED
     wc     #PCDATA #REQUIRED
     lc     #PCDATA #REQUIRED
     >
]>

Als Beispiel wird ein Textstück von Anfang und Ende des Bandes "Kurdistan" hier angeführt:

<kmk.dtd>
  <kmk>
     <s-corp>
        <head>
            <author>Karl May</author>
            <title>Durchs wilde Kurdistan</title>
            <part></part>
        </head>
        <body>
<W wc="ADJ" lemma="erste" lc="A">ERSTES</W>
<W wc="SUB" lemma="kapitel" lc="S">KAPITEL</W>
<W wc="SATZ" lemma="" lc="">.</W>
<W wc="DEM" lemma="der/die/das" lc="P">Der</W>
<W wc="SUB" lemma="opfertod" lc="S">Opfertod</W>
<W wc="DEM" lemma="der/die/das" lc="P">des</W>
<W wc="ADJS" lemma="heilig" lc="A">Heiligen</W>
<W wc="SATZ" lemma="" lc="">.</W>
<W wc="PER" lemma="wir" lc="P">Wir</W>
<W wc="FIV" lemma="zurückkehren" lc="V">kehrten</W>
<W wc="PRP" lemma="von" lc="P">von</W>
<W wc="DEM" lemma="der/die/das" lc="P">dem</W>
<W wc="SUB" lemma="besuch" lc="S">Besuche</W>
<W wc="DEM" lemma="der/die/das" lc="P">des</W>
<W wc="SUB" lemma="häuptling" lc="S">Häuptlings</W>
<W wc="DEM" lemma="der/die/das" lc="P">der</W>
<W wc="SUB" lemma="badinankurde" lc="S">Badinankurden</W>
<W wc="VZS" lemma="zurück" lc="U">zurück</W>
<W wc="SATZ" lemma="" lc="">.</W>
. . . . .
<W wc="ADV" lemma="freilich" lc="P">freilich</W>
<W wc="FIV" lemma="können" lc="V">konnte</W>
<W wc="PER" lemma="ich" lc="P">ich</W>
<W wc="ADV" lemma="nicht" lc="P">nicht</W>
<W wc="INF" lemma="erwarten" lc="V">erwarten</W>
<W wc="KOMA" lemma="" lc="">,</W>
<W wc="DSS" lemma="daß" lc="P">daß</W>
<W wc="DEM" lemma="der/die/das" lc="P">der</W>
<W wc="SUB" lemma="inhalt" lc="S">Inhalt</W>
<W wc="DEM" lemma="ein" lc="P">ein</W>
<W wc="ADV" lemma="so" lc="P">so</W>
<W wc="PT1A" lemma="überraschen" lc="V">überraschender</W>
<W wc="FIV" lemma="sein" lc="V">sei</W>
<W wc="SATZ" lemma="" lc="">.</W>
        </body>
     </s-corp>
  </kmk>
</kmk.dtd>

3.2.2. Der Vorgang der Markierung (Das Tagging)

Um die Durchführung der komplexen Aufgabe der linguistischen Markierung eines Textes auf einem PC mit seinen vorgegebenen technischen Beschränkungen zu ermöglichen, erfolgt die Markierung - das "Tagging" - in mehreren aufeinander folgenden Schritten, die genau in dieser Reihenfolge ausgeführt werden:

automatische Markierung eindeutiger Wortformen incl. der Satzzeichen
Markierung anhand eines Lexikons markierter Wortformen
Analyse von Substantiv-Suffixen im Dialog
morphologische Analyse von Verben im Dialog
Analyse von Adjektiv-Suffixen im Dialog
Analyse großgeschriebener Wortformen im Dialog
manuelle Markierung

Der erste dieser Schritte erfolgt automatisch, d.h. ohne Eingriffsmöglichkeit des Bearbeiters. Die anderen Schritte werden im Dialog zwischen dem jeweiligen Markierungsprogramm und dem Bearbeiter durchgeführt. Das Markierungsprogramm erstellt einen Vorschlag zur Markierung. Der Bearbeiter hat die Möglichkeit, diesen Vorschlag zu akzeptieren oder ganz bzw. in Teilen abzuändern.

In diesen Arbeitsschritten wird eine Reihe von Lexika benutzt, die jeweils auf empirischer Grundlage aufgrund von Wortschatzuntersuchungen von Texten des Autors Karl May erstellt worden sind. Diese Lexika sind gut nutzbar bei der Markierung des Karl-May-Korpus, erheben aber keinen Anspruch auf Allgemeingültigkeit.

3.2.2.1. Markierung eindeutiger Wortformen

In der deutschen Sprache gibt es Wortformen, die in Bezug auf ihre Wortklasse und ihre Grundform eindeutig bestimmbar sind. Darunter befinden sich besonders viele Partikel, die recht häufig auftreten. Diese Wortformen kann man anhand eines "Lexikons eindeutiger Wortformen" automatisch markieren. Hierzu zählen auch die Satzzeichen.

Aus Gründen der Zweckmäßigkeit ist dieses "Lexikon eindeutiger Wortformen" in mehrere Teile zerlegt, von denen jeder eine - oder mehrere verwandte - Wortklassen enthält. Die Teile dieses Lexikons sind im Anhang 1 zu finden.

In diesem Bearbeitungsschritt werden durchschnittlich 52,2 Prozent des Textes markiert.

3.2.2.2. Ein Lexikon markierter Wortformen

Aus allen Texten, die schon komplett markiert sind, ist ein Wortformen-Lexikon zusammengestellt worden. Dieses Lexikon ist nach Wortformen sortiert und enthält neben den Markierungen "Wortklasse", "Grundform" und "Lemmawortklasse" eine Angabe über die Häufigkeit des bisherigen Vorkommens.

Soll eine Wortform markiert werden, so zeigt das Markierungsprogramm alle Wortformen aus dem Lexikon - mit ihren "Tags" - , die mit der gesuchten Wortform identisch sind, und zwar werden diese Vorschläge in der Reihenfolge absteigender Häufigkeit angezeigt. Der Bearbeiter kann unter Berücksichtigung des ebenfalls angezeigten Kontextes einen dieser Vorschläge auswählen und akzeptieren oder die Bearbeitung dieser Wortform zurückstellen.

In diesem zweiten Bearbeitungsschritt der Markierung werden durchschnittlich weitere 44,5 Prozent des Textes markiert. Damit sind im ersten und zweiten Schritt der Markierung insgesamt 96,7 Prozent aller Wortformen bearbeitet.

3.2.2.3. Analyse von Substantiv-Suffixen

In der deutschen Sprache gibt es eine Anzahl von Suffixen, mit deren Hilfe Substantive gebildet werden können. In diesem dritten Bearbeitungsschritt werden bisher noch unmarkierte Wortformen auf das Vorhandensein solcher Suffixe abgetestet. Wird ein solches Suffix gefunden, so wird aus der Wortform die Grundform gefunden, indem das Suffix der Wortform durch das entsprechende Suffix seiner Grundform ersetzt wird. Das Analyseergebnis wird dem Bearbeiter als Vorschlag vorgestellt, der akzeptiert oder zurückgewiesen werden kann.

Anhang 2 zeigt die Liste der benutzten Suffixe, die zugehörige Wortklasse, das Suffix der zugehörigen Grundform und die entsprechende Lemmaklasse.

3.2.2.4. Morphologische Analyse von Verben

Zur morphologischen Analyse von Verbformen sind mehrere Lexika angelegt worden:

Suffixe von finiten und infiniten Verbformen,
Präfixe von zusammengesetzten Verben,
Verbstämme von starken, schwachen und unregelmäßigen Verben,
eventuell mit Angaben über die Stammformen
- der 2.Pers.Sing.Präs.
- der 1.Pers.Sing.Imperf.
- des Partizips II
- und über eventuell eingeschobenes "-e-" in der 2. und 3.Pers.Sing.Präs. und der 2.Pers.Plur.Präs.

Das Markierungsverfahren besteht darin, daß von der zu klassifizierenden Wortform eventuell vorhandene Präfixe und Suffixe - auch vorkommenden Falles das Präfix/Infix des Partizips II "(-)ge-" - abgeschnitten werden und der verbleibende Rest in den Lexika der Verbstämme aufgesucht wird.
Wird der Rest als Verbstamm gefunden, so wird er mit einem eventuellen Präfix und der Infinitiv-Endung zur zugehörigen Grundform ergänzt. Das Ergebnis dieser Analyse wird dem Bearbeiter als Vorschlag vorgestellt, der akzeptiert oder zurückgewiesen werden kann.

Anhang 3 zeigt die Lexika von starken, schwachen und unregelmäßigen Verbstämmen.

Anhang 4 bringt die möglichen Endungen von Verbformen.

In Anhang 5 sind mögliche trennbare und untrennbare Präfixe von Verben zu finden.

3.2.2.5. Analyse von Adjektiv-Suffixen

In einem weiteren Arbeitsschritt werden bisher noch unmarkierte Wortformen anhand eines Lexikons von möglichen Adjektivsuffixen daraufhin überprüft, ob es sich bei ihnen um Adjektive handelt.
Falls ein solches Suffix am Ende einer Wortform entdeckt wird, wird es durch das Suffix der Grundform aus dem Lexikon ersetzt. Das Ergebnis dieser Analyse wird dem Bearbeiter als Vorschlag vorgestellt, der akzeptiert oder zurückgewiesen werden kann.

Anhang 6 enthält mögliche Adjektivsuffixe zusammen mit den Suffixen der zugehörigen Grundform.

3.2.2.6. Analyse großgeschriebener Wortformen

Im vorletzten Arbeitsschritt werden alle bisher noch unmarkierten Wortformen daraufhin untersucht, ob sie mit einem Großbuchstaben beginnen. In diesem Fall wird dem Bearbeiter die Wortklasse "SUB" vorgeschlagen; die Grundform muß der Bearbeiter erstellen. Sollte der Vorschlag nicht richtig sein, so kann der Bearbeiter ihn verwerfen.

3.2.2.7. Manuelle Markierung

Der Rest der bisher noch unmarkierten Wortformen muß vom Bearbeiter mit den nötigen Markierungen versehen werden. Die Wortform wird dem Bearbeiter auf dem Bildschirm in einer Dialogmaske - ähnlich wie in den vorangegangenen Schritten - angezeigt, die Eingabefelder für die benötigten Markierungen enthält.
Während der Eingabe der Wortklasse wird die Lemmaklasse automatisch hinzugefügt.

3.2.2.8. Abschlußarbeiten nach der Markierung

Nach erfolgter Markierung wird der Text nach Wortformen sortiert und zusammengefaßt. Jeder Wortform wird ihre Häufigkeit im Text vorangesetzt. Dadurch entsteht für den gerade behandelten Text ein Wortformenlexikon mit Häufigkeitsangabe.

Das interne Format dieser Datei entsteht aus dem in Abschnitt 3.2.1.5. vorgestellten Format dadurch, daß jedem Satz acht Bytes vorangestellt werden, von denen die ersten sieben die Häufigkeit der Wortform enthalten, das achte einen Zwischenraum. Dafür entfallen die neunzehn Bytes, die für eine einzelne Wortform die Angaben über den Fundort enthalten. Somit enthält in dieser Datei jeder Satz siebzig Bytes. Diese Datei wird nun mit dem in Abschnitt 3.2.2.2. erwähnten Wortformenlexikon zusammengemischt. Dadurch enthält dieses Wortformenlexikon zu jeder bisher aufgetretenen Wortform die Häufigkeit innerhalb des Gesamtkorpus.
Anschließend wird das Wortformenlexikon des gerade behandelten Textes nach Grundformen sortiert und zusammengefaßt. Das Ergebnis ist ein Grundformenverzeichnis für diesen Text. Dieses Grundformenverzeichnis enthält somit den "Wortschatz" des gerade bearbeiteten Textes.

3.2.2.9. Der Zeitaufwand

Grobe Erfahrungswerte für den Zeitaufwand, der für die Markierung gerechnet werden muß, sind:

für die Markierung eindeutiger Wortformen:
2 Stunden für einen Text von 100.000 Wortformen, dabei werden 52,2 Prozent des Textes markiert;
für die Anwendung des Lexikons markierter Wortformen:
90 Stunden für einen Text von 100.000 Wortformen, dabei werden 44,5 Prozent des Textes markiert;
für die übrigen Phasen der Markierung:
8 Stunden für einen Text von 100.000 Wortformen.

Es ist nahezu unmöglich, an jedem Arbeitstag kontinuierlich an der Markierung eines Textes zu arbeiten. Diese Arbeit erfordert einerseits viel Konzentration, ist aber andererseits sehr eintönig und ermüdend. Deshalb zeigt die Erfahrung, daß die Markierung eines der Werke von Karl May, die zwischen 160.000 und 180.000 Wortformen umfassen, ungefähr ein Vierteljahr benötigt.

SUB	Substantiv
NAM	Name
ITJ	Interjektion
ADJ	Adjektiv
ADJP	Adjektiv, prädikativ gebraucht
ADJS	Adjektiv, substantivisch gebraucht
ADJV	Adjektiv, adverbiell gebraucht
ADV	Adverb
INF	Infinitiv
IZU	Infinitiv mit "zu"
IZUA	Infinitiv mit "zu", adjektivisch gebraucht (Gerundivform)
IZUS	Infinitiv mit "zu", substantivisch gebraucht
SBI	substantivierter Infinitiv
FIV	finite Verbform
PT1	Partizip-1
PT1A	Partizip-1, adjektivisch gebraucht
PT1P	Partizip-1, prädikativ gebraucht
PT1S	Partizip-1, substantivisch gebraucht
PT1V	Partizip-1, adverbiell gebraucht
PT2	Partizip-2
PT2A	Partizip-2, adjektivisch gebraucht
PT2S	Partizip-2, substantivisch gebraucht
PT2V	Partizip-2, adverbiell gebraucht
VZS	Verbzusatz
DEM	Demonstrativpronomen, Artikel
REL	Relativpronomen
FRA	Fragewort
FRAN	Fragewort, einen Nebensatz einleitend
PER	Personalpronomen
POS	Possessivpronomen
IND	Indefinitpronomen
NUM	Zahlwort
NKO	nebenordnende Konjunktion
UKO	unterordnende Konjunktion
UOA	um - ohne - anstatt (mit "zu")
ZU	"zu" + Infinitiv
PRP	Präposition, Postposition
DSS	"daß"
OB	"ob"
UEB	zu übergehender Textanteil
FRMD	fremdsprachlicher Textanteil
SATZ	Satzzeichen (ohne Komma)
KOMA	Komma