3. Aufbau des Korpus

Das Karl-May-Korpus wird in zwei aufeinander folgenden Phasen aufgebaut. Zuerst wird ein Text, der zur Aufnahme in das Korpus ausgewählt ist, in maschinell lesbare Form gebracht und als "reiner ASCII-Text" erfaßt. Anschließend wird dieser Text vertikalisiert, das heißt, er wird in Wortformen eingeteilt, und daraufhin mit den erforderlichen linguistischen Markierungen zu den einzelnen Wortformen als "Markierter Text" gespeichert.

3.1. Die reinen Texte

Abhängig von der typographischen Form, in der die Texte vorliegen, wird entweder ein Scanner zur Erfassung benutzt oder eine manuelle Eingabe durchgeführt. Die Umwandlung der mit einem Scanner eingelesenen Texte geschieht mit Hilfe des Programms "Omnipage Professional".

Seit kurzem werden auch im Internet eine ganze Reihe von Texten des Autors Karl May angeboten. Diese Texte sind ebenfalls in die Abteilung der reinen ASCII-Texte des Karl-May-Korpus übernommen worden.

Nach der Übernahme wird der betreffende Text nochmals gelesen und dabei nötigenfalls korrigiert. Danach liegt er in Form einer Datei im ASCII-Code vor.

3.1.1. Die Kodierung der Texte

Der Zeichenvorrat

Die folgenden ASCII-Codes werden als mögliche Textzeichen anerkannt:
ASCII 48 -  57 Ziffern 0 bis 9 	ASCII 65 - 90 große Buchstaben A bis Z
ASCII 97 - 122 kleine Buchstaben a bis z
ASCII 10 Neue Zeile 	ASCII 13 Return 		ASCII 32 Zwischenraum
ASCII 39 '	ASCII 40 (	ASCII 41 )	ASCII 44 ,	ASCII 45 -
ASCII 46 .	ASCII 58 :	ASCII 59 ;	ASCII 60 <	ASCII 62 >
ASCII 63 ?	ASCII 96 `	ASCII 124 |	ASCII 129 ü	ASCII 130 é
ASCII 131 â	ASCII 132 ä	ASCII 133 à	ASCII 134 å	ASCII 135 ç
ASCII 136 ê	ASCII 137 ë	ASCII 138 è	ASCII 139 ï	ASCII 140 î
ASCII 141 ì	ASCII 142 ä	ASCII 143 Å	ASCII 144 É	ASCII 145 æ
ASCII 146 Æ	ASCII 147 ô	ASCII 148 ö	ASCII 149 ò	ASCII 150 û
ASCII 151 ù	ASCII 152 ÿ	ASCII 153 ö	ASCII 154 Ü	ASCII 160 á
ASCII 161 í	ASCII 162 ó	ASCII 163 ú	ASCII 164 ñ	ASCII 165 Ñ
ASCII 225 ß			ASCII 249 Abkürzungspunkt
ASCII 254 NIL (*) 		ASCII 255 "harter" Zwischenraum (**)
Anmerkungen:
(*) Das Zeichen ASCII-254 hat keine eigene Bedeutung; es ersetzt im ASCII-Text ein Zeichen, das während einer späteren Bearbeitungsphase gelöscht wurde, dessen Platz aber erhalten bleiben muß, damit die Zeichenzählung unverändert bleibt.
(**) Das Zeichen ASCII-255 ersetzt den Zwischenraum (ASCII-32) in mehrteiligen Ausdrücken, die im Korpus nicht in ihre Bestandteile zerlegt, sondern als selbständiger Begriff behandelt werden sollen (z.B.: Old Shatterhand).

Die Satzzeichen

Als Satzzeichen gelten die Zeichen:
Durch Satzzeichen wird ein Satz (besser: Satzgefüge) begrenzt.
Das Komma (ASCII-44 , ) teilt einen Satz in Satzteile ab.
Die Zeichen: haben eine Sonderfunktion; sie trennen wohl Wortformen (siehe unten), haben aber keinen Einfluß auf die Einteilung eines Satzes.

Zeilen und Absätze

Die Einteilung in Zeilen wird aus der Textvorlage nicht übernommen, da diese Eigenschaft des Textes nicht bei der Niederschrift, sondern erst beim Drucksatz entsteht, und somit keine direkte Beziehung zum Autor und seinem Stil besitzt. Im Gegensatz dazu hat der Autor selbst den Text in einzelne Absätze eingeteilt. Diese Einteilung wird erhalten und durch die Zeichenkombination ASCII-13 + ASCII-10 angezeigt.

Die Wortform

Das Zeichen ASCII-32 "Zwischenraum", die Zeichen ASCII-10 und ASCII-13 "Absatz" und alle unter dem Punkt "Satzzeichen" genannten Zeichen trennen Wortformen voneinander ab. Das heißt: eine Wortform umfaßt alle Zeichen, die zwischen zwei aufeinander folgenden der genannten Zeichen stehen.

Referenz zur Textvorlage

Die Verbindung zur Textvorlage wird dadurch erreicht, daß innerhalb des fortlaufenden Textes vor der ersten vollständigen Wortform einer jeden Seite der Textvorlage die Seitennummer eingefügt wird, der das Zeichen ASCII-124 vorgesetzt wird.

3.1.2. Der Zeitaufwand

Erfahrungswerte für den Zeitaufwand sind:

3.1.3. Fehlerquellen

In dieser Phase der Bearbeitung treten als Fehlerquellen auf :

- das OCR(1)-Programm zur Texterkennung:
zur Eingabe der Texte mittels Scanner steht mir in einem befreundeten Rechenzentrum in betriebsschwachen Zeiten eine Datenverarbeitungsanlage zur Verfügung. Die dort bezüglich des OCR-Programms benutzten Parameter kann ich nicht in allen Fällen nach meinen Bedürfnissen abändern. Vielleicht ist das die Ursache für sporadisch auftretende Erkennungsfehler. Recht häufig zerteilt dieses Programm nämlich Formen zusammengesetzter Verben, die eigentlich zusammengeschrieben werden müssten (z.B.: zusammengeschrieben - zusammen geschrieben). Dieser Fehler ist auch bei der Korrektur schlecht zu erkennen, weil es ja im Deutschen auch vorkommt, daß solche Formen berechtigterweise getrennt geschrieben werden, und weil der Autor Karl May selbst nicht ganz konsequent in dieser Schreibung ist.
- die Korrekturlesung:
die Anstrengungen lang dauernder Arbeit am Bildschirm verhindern immer wieder, daß letztendlich wirklich alle Fehler erkannt werden, die sich in vorhergehenden Arbeitsschritten eingeschlichen haben. Die Fehlerquote kann auf 1 Fehler pro 10 000 Worte geschätzt werden.
Fußnote:
(1) OCR = Optical Character Recognition

3.1.4. Stand der Untersuchung

Bisher wurden folgende Werke von Karl May und einigen anderen zeitgenössischen Autoren als ASCII-Texte in das Karl-May-Korpus aufgenommen und anschließend markiert:

Titel des WerksKurztitelSigel
Durch die Wüste (HKA)WüsteGR01
Durchs wilde Kurdistan (HKA)KurdistanGR02
Von Bagdad nach Stambul (HKA)BagdadGR03
In den Schluchten des Balkan (HKA)BalkanGR04
Durch das Land der Skipetaren (HKA)SkipetarGR05
Der Schut (HKA)SchutGR06
Winnetou Bd. 1 (HKA)Winnetou IGR07
Am Jenseits (Pawlak)JenseitsGR25
Im Reiche des silbernen Löwen Band 3Slöwe3GR28
Im Reiche des silbernen Löwen Band 4Slöwe4GR29
Waldröschen Teil 1 (Seiten 3-446)Waldrose 1 -
Waldröschen Teil 3 (Seiten 897-1291)Waldrose 3 -
Der Nachsommer v. A.StifterNachsommer -

Als ASCII-Texte sind erfasst und korrigiert, aber noch nicht markiert:

Titel des WerksKurztitel
Scepter und Hammer(Reprint)Scepter
Der Schatz im Silbersee (Reprint)Silber
Weihnacht (HKA)Weihnacht
Ardistan und Dschinnistan (Reprint)Mir
Der Augenblick des Glücks v. HackländerAugenblick
El Sendador(Reprint)
(Am Rio de la Plata,
In den Kordilleren)
Sendador
Die Sklavenkarawane (HKA)Sklaven
Der verlorene SohnSohn

Erläuterung:
(HKA) = Historisch-kritische Ausgabe der Werke Karl May's, herausgegeben von Wiedenroth und Wollschläger
(Pawlak)= Karl-May-Ausgabe des Verlags Pawlak

3.1.5. Der Umfang der Texte

Übersicht über die Gesamtzahl der Wortformen im Text
WerkSeiten-
zahl
TokenSatzz.
Wüste54317178526594
Kurdistan55117711728142
Bagdad54718434328106
Balkan52017039327143
Skipetar51017033126168
Schut47316266724636
Winnetou I54018773828791
Jenseits31817756026610
Slöwe363618823229274
Slöwe464419809230278
Waldrose 144621551835204
Waldrose 339520480631306
Nachsommer67928264935243

Erläuterung:
"Token"= Gesamtzahl aller Wortformen incl. Satzzeichen
"Satzz.= Satzzeichen

3.2. Die markierten Texte

3.2.1. Die Markierungen (Die Tags)

Zu jeder Wortform des Textes, der markiert werden soll, werden als Markierungen (Tags) hinzugefügt:

3.2.1.1. Die Wortklasse

Für den hier vorliegenden Zweck - den Aufbau eines markierten Korpus - ist ein Satz von 43 Wortklassen aufgestellt worden, der durchgängig angewendet wird. Bei der Zusammenstellung dieser Wortklasse wurde im wesentlichen von den Arbeiten von Hans Eggers(1) ausgegangen.

Liste der Wortklassen:
SUB Substantiv
NAMName
ITJInterjektion
ADJAdjektiv
ADJPAdjektiv, prädikativ gebraucht
ADJSAdjektiv, substantivisch gebraucht
ADJVAdjektiv, adverbiell gebraucht
ADV Adverb
INFInfinitiv
IZUInfinitiv mit "zu"
IZUAInfinitiv mit "zu", adjektivisch gebraucht (Gerundivform)
IZUSInfinitiv mit "zu", substantivisch gebraucht
SBIsubstantivierter Infinitiv
FIVfinite Verbform
PT1Partizip-1
PT1APartizip-1, adjektivisch gebraucht
PT1PPartizip-1, prädikativ gebraucht
PT1SPartizip-1, substantivisch gebraucht
PT1VPartizip-1, adverbiell gebraucht
PT2Partizip-2
PT2APartizip-2, adjektivisch gebraucht
PT2SPartizip-2, substantivisch gebraucht
PT2VPartizip-2, adverbiell gebraucht
VZSVerbzusatz
DEMDemonstrativpronomen, Artikel
RELRelativpronomen
FRAFragewort
FRANFragewort, einen Nebensatz einleitend
PERPersonalpronomen
POSPossessivpronomen
INDIndefinitpronomen
NUMZahlwort
NKOnebenordnende Konjunktion
UKOunterordnende Konjunktion
UOAum - ohne - anstatt (mit "zu")
ZU"zu" + Infinitiv
PRPPräposition, Postposition
DSS"daß"
OB"ob"
UEBzu übergehender Textanteil
FRMDfremdsprachlicher Textanteil
SATZSatzzeichen (ohne Komma)
KOMAKomma

Fußnote:
(1) Eggers, Hans und Mitarbeiter: Elektronische Syntaxanalyse der deutschen Gegenwartssprache, Tübingen, 1969
Eggers, Hans und andere: SALEM - Ein Verfahren zur automatischen Lemmatisierung deutscher Texte, Tübingen, 1980

3.2.1.2. Das Lemma

Als weitere Markierung wird jeder Wortform des in Bearbeitung befindlichen Textes die entsprechende Grundform - das Lemma - beigegeben. Das ist
- bei Substantiven:Der Nominativ des Singular
- bei Adjektiven:Die Normalform des Adjektivs (im Positiv)
- bei Verben:Der Infinitiv (Präsenz Aktiv)
- bei Pronomina:Der Nominativ Singular - ggf. des Maskulinums

Die Formen von Konjunktionen, Präpositionen, Postpositionen, Adverbien, Numeralia, sind unveränderlich. Sie bilden das jeweilige Lemma.

Einige Ausnahmen sind anzumerken:

3.2.1.3. Die Lemma-Wortklasse

Für die Klassifizierung der Lemmata wurden acht Lemmawortklassen eingeführt:

Lemmaklassezugehörige Wortklassen
S = SubstantivSUB
A = AdjektivADJ ADJP ADJS ADJV
V = VerbINF IZU IZUA IZUS SBI FIV
PT1 PT1A PT1P PT1S PT1V
PT2 PT2A PT2S PT2V
P = PartikelADV NUM ITJ
REL DEM FRA FRAN
PER POS IND
NKO UKO UOA ZU
PRP DSS OB
N = NameNAM
F = Fremdsprachlicher TextanteilFRMD
U = zu übergehender TextanteilVZS UEB
"NIL" = SatzzeichenSATZ KOMA

3.2.1.4. Die Positionsangabe

Bei der Vertikalisierung des Textes wird jeder Wortform eine Angabe über ihre Position im Text beigegeben, damit gegebenenfalls diese Wortform im Referenztext wieder aufgefunden werden kann.
Die Positionsangabe enthält dabei

Nach Beendigung der Markierung ist also jede Wortform des markierten Textes mit 4 "Tags" versehen.

Einige Beispiele dazu:

Tag 1Tag 2Tag 3Tag 4
WortformWortklasseGrundformLemmaklasseSeiteAbsatzWortLfd.Nr.
TodesrittSUBtodesrittS92225
willstFIVwollenV931296
verächtlicherADJ verächtlichA9316129

3.2.1.5. Das interne Speicherformat

Die markierten Texte werden in einem festen Format gespeichert. Für eine Wortform mit ihren Markierungen sind einundachtzig Bytes vorgesehen. Diese einundachtzig Bytes werden wie folgt belegt:
Belegung:Anzahl Bytes
Wortform25
Zwischenraum1
Wortklasse4
Zwischenraum1
Lemma25
Zwischenraum1
Lemmaklasse3
Zwischenraum1
Seitennummer4
Absatznummer3
Wortnummer4
Lfd. Zeichennummer7
"ASCII-13"1
"ASCII-10"1

Dieses feste Format - und nicht ein SGML-Format - wurde bewußt gewählt, um die nachfolgenden computergestützten Untersuchungen sowohl programmiertechnisch als auch hardwaremäßig erheblich zu erleichtern.

Es ist jedoch bei Bedarf ohne großen Aufwand möglich, die Texte aus diesem festen Format in ein SGML-Format zu konvertieren.

Anmerkung des Verfassers:

Mittlerweile wurde es notwendig, das Karl-May-Korpus in ein SGML-Format zu konvertieren. Die "Document Type Definition (DTD)" dazu lautet:

<!DOCTYPE kmk.dtd [
   <!ELEMENT kmk     - -    (s-corp+)>
   <!ELEMENT s-corp  - -    (head, body)>
   <!ELEMENT head    - -    (author, title, part)>
   <!ELEMENT author  - -    (#PCDATA)>
   <!ELEMENT title   - -    (#PCDATA)>
   <!ELEMENT part    - -    (#PCDATA)>
   <!ELEMENT body    - -    (w+)>
   <!ELEMENT w       - O    (#PCDATA)>
   <!ATTLIST w
     lemma  #PCDATA #REQUIRED
     wc     #PCDATA #REQUIRED
     lc     #PCDATA #REQUIRED
     >
]>

Als Beispiel wird ein Textstück von Anfang und Ende des Bandes "Kurdistan" hier angeführt:

<kmk.dtd>
  <kmk>
     <s-corp>
        <head>
            <author>Karl May</author>
            <title>Durchs wilde Kurdistan</title>
            <part></part>
        </head>
        <body>
<W wc="ADJ" lemma="erste" lc="A">ERSTES</W>
<W wc="SUB" lemma="kapitel" lc="S">KAPITEL</W>
<W wc="SATZ" lemma="" lc="">.</W>
<W wc="DEM" lemma="der/die/das" lc="P">Der</W>
<W wc="SUB" lemma="opfertod" lc="S">Opfertod</W>
<W wc="DEM" lemma="der/die/das" lc="P">des</W>
<W wc="ADJS" lemma="heilig" lc="A">Heiligen</W>
<W wc="SATZ" lemma="" lc="">.</W>
<W wc="PER" lemma="wir" lc="P">Wir</W>
<W wc="FIV" lemma="zurückkehren" lc="V">kehrten</W>
<W wc="PRP" lemma="von" lc="P">von</W>
<W wc="DEM" lemma="der/die/das" lc="P">dem</W>
<W wc="SUB" lemma="besuch" lc="S">Besuche</W>
<W wc="DEM" lemma="der/die/das" lc="P">des</W>
<W wc="SUB" lemma="häuptling" lc="S">Häuptlings</W>
<W wc="DEM" lemma="der/die/das" lc="P">der</W>
<W wc="SUB" lemma="badinankurde" lc="S">Badinankurden</W>
<W wc="VZS" lemma="zurück" lc="U">zurück</W>
<W wc="SATZ" lemma="" lc="">.</W>
. . . . .
<W wc="ADV" lemma="freilich" lc="P">freilich</W>
<W wc="FIV" lemma="können" lc="V">konnte</W>
<W wc="PER" lemma="ich" lc="P">ich</W>
<W wc="ADV" lemma="nicht" lc="P">nicht</W>
<W wc="INF" lemma="erwarten" lc="V">erwarten</W>
<W wc="KOMA" lemma="" lc="">,</W>
<W wc="DSS" lemma="daß" lc="P">daß</W>
<W wc="DEM" lemma="der/die/das" lc="P">der</W>
<W wc="SUB" lemma="inhalt" lc="S">Inhalt</W>
<W wc="DEM" lemma="ein" lc="P">ein</W>
<W wc="ADV" lemma="so" lc="P">so</W>
<W wc="PT1A" lemma="überraschen" lc="V">überraschender</W>
<W wc="FIV" lemma="sein" lc="V">sei</W>
<W wc="SATZ" lemma="" lc="">.</W>
        </body>
     </s-corp>
  </kmk>
</kmk.dtd>

3.2.2. Der Vorgang der Markierung (Das Tagging)

Um die Durchführung der komplexen Aufgabe der linguistischen Markierung eines Textes auf einem PC mit seinen vorgegebenen technischen Beschränkungen zu ermöglichen, erfolgt die Markierung - das "Tagging" - in mehreren aufeinander folgenden Schritten, die genau in dieser Reihenfolge ausgeführt werden:

Der erste dieser Schritte erfolgt automatisch, d.h. ohne Eingriffsmöglichkeit des Bearbeiters. Die anderen Schritte werden im Dialog zwischen dem jeweiligen Markierungsprogramm und dem Bearbeiter durchgeführt. Das Markierungsprogramm erstellt einen Vorschlag zur Markierung. Der Bearbeiter hat die Möglichkeit, diesen Vorschlag zu akzeptieren oder ganz bzw. in Teilen abzuändern.

In diesen Arbeitsschritten wird eine Reihe von Lexika benutzt, die jeweils auf empirischer Grundlage aufgrund von Wortschatzuntersuchungen von Texten des Autors Karl May erstellt worden sind. Diese Lexika sind gut nutzbar bei der Markierung des Karl-May-Korpus, erheben aber keinen Anspruch auf Allgemeingültigkeit.

3.2.2.1. Markierung eindeutiger Wortformen

In der deutschen Sprache gibt es Wortformen, die in Bezug auf ihre Wortklasse und ihre Grundform eindeutig bestimmbar sind. Darunter befinden sich besonders viele Partikel, die recht häufig auftreten. Diese Wortformen kann man anhand eines "Lexikons eindeutiger Wortformen" automatisch markieren. Hierzu zählen auch die Satzzeichen.

Aus Gründen der Zweckmäßigkeit ist dieses "Lexikon eindeutiger Wortformen" in mehrere Teile zerlegt, von denen jeder eine - oder mehrere verwandte - Wortklassen enthält. Die Teile dieses Lexikons sind im Anhang 1 zu finden.

In diesem Bearbeitungsschritt werden durchschnittlich 52,2 Prozent des Textes markiert.

3.2.2.2. Ein Lexikon markierter Wortformen

Aus allen Texten, die schon komplett markiert sind, ist ein Wortformen-Lexikon zusammengestellt worden. Dieses Lexikon ist nach Wortformen sortiert und enthält neben den Markierungen "Wortklasse", "Grundform" und "Lemmawortklasse" eine Angabe über die Häufigkeit des bisherigen Vorkommens.

Soll eine Wortform markiert werden, so zeigt das Markierungsprogramm alle Wortformen aus dem Lexikon - mit ihren "Tags" - , die mit der gesuchten Wortform identisch sind, und zwar werden diese Vorschläge in der Reihenfolge absteigender Häufigkeit angezeigt. Der Bearbeiter kann unter Berücksichtigung des ebenfalls angezeigten Kontextes einen dieser Vorschläge auswählen und akzeptieren oder die Bearbeitung dieser Wortform zurückstellen.

In diesem zweiten Bearbeitungsschritt der Markierung werden durchschnittlich weitere 44,5 Prozent des Textes markiert. Damit sind im ersten und zweiten Schritt der Markierung insgesamt 96,7 Prozent aller Wortformen bearbeitet.

3.2.2.3. Analyse von Substantiv-Suffixen

In der deutschen Sprache gibt es eine Anzahl von Suffixen, mit deren Hilfe Substantive gebildet werden können. In diesem dritten Bearbeitungsschritt werden bisher noch unmarkierte Wortformen auf das Vorhandensein solcher Suffixe abgetestet. Wird ein solches Suffix gefunden, so wird aus der Wortform die Grundform gefunden, indem das Suffix der Wortform durch das entsprechende Suffix seiner Grundform ersetzt wird. Das Analyseergebnis wird dem Bearbeiter als Vorschlag vorgestellt, der akzeptiert oder zurückgewiesen werden kann.

Anhang 2 zeigt die Liste der benutzten Suffixe, die zugehörige Wortklasse, das Suffix der zugehörigen Grundform und die entsprechende Lemmaklasse.

3.2.2.4. Morphologische Analyse von Verben

Zur morphologischen Analyse von Verbformen sind mehrere Lexika angelegt worden:

Das Markierungsverfahren besteht darin, daß von der zu klassifizierenden Wortform eventuell vorhandene Präfixe und Suffixe - auch vorkommenden Falles das Präfix/Infix des Partizips II "(-)ge-" - abgeschnitten werden und der verbleibende Rest in den Lexika der Verbstämme aufgesucht wird.
Wird der Rest als Verbstamm gefunden, so wird er mit einem eventuellen Präfix und der Infinitiv-Endung zur zugehörigen Grundform ergänzt. Das Ergebnis dieser Analyse wird dem Bearbeiter als Vorschlag vorgestellt, der akzeptiert oder zurückgewiesen werden kann.

Anhang 3 zeigt die Lexika von starken, schwachen und unregelmäßigen Verbstämmen.

Anhang 4 bringt die möglichen Endungen von Verbformen.

In Anhang 5 sind mögliche trennbare und untrennbare Präfixe von Verben zu finden.

3.2.2.5. Analyse von Adjektiv-Suffixen

In einem weiteren Arbeitsschritt werden bisher noch unmarkierte Wortformen anhand eines Lexikons von möglichen Adjektivsuffixen daraufhin überprüft, ob es sich bei ihnen um Adjektive handelt.
Falls ein solches Suffix am Ende einer Wortform entdeckt wird, wird es durch das Suffix der Grundform aus dem Lexikon ersetzt. Das Ergebnis dieser Analyse wird dem Bearbeiter als Vorschlag vorgestellt, der akzeptiert oder zurückgewiesen werden kann.

Anhang 6 enthält mögliche Adjektivsuffixe zusammen mit den Suffixen der zugehörigen Grundform.

3.2.2.6. Analyse großgeschriebener Wortformen

Im vorletzten Arbeitsschritt werden alle bisher noch unmarkierten Wortformen daraufhin untersucht, ob sie mit einem Großbuchstaben beginnen. In diesem Fall wird dem Bearbeiter die Wortklasse "SUB" vorgeschlagen; die Grundform muß der Bearbeiter erstellen. Sollte der Vorschlag nicht richtig sein, so kann der Bearbeiter ihn verwerfen.

3.2.2.7. Manuelle Markierung

Der Rest der bisher noch unmarkierten Wortformen muß vom Bearbeiter mit den nötigen Markierungen versehen werden. Die Wortform wird dem Bearbeiter auf dem Bildschirm in einer Dialogmaske - ähnlich wie in den vorangegangenen Schritten - angezeigt, die Eingabefelder für die benötigten Markierungen enthält.
Während der Eingabe der Wortklasse wird die Lemmaklasse automatisch hinzugefügt.

3.2.2.8. Abschlußarbeiten nach der Markierung

Nach erfolgter Markierung wird der Text nach Wortformen sortiert und zusammengefaßt. Jeder Wortform wird ihre Häufigkeit im Text vorangesetzt. Dadurch entsteht für den gerade behandelten Text ein Wortformenlexikon mit Häufigkeitsangabe.

Das interne Format dieser Datei entsteht aus dem in Abschnitt 3.2.1.5. vorgestellten Format dadurch, daß jedem Satz acht Bytes vorangestellt werden, von denen die ersten sieben die Häufigkeit der Wortform enthalten, das achte einen Zwischenraum. Dafür entfallen die neunzehn Bytes, die für eine einzelne Wortform die Angaben über den Fundort enthalten. Somit enthält in dieser Datei jeder Satz siebzig Bytes. Diese Datei wird nun mit dem in Abschnitt 3.2.2.2. erwähnten Wortformenlexikon zusammengemischt. Dadurch enthält dieses Wortformenlexikon zu jeder bisher aufgetretenen Wortform die Häufigkeit innerhalb des Gesamtkorpus.
Anschließend wird das Wortformenlexikon des gerade behandelten Textes nach Grundformen sortiert und zusammengefaßt. Das Ergebnis ist ein Grundformenverzeichnis für diesen Text. Dieses Grundformenverzeichnis enthält somit den "Wortschatz" des gerade bearbeiteten Textes.

3.2.2.9. Der Zeitaufwand

Grobe Erfahrungswerte für den Zeitaufwand, der für die Markierung gerechnet werden muß, sind:

Es ist nahezu unmöglich, an jedem Arbeitstag kontinuierlich an der Markierung eines Textes zu arbeiten. Diese Arbeit erfordert einerseits viel Konzentration, ist aber andererseits sehr eintönig und ermüdend. Deshalb zeigt die Erfahrung, daß die Markierung eines der Werke von Karl May, die zwischen 160.000 und 180.000 Wortformen umfassen, ungefähr ein Vierteljahr benötigt.