Ein linguistisch annotiertes Korpus von Texten Karl Mays.

Ein Zwischenbericht.

Von Karlheinz Everts

Ausschnitt aus den "Mitteilungen der Karl-May-Gesellschaft"
Nr. 105, Sept. 1995, S. 46 - 49

1. Einleitung

In seinem Werk über den Schriftsteller Karl May berichtet Viktor Böhm(1) von einer Wortschatzanalyse der Erzählung "Winnetou"(2). Das von Böhm erwähnte Ergebnis dieser Untersuchung (3065 Wörter in "Winnetou I") wurde in den Folgejahrzehnten immer wieder zitiert, aber bis zum Jahre 1991 offensichtlich nicht nachgeprüft, denn in der Diskussion auf der Karl-May-Tagung am 26. September 1991 in Wiesbaden(3) äußerte Prof. Dr. Roxin Zweifel an der Richtigkeit dieses Resultats und regte eine "umfassende Wortschatzuntersuchung" an. Diese Anregung habe ich aufgegriffen, und seitdem arbeite ich daran, ein Korpus der Texte des Schriftstellers Karl May zu erstellen. Nach der Erfassung des Textes des Romans "Scepter und Hammer" in der Fassung des Reprints der Karl-May-Gesellschaft von 1978 und einer nachfolgenden Lemmatisierung konnte ich als erstes Ergebnis einen Wortschatz von 9378 Wörtern vermerken. Ein Bericht darüber erschien 1993(4). Das Ziel, das ich bisher bei meiner Arbeit im Auge hatte, bestand in erster Linie darin, Aussagen über den Wortschatz von Karl May aufzustellen, und zwar Aussagen über die Größe, die Zusammensetzung und die Art der Verwendung des Wortschatzes. Während meiner Beschäftigung mit diesem Thema hat sich die Fragestellung mittlerweile erweitert, und ich möchte in Zukunft untersuchen, ob es quantitativ erfaßbare linguistische Phänomene gibt, Gegebenenfalls möchte ich diese Phänomene genauer darlegen und Fragen nach der Bedeutung und der Ursache solcher Phänomene aufzeigen.

2. Vorgehensweise

Zur Beantwortung der oben genannten Fragen muß ich mich auf eine Datenbasis stützen, die die in Frage kommenden Texte enthält. Es ist also notwendig, ein Korpus der Texte Karl Mays aufzubauen, wozu auch Einzeltexte zeitgenössischer Schriftsteller angefügt werden müßten. Ich gehe bei meinen Untersuchungen grundsätzlich von den unbearbeiteten Originaltexten aus, wie sie Zur weiteren Verarbeitung mit den Methoden der elektronischen Datenverarbeitung und der mathematischen Statistik werden die Texte auf einer Datenverarbeitungsanlage erfaßt, sodaß sie maschinell lesbar vorliegen. Abhängig von der typographischen Form, in der die Texte vorliegen, wird entweder ein Scanner zur Erfassung benutzt oder eine manuelle Eingabe durchgeführt. Die Umwandlung der mit einem Scanner eingelesenen Texte geschieht mit Hilfe des Programms "Omnipage Professionell". Nach beiden Formen der Eingabe wird der betreffende Text nochmals gelesen und dabei nötigenfalls korrigiert. Danach liegt er in Form einer Datei im ASCII-Code vor. Um die Untersuchungen der späteren Bearbeitungsphasen zu erleichtern oder sogar erst zu ermöglichen, werden zu allen Wortformen des Textes Angaben über die Wortklasse, die zugehörige Grundform (Lemma) und die Lemmawortklasse hinzugefügt. Dadurch wird auch die Mehrdeutigkeit von Wortformen beseitigt, die durch Homographen entsteht. Ich benutze dazu einen Satz von 43 Wortklassen für die Wortformen, bei dessen Erstellung ich mich im wesentlichen auf die Arbeiten von Eggers(5) stützte, und 7 Wortklassen für die Lemmata (siehe Anhang). Der Text wird also vertikalisiert, das bedeutet, daß für jede im Text auftretende Wortform (einschl. der Satzzeichen) ein Record (vergleichbar einer Druckzeile) angelegt wird, der - in einem festen Format - Raum für die Wortform, die Wortklasse, das zugehörige Lemma, die Lemmawortklasse und Angaben über den Fundort im Text (Seite, Absatz auf der Seite, Wort im Absatz) enthält. Die Bestimmung der Wortklasse und der Grundform (Lemma) geschieht in mehreren Phasen. Die erste Phase besteht darin, die Wortklasse und das Lemma zu Wortformen, die eindeutig bestimmbar sind, anhand eines Wortformenlexikons vollautomatisch hinzuzufügen. Auch die Satzzeichen werden hier markiert. Die zweite Phase besteht in der Anwendung eines weiteren Wortformenlexikons, das auch Homographen enthält. Für eine Wortform sind darin soviel Einträge angelegt, wie Homographen von ihr existieren. Jeder Eintrag enthält neben der Wortklasse, dem Lemma und der Lemmawortklasse eine Angabe über die Häufigkeit, mit der diese Version der Wortform in dem bislang schon markierten Teil des Korpus aufgetreten ist. Die Markierung geschieht im Dialog mit einem Rechnerprogramm, das die verschiedenen Möglichkeiten zur Markierung einer Wortform auf dem Monitor anzeigt, und zwar sortiert nach fallenden Häufigkeiten des bisherigen Auftretens. Dazu wird die betreffende Wortform in ihrem Kontext dargestellt. Die Wahl der richtigen Markierung wird durch den linguistischen Bearbeiter getroffen. In einer dritten Phase werden die noch unmarkierten Wortformen morphologischen Untersuchungen unterworfen, die in mehreren Schritten nacheinander ablaufen: Auch diese Markierungen werden im Dialog des Bearbeiters mit dem entsprechenden Rechnerprogramm durchgeführt. Der verbleibende Rest der Wortformen wird manuell markiert.

3. Erfahrungen

Erfahrungswerte für den Umfang der Resultate der einzelnen Phasen sind: Erfahrungswerte für den Zeitaufwand sind:

4. Fehlerquellen

Fehlerquellen sind: Aber meine jetzt über anderthalb Jahre gesammelten Erfahrungen zeigen, daß die Fehlerquote höchstens in der Größenordnung von einem Promille liegt.

5. Stand der Arbeit

Titel Scan Korrektur Markierung
(01. Sep. 1995) Zeichenzl. Token Types
Scepter und Hammer 1160119 1879
Durch die Wüste 906575 171785 16869 1881
Durchs wilde Kurdistan 923054 177126 15366 1881
Von Bagdad nach Stambul 974783 184343 17791 1883
In den Schluchten des Balkan 879743 1885
Durch das Land der Skipetaren 886042 1888
Der Schut 850714 1888
Der Schut (Anhang) 177941 1892
Am Rio de la Plata 1889
Der Schatz im Silbersee 1197947 1890
Winnetou I 982852 187738 15304 1893
Weihnacht 981187 1897
Am Jenseits 940484 177560 16268 1898
Ardistan und Dschinnistan II 1910
Der verlorene Sohn I 1883
Der verlorene Sohn II 1884
In den Kordilleren
A.Stifter: Der Nachsommer 1553381
F.W.Hackländer:
Der Augenblick des Glücks
619757

6. Untersuchungen an den Texten

Bisher habe ich an den Texten, die schon in markierter Fassung vorliegen, folgende Auswertungen und Untersuchungen vorgenommen: Weitere Auswertungen sind im Stadium der Planung, so z.B.

7. Ausblick

Ich hoffe, daß die Erstellung dieses linguistisch annotierten Korpus der Texte Karl Mays Anlaß und Grundlage bildet für manche weiteren sprachwissenschaftlichen Untersuchungen über diesen Autor. An dieser Stelle danke ich Herrn Prof. Dr. W. Lenders vom Institut für Phonetik und Kommunikationsforschung der Universität Bonn für seine Unterstützung und für die Hinweise, die er mir zur Fortführung meiner Arbeiten zukommen ließ.
Bad Honnef, (01. Sep. 1995)

Anhang:
Verwendete Wortklassen:

SUB    Substantiv
NAM    Namen
ITJ    Interjektion
ADJ    Adjektiv
ADJP   Adjektiv, in prädikativer Stellung
ADJS   Adjektiv, substantiviert
ADJV   Adjektiv, adverbiell benutzt
ADV    Adverb
INF    Verb, Infinitiv
SBI    Verb, substantivierter Infinitiv
IZU    Verb, Infinitiv mit "zu"
IZUA   Gerundivum, adjektivisch benutzt
IZUS   Gerundivum, substantivisch benutzt
FIV    Verb, finite Form
PT1    Verb, Partizip I
PT1A   Verb, Partizip I, adjektivisch benutzt
PT1P   Verb, Partizip I, prädikativ benutzt
PT1S   Verb, Partizip I, substantiviert
PT1V   Verb, Partizip I, adverbiell benutzt
PT2    Verb, Partizip II,
PT2A   Verb, Partizip II, adjektivisch benutzt
PT2S   Verb, Partizip II, substantiviert
PT2V   Verb, Partizip II, adverbiell benutzt
VZS    Verbzusatz
REL    Relativpronomen
DEM    Demonstrativpronomen, Artikel
FRA    Fragepronomen
FRAN   Fragepronomen als Einleitung eines Nebensatzes
PER    Personalpronomen
POS    Possessivpronomen
IND    Indefinitpronomen
NUM    Zahlwort
NKO    Nebenordnende Konjunktion
UKO    Unterordnende Konjunktion
UOA    um zu, ohne zu, anstatt zu
ZU     "zu" vor Infinitiv
PRP    Präposition
DSS    "daß"
OB     "ob"
UEB    Zu übergehende Wortform oder Bruchstück
FRMD   Fremdsprachlicher Textanteil
SATZ   Satzzeichen (. ! ? ; :)
KOMA   Komma

Lemmawortklassen:
S Substantiv			N Namen
A Adjektiv			V Verb
P Partikel			F Fremdsprachlicher Textanteil
U Zu übergende Wortform oder Bruchstück


Fußnoten:

1 Viktor Böhm: Karl May und das Geheimnis seines Erfolges, 
  Wien, 1955
2 Margareta Buchmeisser: Der Wortschatz Karl Mays mit
  Wörterverzeichnis des May-Romanes "Winnetou", ungedr.
  Manuskript, Wien, o.J.
3 C.F.Lorenz: Diskussion auf der Karl-May-Tagung in Wiesbaden, in:
  Mitteilungen der Karl-May-Gesellschaft(M-KMG), Nr. 94/1992, 
  S. 40 und Nr. 95/1993, S. 19
4 K. Everts: Statistische Betrachtungen der schriftstellerischen
  Qualität Karl Mays, M-KMG Nr.98/1993, S. 17
5 H.Eggers: Elektronische Syntaxanalyse der deutschen
  Gegenwartssprache, Tübingen, 1969
  Sonderforschungsbereich 100 >Elektronische Sprachforschung<
  Projektbereich A: SALEM, ein Verfahren zur automatischen
  Lemmatisierung deutscher Texte, Tübingen, 1980
6 OCR = Optical Character Recognition
7 "Type" ist der repräsentative Vertreter der Menge aller
  Realisationen einer bestimmten Wortform im Text.
  "Token" ist die Bezeichnung für eine dieser Wortformen.


Wortschätze

Titelseite KMG