Ein linguistisch annotiertes Korpus von Texten Karl Mays.

Ein Zwischenbericht.

Von Karlheinz Everts

Ausschnitt aus den "Mitteilungen der Karl-May-Gesellschaft"
Nr. 105, Sept. 1995, S. 46 - 49

1. Einleitung

In seinem Werk über den Schriftsteller Karl May berichtet Viktor Böhm(1) von einer Wortschatzanalyse der Erzählung "Winnetou"(2). Das von Böhm erwähnte Ergebnis dieser Untersuchung (3065 Wörter in "Winnetou I") wurde in den Folgejahrzehnten immer wieder zitiert, aber bis zum Jahre 1991 offensichtlich nicht nachgeprüft, denn in der Diskussion auf der Karl-May-Tagung am 26. September 1991 in Wiesbaden(3) äußerte Prof. Dr. Roxin Zweifel an der Richtigkeit dieses Resultats und regte eine "umfassende Wortschatzuntersuchung" an. Diese Anregung habe ich aufgegriffen, und seitdem arbeite ich daran, ein Korpus der Texte des Schriftstellers Karl May zu erstellen. Nach der Erfassung des Textes des Romans "Scepter und Hammer" in der Fassung des Reprints der Karl-May-Gesellschaft von 1978 und einer nachfolgenden Lemmatisierung konnte ich als erstes Ergebnis einen Wortschatz von 9378 Wörtern vermerken. Ein Bericht darüber erschien 1993(4). Das Ziel, das ich bisher bei meiner Arbeit im Auge hatte, bestand in erster Linie darin, Aussagen über den Wortschatz von Karl May aufzustellen, und zwar Aussagen über die Größe, die Zusammensetzung und die Art der Verwendung des Wortschatzes. Während meiner Beschäftigung mit diesem Thema hat sich die Fragestellung mittlerweile erweitert, und ich möchte in Zukunft untersuchen, ob es quantitativ erfaßbare linguistische Phänomene gibt,

deren Ausprägung Unterschiede zeigt in den verschiedenen Schaffensphasen und in unterschiedlichen Werkgruppen,
deren Ausprägung bei Karl May sich von der Ausprägung bei anderen zeitgenössischen Schriftstellern unterscheidet.

Gegebenenfalls möchte ich diese Phänomene genauer darlegen und Fragen nach der Bedeutung und der Ursache solcher Phänomene aufzeigen.

2. Vorgehensweise

Zur Beantwortung der oben genannten Fragen muß ich mich auf eine Datenbasis stützen, die die in Frage kommenden Texte enthält. Es ist also notwendig, ein Korpus der Texte Karl Mays aufzubauen, wozu auch Einzeltexte zeitgenössischer Schriftsteller angefügt werden müßten. Ich gehe bei meinen Untersuchungen grundsätzlich von den unbearbeiteten Originaltexten aus, wie sie

in der historisch-kritischen Ausgabe von Wiedenroth und Wollschläger vorliegen,
im Pawlak-Verlag 1983 bzw. 1990 erschienen,
als Reprint von der Karl-May-Gesellschaft (KMG) und von den Verlagen Olms-Hildesheim, Graff-Braunschweig und dem Karl-May- Verlag-Bamberg herausgegeben wurden.

Zur weiteren Verarbeitung mit den Methoden der elektronischen Datenverarbeitung und der mathematischen Statistik werden die Texte auf einer Datenverarbeitungsanlage erfaßt, sodaß sie maschinell lesbar vorliegen. Abhängig von der typographischen Form, in der die Texte vorliegen, wird entweder ein Scanner zur Erfassung benutzt oder eine manuelle Eingabe durchgeführt. Die Umwandlung der mit einem Scanner eingelesenen Texte geschieht mit Hilfe des Programms "Omnipage Professionell". Nach beiden Formen der Eingabe wird der betreffende Text nochmals gelesen und dabei nötigenfalls korrigiert. Danach liegt er in Form einer Datei im ASCII-Code vor. Um die Untersuchungen der späteren Bearbeitungsphasen zu erleichtern oder sogar erst zu ermöglichen, werden zu allen Wortformen des Textes Angaben über die Wortklasse, die zugehörige Grundform (Lemma) und die Lemmawortklasse hinzugefügt. Dadurch wird auch die Mehrdeutigkeit von Wortformen beseitigt, die durch Homographen entsteht. Ich benutze dazu einen Satz von 43 Wortklassen für die Wortformen, bei dessen Erstellung ich mich im wesentlichen auf die Arbeiten von Eggers(5) stützte, und 7 Wortklassen für die Lemmata (siehe Anhang). Der Text wird also vertikalisiert, das bedeutet, daß für jede im Text auftretende Wortform (einschl. der Satzzeichen) ein Record (vergleichbar einer Druckzeile) angelegt wird, der - in einem festen Format - Raum für die Wortform, die Wortklasse, das zugehörige Lemma, die Lemmawortklasse und Angaben über den Fundort im Text (Seite, Absatz auf der Seite, Wort im Absatz) enthält. Die Bestimmung der Wortklasse und der Grundform (Lemma) geschieht in mehreren Phasen. Die erste Phase besteht darin, die Wortklasse und das Lemma zu Wortformen, die eindeutig bestimmbar sind, anhand eines Wortformenlexikons vollautomatisch hinzuzufügen. Auch die Satzzeichen werden hier markiert. Die zweite Phase besteht in der Anwendung eines weiteren Wortformenlexikons, das auch Homographen enthält. Für eine Wortform sind darin soviel Einträge angelegt, wie Homographen von ihr existieren. Jeder Eintrag enthält neben der Wortklasse, dem Lemma und der Lemmawortklasse eine Angabe über die Häufigkeit, mit der diese Version der Wortform in dem bislang schon markierten Teil des Korpus aufgetreten ist. Die Markierung geschieht im Dialog mit einem Rechnerprogramm, das die verschiedenen Möglichkeiten zur Markierung einer Wortform auf dem Monitor anzeigt, und zwar sortiert nach fallenden Häufigkeiten des bisherigen Auftretens. Dazu wird die betreffende Wortform in ihrem Kontext dargestellt. Die Wahl der richtigen Markierung wird durch den linguistischen Bearbeiter getroffen. In einer dritten Phase werden die noch unmarkierten Wortformen morphologischen Untersuchungen unterworfen, die in mehreren Schritten nacheinander ablaufen:

die Erkennung von Substantiven an Suffixen, die zur Bildung von Substantiven dienen.
die Erkennung von Verben durch Kombination a) der Erkennung von Flexionsformen, b) der Erkennung von Präfixen und c) der Benutzung eines Lexikons von Verbstämmen.
die Erkennung von Adjektiven an Suffixen, die zur Bildung von Adjektiven dienen.

Auch diese Markierungen werden im Dialog des Bearbeiters mit dem entsprechenden Rechnerprogramm durchgeführt. Der verbleibende Rest der Wortformen wird manuell markiert.

3. Erfahrungen

Erfahrungswerte für den Umfang der Resultate der einzelnen Phasen sind:

15 % der Wortformen sind Satzzeichen,
37 % werden außer den Satzzeichen noch in Phase 1 markiert,
44 % in Phase 2,
3 % in Phase 3 und
1 % muß manuell markiert werden.

Erfahrungswerte für den Zeitaufwand sind:

6 Arbeitsstunden für die Eingabe eines Buches mit einem Umfang von 900.000 bis 1.000.000 Zeichen über einen Scanner,
20 Arbeitsstunden für die Korrekturlesung,
180 Arbeitsstunden für die Markierung der Wortformen.

4. Fehlerquellen

Fehlerquellen sind:

das OCR(6)-Programm zur Texterkennung: zur Eingabe der Texte mittels Scanner steht mir in einem befreundeten Rechenzentrum in betriebsschwachen Zeiten eine Datenverarbeitungsanlage zur Verfügung. Die dort bezüglich des OCR-Programms benutzten Parameter kann ich nicht in allen Fällen nach meinen Bedürfnissen abändern. Vielleicht ist das die Ursache für sporadisch auftretende Erkennungsfehler. Recht häufig zerteilt dieses Programm nämlich Formen zusammengesetzter Verben, die eigentlich zusammengeschrieben werden müßten (z.B.: zusammengeschrieben - zusammen geschrieben). Dieser Fehler ist auch bei der Korrektur schlecht zu erkennen, weil es ja im Deutschen auch vorkommt, daß solche Formen berechtigterweise getrennt geschrieben werden, und weil Karl May selbst nicht ganz konsequent in dieser Schreibung ist.
die Korrekturlesung: die Anstrengungen lang dauernder Arbeit am Bildschirm verhindern, daß alle Fehler erkannt werden, die sich in vorhergehenden Arbeitsschritten eingeschlichen haben.
die Markierung: es ist unausbleiblich, daß sich während des langen Prozesses der linguistischen Markierung im Dialog am Bildschirm Fehler der Art einstellen, daß z.B. von mehreren angezeigten Alternativen eine falsche ausgewählt wird. Es passiert auch immer wieder einmal, daß vom Bearbeiter eine grammatische Beziehung falsch aufgefasst und deshalb eine falsche Markierung gewählt wird.
die Lemmatisierung: eine Schwierigkeit bei der manuellen Lemmatisierung besteht darin, daß bei der Lemmatisierung verschiedener Wortformen des an sich gleichen Lemmas - Arbeitsschritte, die zeitlich sehr weit auseinander liegen können - verschiedene Formen des Lemmas gewählt werden, (obwohl das dem Begriff des Lemmas eigentlich widerspricht). So gibt es nämlich im Deutschen gleichberechtigt nebeneinander die Formen "öd - öde", "bös - böse", "Hirt - Hirte" u.a.

Aber meine jetzt über anderthalb Jahre gesammelten Erfahrungen zeigen, daß die Fehlerquote höchstens in der Größenordnung von einem Promille liegt.

5. Stand der Arbeit

Titel	Scan	Korrektur	Markierung
(01. Sep. 1995)		Zeichenzl.	Token	Types
Scepter und Hammer	û	û 1160119			1879
Durch die Wüste	û	û 906575	û 171785	16869	1881
Durchs wilde Kurdistan	û	û 923054	û 177126	15366	1881
Von Bagdad nach Stambul	û	û 974783	û 184343	17791	1883
In den Schluchten des Balkan	û	û 879743			1885
Durch das Land der Skipetaren	û	û 886042			1888
Der Schut	û	û 850714			1888
Der Schut (Anhang)	û	û 177941			1892
Am Rio de la Plata	û				1889
Der Schatz im Silbersee	û	û 1197947			1890
Winnetou I	û	û 982852	û 187738	15304	1893
Weihnacht	û	û 981187			1897
Am Jenseits	û	û 940484	û 177560	16268	1898
Ardistan und Dschinnistan II	û				1910
Der verlorene Sohn I	û				1883
Der verlorene Sohn II	û				1884
In den Kordilleren	û
A.Stifter: Der Nachsommer	û	û 1553381
F.W.Hackländer: Der Augenblick des Glücks	û	û 619757

6. Untersuchungen an den Texten

Bisher habe ich an den Texten, die schon in markierter Fassung vorliegen, folgende Auswertungen und Untersuchungen vorgenommen:

Zählung der Types(7) eines Textes
Zählung der Lemmata eines Textes
Bestimmung der Häufigkeiten in den einzelnen Wortklassen
Bestimmung der Verteilung der Textzeichen
Bestimmung der Verteilung der Wortlänge (in Buchstaben) auch aufgeteilt auf die Lemmawortklassen
Bestimmung der Verteilung der Wortlänge (in Silben) auch aufgeteilt auf die Lemmawortklassen
Bestimmung der Verteilung der Satzlänge (in Wörtern)
Bestimmung der Verteilung einzelner Lemmawortklassen im Satz
Untersuchung der Substantivbildung durch Affixe
Aufsuchen von Wiederholungen von Textteilen, oft gebrauchten Redewendungen usw.

Weitere Auswertungen sind im Stadium der Planung, so z.B.

eine Untersuchung über Art und Verteilung von Nominalphrasen,
eine "Co-occurrence"-Untersuchung zur Aufdeckung semantischer Beziehungen
eine Untersuchung über die Korrelationsbeziehungen zweier Texte

7. Ausblick

Ich hoffe, daß die Erstellung dieses linguistisch annotierten Korpus der Texte Karl Mays Anlaß und Grundlage bildet für manche weiteren sprachwissenschaftlichen Untersuchungen über diesen Autor. An dieser Stelle danke ich Herrn Prof. Dr. W. Lenders vom Institut für Phonetik und Kommunikationsforschung der Universität Bonn für seine Unterstützung und für die Hinweise, die er mir zur Fortführung meiner Arbeiten zukommen ließ.
Bad Honnef, (01. Sep. 1995)

Anhang:
Verwendete Wortklassen:

SUB    Substantiv
NAM    Namen
ITJ    Interjektion
ADJ    Adjektiv
ADJP   Adjektiv, in prädikativer Stellung
ADJS   Adjektiv, substantiviert
ADJV   Adjektiv, adverbiell benutzt
ADV    Adverb
INF    Verb, Infinitiv
SBI    Verb, substantivierter Infinitiv
IZU    Verb, Infinitiv mit "zu"
IZUA   Gerundivum, adjektivisch benutzt
IZUS   Gerundivum, substantivisch benutzt
FIV    Verb, finite Form
PT1    Verb, Partizip I
PT1A   Verb, Partizip I, adjektivisch benutzt
PT1P   Verb, Partizip I, prädikativ benutzt
PT1S   Verb, Partizip I, substantiviert
PT1V   Verb, Partizip I, adverbiell benutzt
PT2    Verb, Partizip II,
PT2A   Verb, Partizip II, adjektivisch benutzt
PT2S   Verb, Partizip II, substantiviert
PT2V   Verb, Partizip II, adverbiell benutzt
VZS    Verbzusatz
REL    Relativpronomen
DEM    Demonstrativpronomen, Artikel
FRA    Fragepronomen
FRAN   Fragepronomen als Einleitung eines Nebensatzes
PER    Personalpronomen
POS    Possessivpronomen
IND    Indefinitpronomen
NUM    Zahlwort
NKO    Nebenordnende Konjunktion
UKO    Unterordnende Konjunktion
UOA    um zu, ohne zu, anstatt zu
ZU     "zu" vor Infinitiv
PRP    Präposition
DSS    "daß"
OB     "ob"
UEB    Zu übergehende Wortform oder Bruchstück
FRMD   Fremdsprachlicher Textanteil
SATZ   Satzzeichen (. ! ? ; :)
KOMA   Komma

Lemmawortklassen:
S Substantiv			N Namen
A Adjektiv			V Verb
P Partikel			F Fremdsprachlicher Textanteil
U Zu übergende Wortform oder Bruchstück


Fußnoten:

1 Viktor Böhm: Karl May und das Geheimnis seines Erfolges, 
  Wien, 1955
2 Margareta Buchmeisser: Der Wortschatz Karl Mays mit
  Wörterverzeichnis des May-Romanes "Winnetou", ungedr.
  Manuskript, Wien, o.J.
3 C.F.Lorenz: Diskussion auf der Karl-May-Tagung in Wiesbaden, in:
  Mitteilungen der Karl-May-Gesellschaft(M-KMG), Nr. 94/1992, 
  S. 40 und Nr. 95/1993, S. 19
4 K. Everts: Statistische Betrachtungen der schriftstellerischen
  Qualität Karl Mays, M-KMG Nr.98/1993, S. 17
5 H.Eggers: Elektronische Syntaxanalyse der deutschen
  Gegenwartssprache, Tübingen, 1969
  Sonderforschungsbereich 100 >Elektronische Sprachforschung<
  Projektbereich A: SALEM, ein Verfahren zur automatischen
  Lemmatisierung deutscher Texte, Tübingen, 1980
6 OCR = Optical Character Recognition
7 "Type" ist der repräsentative Vertreter der Menge aller
  Realisationen einer bestimmten Wortform im Text.
  "Token" ist die Bezeichnung für eine dieser Wortformen.

Wortschätze

Titelseite KMG

Impressum Datenschutz