Ein linguistisch annotiertes Korpus von Texten Karl Mays.
Ein Zwischenbericht.
Von Karlheinz Everts
Ausschnitt aus den "Mitteilungen der Karl-May-Gesellschaft"
Nr. 105, Sept. 1995, S. 46 - 49
1. Einleitung
In seinem Werk über den Schriftsteller Karl May berichtet Viktor
Böhm(1) von einer Wortschatzanalyse der Erzählung "Winnetou"(2).
Das von Böhm erwähnte Ergebnis dieser Untersuchung (3065 Wörter in
"Winnetou I") wurde in den Folgejahrzehnten immer wieder zitiert, aber bis zum
Jahre 1991 offensichtlich nicht nachgeprüft, denn in der Diskussion auf der
Karl-May-Tagung am 26. September 1991 in Wiesbaden(3) äußerte
Prof. Dr. Roxin Zweifel an der Richtigkeit dieses Resultats und regte eine
"umfassende Wortschatzuntersuchung" an.
Diese Anregung habe ich aufgegriffen, und seitdem arbeite ich daran, ein Korpus
der Texte des Schriftstellers Karl May zu erstellen. Nach der Erfassung des Textes
des Romans "Scepter und
Hammer" in der Fassung des Reprints der
Karl-May-Gesellschaft von 1978 und einer nachfolgenden Lemmatisierung konnte ich
als erstes Ergebnis einen Wortschatz von 9378 Wörtern vermerken.
Ein Bericht darüber erschien 1993(4).
Das Ziel, das ich bisher bei meiner Arbeit im Auge hatte, bestand in erster Linie
darin, Aussagen über den Wortschatz von Karl May aufzustellen, und zwar
Aussagen über die Größe, die Zusammensetzung und die Art der
Verwendung des Wortschatzes.
Während meiner Beschäftigung mit diesem Thema hat sich die Fragestellung
mittlerweile erweitert, und ich möchte in Zukunft untersuchen, ob es
quantitativ erfaßbare linguistische Phänomene gibt,
- deren Ausprägung Unterschiede zeigt in den verschiedenen
Schaffensphasen und in unterschiedlichen Werkgruppen,
- deren Ausprägung bei Karl May sich von der Ausprägung bei
anderen zeitgenössischen Schriftstellern unterscheidet.
Gegebenenfalls möchte ich diese Phänomene genauer darlegen und Fragen
nach der Bedeutung und der Ursache solcher Phänomene aufzeigen.
2. Vorgehensweise
Zur Beantwortung der oben genannten Fragen muß ich mich auf eine Datenbasis
stützen, die die in Frage kommenden Texte enthält. Es ist also
notwendig, ein Korpus der Texte Karl Mays aufzubauen, wozu auch Einzeltexte
zeitgenössischer Schriftsteller angefügt werden müßten.
Ich gehe bei meinen Untersuchungen grundsätzlich von den unbearbeiteten
Originaltexten aus, wie sie
- in der historisch-kritischen Ausgabe von Wiedenroth und
Wollschläger vorliegen,
- im Pawlak-Verlag 1983 bzw. 1990 erschienen,
- als Reprint von der Karl-May-Gesellschaft (KMG) und von den
Verlagen Olms-Hildesheim, Graff-Braunschweig und dem Karl-May-
Verlag-Bamberg herausgegeben wurden.
Zur weiteren Verarbeitung mit den Methoden der elektronischen Datenverarbeitung
und der mathematischen Statistik werden die Texte auf einer
Datenverarbeitungsanlage erfaßt, sodaß sie maschinell lesbar vorliegen.
Abhängig von der typographischen Form, in der die Texte vorliegen, wird
entweder ein Scanner zur Erfassung benutzt oder eine manuelle Eingabe
durchgeführt. Die Umwandlung der mit einem Scanner eingelesenen Texte
geschieht mit Hilfe des Programms "Omnipage Professionell".
Nach beiden Formen der Eingabe wird der betreffende Text nochmals gelesen und
dabei nötigenfalls korrigiert. Danach liegt er in Form einer Datei im
ASCII-Code vor.
Um die Untersuchungen der späteren Bearbeitungsphasen zu erleichtern oder
sogar erst zu ermöglichen, werden zu allen Wortformen des Textes Angaben
über die Wortklasse, die zugehörige Grundform (Lemma) und die
Lemmawortklasse hinzugefügt. Dadurch wird auch die Mehrdeutigkeit von
Wortformen beseitigt, die durch Homographen entsteht. Ich benutze dazu einen
Satz von 43 Wortklassen für die Wortformen, bei dessen Erstellung ich mich
im wesentlichen auf die Arbeiten von Eggers(5) stützte, und 7 Wortklassen
für die Lemmata (siehe Anhang).
Der Text wird also vertikalisiert, das bedeutet, daß für jede im
Text auftretende Wortform (einschl. der Satzzeichen) ein Record (vergleichbar
einer Druckzeile) angelegt wird, der - in einem festen Format - Raum für
die Wortform, die Wortklasse, das zugehörige Lemma, die Lemmawortklasse
und Angaben über den Fundort im Text (Seite, Absatz auf der Seite, Wort
im Absatz) enthält.
Die Bestimmung der Wortklasse und der Grundform (Lemma) geschieht in mehreren
Phasen. Die erste Phase besteht darin, die Wortklasse und das Lemma zu
Wortformen, die eindeutig bestimmbar sind, anhand eines Wortformenlexikons
vollautomatisch hinzuzufügen. Auch die Satzzeichen werden hier markiert.
Die zweite Phase besteht in der Anwendung eines weiteren Wortformenlexikons,
das auch Homographen enthält. Für eine Wortform sind darin soviel
Einträge angelegt, wie Homographen von ihr existieren. Jeder Eintrag
enthält neben der Wortklasse, dem Lemma und der Lemmawortklasse eine
Angabe über die Häufigkeit, mit der diese Version der Wortform in
dem bislang schon markierten Teil des Korpus aufgetreten ist. Die Markierung
geschieht im Dialog mit einem Rechnerprogramm, das die verschiedenen
Möglichkeiten zur Markierung einer Wortform auf dem Monitor anzeigt,
und zwar sortiert nach fallenden Häufigkeiten des bisherigen Auftretens.
Dazu wird die betreffende Wortform in ihrem Kontext dargestellt. Die Wahl der
richtigen Markierung wird durch den linguistischen Bearbeiter getroffen.
In einer dritten Phase werden die noch unmarkierten Wortformen morphologischen
Untersuchungen unterworfen, die in mehreren Schritten nacheinander ablaufen:
- die Erkennung von Substantiven an Suffixen, die zur Bildung von
Substantiven dienen.
- die Erkennung von Verben durch Kombination a) der Erkennung von
Flexionsformen, b) der Erkennung von Präfixen und c) der
Benutzung eines Lexikons von Verbstämmen.
- die Erkennung von Adjektiven an Suffixen, die zur Bildung von
Adjektiven dienen.
Auch diese Markierungen werden im Dialog des Bearbeiters mit dem entsprechenden
Rechnerprogramm durchgeführt.
Der verbleibende Rest der Wortformen wird manuell markiert.
3. Erfahrungen
Erfahrungswerte für den Umfang der Resultate der einzelnen Phasen sind:
- 15 % der Wortformen sind Satzzeichen,
- 37 % werden außer den Satzzeichen noch in Phase 1 markiert,
- 44 % in Phase 2,
- 3 % in Phase 3 und
- 1 % muß manuell markiert werden.
Erfahrungswerte für den Zeitaufwand sind:
- 6 Arbeitsstunden für die Eingabe eines Buches mit einem Umfang
von 900.000 bis 1.000.000 Zeichen über einen Scanner,
- 20 Arbeitsstunden für die Korrekturlesung,
- 180 Arbeitsstunden für die Markierung der Wortformen.
4. Fehlerquellen
Fehlerquellen sind:
- das OCR(6)-Programm zur Texterkennung:
zur Eingabe der Texte mittels Scanner steht mir in einem befreundeten
Rechenzentrum in betriebsschwachen Zeiten eine Datenverarbeitungsanlage
zur Verfügung. Die dort bezüglich des OCR-Programms benutzten
Parameter kann ich nicht in allen Fällen nach meinen Bedürfnissen
abändern. Vielleicht ist das die Ursache für sporadisch auftretende
Erkennungsfehler. Recht häufig zerteilt dieses Programm nämlich
Formen zusammengesetzter Verben, die eigentlich zusammengeschrieben werden
müßten (z.B.: zusammengeschrieben - zusammen geschrieben).
Dieser Fehler ist auch bei der Korrektur schlecht zu erkennen, weil es ja
im Deutschen auch vorkommt, daß solche Formen berechtigterweise getrennt
geschrieben werden, und weil Karl May selbst nicht ganz konsequent in dieser
Schreibung ist.
- die Korrekturlesung:
die Anstrengungen lang dauernder Arbeit am Bildschirm verhindern, daß
alle Fehler erkannt werden, die sich in vorhergehenden Arbeitsschritten
eingeschlichen haben.
- die Markierung:
es ist unausbleiblich, daß sich während des langen Prozesses der
linguistischen Markierung im Dialog am Bildschirm Fehler der Art einstellen,
daß z.B. von mehreren angezeigten Alternativen eine falsche
ausgewählt wird.
Es passiert auch immer wieder einmal, daß vom Bearbeiter eine grammatische
Beziehung falsch aufgefasst und deshalb eine falsche Markierung gewählt wird.
- die Lemmatisierung:
eine Schwierigkeit bei der manuellen Lemmatisierung besteht darin, daß bei
der Lemmatisierung verschiedener Wortformen des an sich gleichen Lemmas
- Arbeitsschritte, die zeitlich sehr weit auseinander liegen können -
verschiedene Formen des Lemmas gewählt werden, (obwohl das dem Begriff
des Lemmas eigentlich widerspricht). So gibt es nämlich im Deutschen
gleichberechtigt nebeneinander die Formen "öd - öde", "bös -
böse", "Hirt - Hirte" u.a.
Aber meine jetzt über anderthalb Jahre gesammelten Erfahrungen zeigen,
daß die Fehlerquote höchstens in der Größenordnung
von einem Promille liegt.
5. Stand der Arbeit
Titel | Scan | Korrektur | Markierung
|
(01. Sep. 1995) | | Zeichenzl. | Token | Types
|
Scepter und Hammer | û | û 1160119 | | | 1879
|
Durch die Wüste | û | û 906575 | û 171785 | 16869
| 1881
|
Durchs wilde Kurdistan | û | û 923054 | û 177126 | 15366
| 1881
|
Von Bagdad nach Stambul | û | û 974783 | û 184343 | 17791
| 1883
|
In den Schluchten des Balkan | û | û 879743 | | |
1885
|
Durch das Land der Skipetaren | û | û 886042 | | |
1888
|
Der Schut | û | û 850714 | | |
1888
|
Der Schut (Anhang) | û | û 177941 | | |
1892
|
Am Rio de la Plata | û | | | | 1889
|
Der Schatz im Silbersee | û | û 1197947 | | |
1890
|
Winnetou I | û | û 982852 | û 187738 | 15304
| 1893
|
Weihnacht | û | û 981187 | | |
1897
|
Am Jenseits | û | û 940484 | û 177560 | 16268
| 1898
|
Ardistan und Dschinnistan II | û | | | | 1910
|
Der verlorene Sohn I | û | | | | 1883
|
Der verlorene Sohn II | û | | | | 1884
|
In den Kordilleren | û | | | |
|
A.Stifter: Der Nachsommer | û | û 1553381 | | |
|
F.W.Hackländer:
Der Augenblick des Glücks | û | û 619757 | | |
|
6. Untersuchungen an den Texten
Bisher habe ich an den Texten, die schon in markierter Fassung vorliegen,
folgende Auswertungen und Untersuchungen vorgenommen:
- Zählung der Types(7) eines Textes
- Zählung der Lemmata eines Textes
- Bestimmung der Häufigkeiten in den einzelnen Wortklassen
- Bestimmung der Verteilung der Textzeichen
- Bestimmung der Verteilung der Wortlänge (in Buchstaben)
auch aufgeteilt auf die Lemmawortklassen
- Bestimmung der Verteilung der Wortlänge (in Silben)
auch aufgeteilt auf die Lemmawortklassen
- Bestimmung der Verteilung der Satzlänge (in Wörtern)
- Bestimmung der Verteilung einzelner Lemmawortklassen im Satz
- Untersuchung der Substantivbildung durch Affixe
- Aufsuchen von Wiederholungen von Textteilen, oft gebrauchten
Redewendungen usw.
Weitere Auswertungen sind im Stadium der Planung, so z.B.
- eine Untersuchung über Art und Verteilung von Nominalphrasen,
- eine "Co-occurrence"-Untersuchung zur Aufdeckung semantischer
Beziehungen
- eine Untersuchung über die Korrelationsbeziehungen zweier
Texte
7. Ausblick
Ich hoffe, daß die Erstellung dieses linguistisch annotierten Korpus
der Texte Karl Mays Anlaß und Grundlage bildet für manche weiteren
sprachwissenschaftlichen Untersuchungen über diesen Autor.
An dieser Stelle danke ich Herrn Prof. Dr. W. Lenders vom Institut
für Phonetik und Kommunikationsforschung der Universität Bonn
für seine Unterstützung und für die Hinweise, die er mir
zur Fortführung meiner Arbeiten zukommen ließ.
Bad Honnef, (01. Sep. 1995)
Anhang:
Verwendete Wortklassen:
SUB Substantiv
NAM Namen
ITJ Interjektion
ADJ Adjektiv
ADJP Adjektiv, in prädikativer Stellung
ADJS Adjektiv, substantiviert
ADJV Adjektiv, adverbiell benutzt
ADV Adverb
INF Verb, Infinitiv
SBI Verb, substantivierter Infinitiv
IZU Verb, Infinitiv mit "zu"
IZUA Gerundivum, adjektivisch benutzt
IZUS Gerundivum, substantivisch benutzt
FIV Verb, finite Form
PT1 Verb, Partizip I
PT1A Verb, Partizip I, adjektivisch benutzt
PT1P Verb, Partizip I, prädikativ benutzt
PT1S Verb, Partizip I, substantiviert
PT1V Verb, Partizip I, adverbiell benutzt
PT2 Verb, Partizip II,
PT2A Verb, Partizip II, adjektivisch benutzt
PT2S Verb, Partizip II, substantiviert
PT2V Verb, Partizip II, adverbiell benutzt
VZS Verbzusatz
REL Relativpronomen
DEM Demonstrativpronomen, Artikel
FRA Fragepronomen
FRAN Fragepronomen als Einleitung eines Nebensatzes
PER Personalpronomen
POS Possessivpronomen
IND Indefinitpronomen
NUM Zahlwort
NKO Nebenordnende Konjunktion
UKO Unterordnende Konjunktion
UOA um zu, ohne zu, anstatt zu
ZU "zu" vor Infinitiv
PRP Präposition
DSS "daß"
OB "ob"
UEB Zu übergehende Wortform oder Bruchstück
FRMD Fremdsprachlicher Textanteil
SATZ Satzzeichen (. ! ? ; :)
KOMA Komma
Lemmawortklassen:
S Substantiv N Namen
A Adjektiv V Verb
P Partikel F Fremdsprachlicher Textanteil
U Zu übergende Wortform oder Bruchstück
Fußnoten:
1 Viktor Böhm: Karl May und das Geheimnis seines Erfolges,
Wien, 1955
2 Margareta Buchmeisser: Der Wortschatz Karl Mays mit
Wörterverzeichnis des May-Romanes "Winnetou", ungedr.
Manuskript, Wien, o.J.
3 C.F.Lorenz: Diskussion auf der Karl-May-Tagung in Wiesbaden, in:
Mitteilungen der Karl-May-Gesellschaft(M-KMG), Nr. 94/1992,
S. 40 und Nr. 95/1993, S. 19
4 K. Everts: Statistische Betrachtungen der schriftstellerischen
Qualität Karl Mays, M-KMG Nr.98/1993, S. 17
5 H.Eggers: Elektronische Syntaxanalyse der deutschen
Gegenwartssprache, Tübingen, 1969
Sonderforschungsbereich 100 >Elektronische Sprachforschung<
Projektbereich A: SALEM, ein Verfahren zur automatischen
Lemmatisierung deutscher Texte, Tübingen, 1980
6 OCR = Optical Character Recognition
7 "Type" ist der repräsentative Vertreter der Menge aller
Realisationen einer bestimmten Wortform im Text.
"Token" ist die Bezeichnung für eine dieser Wortformen.
Wortschätze
Titelseite KMG
Impressum Datenschutz