An diese Bemühungen von W. Fucks in den frühen 50er Jahren wird hier angeknüpft. Wo Fucks noch im wesentlichen auf die manuelle Durchführung der Untersuchungen beschränkt war, kommt heute demjenigen, der sich mit Textanalyse befaßt, natürlich die fortgeschrittene Computertechnik zur Hilfe, mit der sich die notwendigen Untersuchungen in weit größerem Umfang durchführen lassen. Das bedeutet auch, daß den Ergebnissen statistischer Analysen eine größere Signifikanz zukommt, da sie sich auf eine größere Datenbasis stützen können.
Auf der Suche nach statistisch erfassbaren Erscheinungen in den Texten, die Rückschlüsse auf den Stil des Autors erlauben, wurde eine - durchaus nicht erschöpfende - Reihe von Untersuchungen durchgeführt, globale Untersuchungen der einzelnen Teilkorpora, lokale Untersuchungen von Textabschnitten konstanter Länge und die Einwirkung wachsender Textmenge auf den Wortschatz.
Bei der Beurteilung der Resultate darf man natürlich nicht vergessen, daß eine einzelne statistische Zahl erst im Vergleich mit anderen Zahlen eine Bedeutung bekommt. Nur im Vergleich kann man versuchen, ein statistisch untersuchtes Phänomen zu deuten.
Fußnote:
(1) Wilhelm Fucks, Mathematische Analyse des literarischen Stils. Studium Generale, 6. Jahrgg. Heft 9, Springer-Verlag, Berlin, Göttingen, Heidelberg, 1953
Wilhelm Fucks, Mathematische Analyse von Sprachelementen, Sprachstil und Sprachen, Westdt. Verlag, Köln und Opladen, 1955
Die Ergebnisse der Analysen der (bisher elf) Teilkorpora erlauben Vergleiche zwischen verschiedenen Werken, die von verschiedenen Autoren verfaßt wurden, aus unterschiedlichen Schaffensperioden stammen und in unterschiedlichen Handlungsräumen spielen.
4.1.1. Wortanalysen
4.1.1.1. Wortklassen
Eine Übersicht über die Häufigkeit der einzelnen Wortklassen sowohl in den einzelnen Texten als auch im Gesamtkorpus zeigt die Statistik in Anhang 7, während in Anhang 7a dargestellt ist, wieviel verschiedene Wortformen auf die einzelnen Wortklassen fallen.
Die Häufigkeit, mit der sich eine Wortklasse mit vorlaufenden und nachfolgenden Wortklassen verbindet (die "Übergangshäufigkeit"), wurde auch untersucht. Die Ergebnisse dieser Untersuchung sind allerdings so umfangreich, daß sie in dieser Arbeit nicht abgedruckt werden können. Es handelt sich dabei um "Trigrammhäufigkeiten" der Wortklassen, die einen Umfang von 43*43*43 (= 79507) Werten haben.
4.1.1.2. Lemmaklassen
Eine Übersicht über die Häufigkeit der einzelnen Lemmaklassen sowohl in den einzelnen Texten als auch im Gesamtkorpus zeigt die Statistik in Anhang 8, während in Anhang 8a dargestellt ist, wieviel verschiedene Grundformen auf die einzelnen Lemmaklassen fallen.
4.1.1.3. Wortschatz
Die Statistik in Anhang 8a zeigt nun den Umfang des Wortschatzes der einzelnen Lemmaklassen und den Umfang des Gesamtwortschatzes des Karl-May-Korpus, wenn man die Angaben für die Lemmaklassen S (Substantive), A (Adjektive), V (Verben) und P (Partikel) addiert. Die Lemmaklassen N (Namen), F (fremdsprachliche Textbestandteile) und U (zu übergehende Textbestandteile) können nicht zum eigentlichen Wortschatz gezählt werden.
4.1.1.4. Wortlängen (in Buchstaben)
Die Anhänge 9 und 9a bringen Übersichten über die Länge von Wortformen - gemessen in Buchstaben pro Wortform - und die Häufigkeiten ihres Vorkommens. Dabei sind die Wortklassen SATZ, KOMA, UEB, NAM und FRMD nicht berücksichtigt worden, das bedeutet, daß diese Untersuchung sich auf den eigentlichen Wortschatz beschränkt.
Für die drei wichtigen Lemmaklassen S (Substantive), A (Adjektive) und V (Verben) sind getrennte Übersichten aufgeführt, die nur die Wortformen der jeweils zugehörigen Wortklassen berücksichtigen.
Anhang 9 zeigt eine Übersicht über die Längenverteilung in den einzelnen Werken des Karl-May-Korpus anhand der Angaben von Maximalwert, Mittelwert, Streuung und Schiefe, während in Anhang 9a die Verteilungen selbst zu finden sind.
4.1.1.5. Wortlängen (in Silben)
In den Jahren 1953 - 1955 veröffentlichte Wilhelm Fucks(1) Ergebnisse statistischer Untersuchungen der Wortlängen bei verschiedenen Autoren.
Als Maß für die Wortlänge benutzte Fucks die Anzahl der Silben pro Wort. Um nun die Texte des Karl-May-Korpus mit den von Fucks untersuchten Texten vergleichen zu können, wurde auch über das Karl-May-Korpus eine Untersuchung der Wortlängen in Silben durchgeführt.
Als Maß, das die wirkliche Silbenzahl pro Wort recht gut approximiert, wurde die Anzahl von Vokalen pro Wort benutzt, wenn die folgenden Reduktionen in der angegebenen Reihenfolge vor der Zählung ausgeführt werden:
Fußnote:
(1) Fucks,W. (siehe Fußnote zu Abschnitt 4.)
4.1.1.6. Wortbildung durch Affixe
Die deutsche Sprache besitzt die Eigenschaft, durch Hinzufügen von Präfixen oder Suffixen neue Worte bilden zu können.
In diesem Abschnitt wird das statistische Verhalten der wichtigsten Substantiv- und Adjektivsuffixe und Verbpräfixe untersucht. In Anhang 16 sind Tabellen zu finden, die die absoluten Häufigkeiten und darunter jeweils die relativen Häufigkeiten in Prozenten für die einzelnen Teilkorpora aufzeigt, zum einen bezogen auf die Gesamtzahl der in den jeweiligen Texten auftretenden Wortformen (Token), zum andern bezogen auf die Gesamtzahl der in den jeweiligen Texten auftretenden Lemmata.
4.1.2. Satzanalysen
4.1.2.1. Satzklassen
Ein Satz besteht aus der Gesamtheit aller Wortformen zwischen je zwei Satzzeichen, bzw. zwischen dem Textanfang und dem ersten Satzzeichen. Sätze (oder richtiger Satzgefüge) bestehen aus einem Hauptsatz und eventuell einem oder mehreren Nebensätzen. In der hier besprochenen Untersuchung werden als Nebensätze solche Teile eines Satzes betrachtet, die folgende Bedingungen erfüllen:
Auf Grund dieser Definition werden die Texte des Karl-May-Korpus in Haupt- und Nebensätze eingeteilt. Dabei wurde allerdings auf die Erkennung von Infinitivsätzen (anderen als durch die Wortklassse UOA eingeleiteten) bewußt verzichtet.
Die Häufigkeiten von Haupt- und Nebensätzen, die Anzahl von Nebensätzen pro Hauptsatz und eine Übersicht über die Nebensatzarten, geordnet nach der Art ihrer Einleitung durch Konjunktionen oder Relativpronomina, werden in Anhang 12 mitgeteilt.
4.1.2.2. Satzlängen
In Anhang 11 bzw. 11a wird eine Übersicht über die Satzlängen gegeben, wobei die Satzlänge als die Anzahl aufeinanderfolgender Wortformen definiert ist, die zwischen zwei Satzzeichen (Wortklasse SATZ) bzw. zwischen dem Textanfang und dem ersten Satzzeichen stehen.
Anhand der Angaben von Maximalwert, Mittelwert, Streuung und Schiefe werden in Anhang 11 Übersichten dargestellt über die Verteilungen
Eine Übersicht über die Längen von Haupt- und Nebensätzen anhand von Mittelwert und Streuung ist in Anhang 12 zu finden.
4.1.3. Analyse von Nominalgruppen
4.1.3.1. Definition der Nominalgruppe
Der Begriff der Nominalgruppe wird in dieser Arbeit so verstanden, daß jede Nominalgruppe einen Kern besitzt, der ein Substantiv (Wortklasse SUB) ist oder eine Wortklasse, die ein Substantiv ersetzen kann. Das sind die Wortklassen SBI, ADJS, PT1S, PT2S, IZUS, NAM, FRMD und - wenn sie isoliert stehen, das heißt, wenn sie nicht mit einer der gerade genannten Wortklassen verbunden sind, - auch die Wortklassen DEM, POS, IND, NUM, PER, REL, FRA.
Dieser Kern ist jeweils das letzte Element der Nominalgruppe; eventuell gehen ihm weitere Elemente voraus. Welche Kombinationen dabei möglich sind und wann der weitere Aufbau der Nominalgruppe nach links abbricht, zeigt die folgende Tabelle:
Vorgänger + -> | SUB SBI (=N0) | ADJS PT1S PT2S IZUS (=N1) | NAM (=N2) | FRMD (=N3) | N11 | N12 | N13 | N10 |
---|---|---|---|---|---|---|---|---|
ADJ PT1A PT2A IZUA NUM | N11 | N11 | N11 | N11 | N11 | N11 | * | * |
DEM POS FRA | N10 | N10 | N10 | N10 | N10 | N10 | N10 | * |
ADV ADJV PT1V PT2V | * | N12 | * | * | N12 | N12 | * | * |
NAM | N0 | N1 | * | N3 | N11 | N12 | N13 | N10 |
IND | N13 | N13 | N13 | N13 | N13 | N13 | N13 | * |
NUM | * | * | * | * | * | * | N13 | * |
KOMA | "und"|"oder"|"als" + ADJ PT1A PT2A IZUA | * | * | * | * | N11 | N11 | * | * |
"manch" "solch" "irgend" | * | * | * | * | * | * | * | N10 |
alle anderen Wortklassen | * | * | * | * | * | * | * | * |
* bedeutet:
Aufbau der Nominalgruppe wird beendet;
Nominalgruppe ist komplett.
Alle Nominalgruppen werden damit in die Nominalgruppenklassen N0 N1 N2 N3 N10 N11 N12 N13 eingeordnet.
Wenn dieser Aufbau der Nominalgruppen eines Satzes beendet ist, werden alle noch isoliert vorkommenden Wortklassen "DEM POS IND NUM PER REL FRA" als Nominalgruppenklasse N4 bezeichnet.
4.1.3.2. Die häufigsten Typen
Zu einem Nominalgruppentypus werden alle Nominalgruppen gerechnet, die die gleiche Länge, also die gleiche Anzahl von Konstituenten besitzen, und in denen korrespondierende Konstituenten die gleiche Wortklasse haben.
Beispiel:
der alte Vater | ==> | DEM ADJ SUB |
ein neues Haus | ==> | DEM ADJ SUB |
Eine Übersicht über die häufigsten Nominalgruppen-Typen ist in Anhang 17 zu finden.
4.1.3.3. Attribute in Nominalgruppen
Eine besondere Untersuchung wurde der Frage gewidmet, wie häufig der substantivische Kern (d.h. ein Kern aus einer der Wortarten SUB SBI ADJS PT1S PT2S IZUS NAM FRMD) einer Nominalgruppe durch - ein oder mehrere - Attribute genauer beschrieben wird.
Anhang 18 bringt eine Übersicht darüber, wie häufig die verschiedenen Arten von Attributen - ADJ, PT1A, PT2A, IZUA und Kombinationen daraus - anzutreffen sind.
4.1.4. Die Verwendung des "Infinitivs mit ZU"
Bei der Lektüre der Werke Karl May's fällt dem Leser immer wieder auf, daß der Autor sich häufiger, als man es gewohnt ist, des Infinitivs mit ZU in Formulierungen wie "er hat zu beachten", "es scheint zu regnen", "Zeit zu reagieren" bedient.
Daraufhin wurde das Auftreten dieser grammatischen Konstruktion genauer ausgezählt. Das Ergebnis ist in Anhang 19 zu sehen.
Man kann in dieser Aufstellung finden, wie oft der "Infinitiv mit ZU" im Verhältnis zur Gesamtwortanzahl auftritt, wie oft die Konjunktionen "UM ZU, OHNE ZU, ANSTATT ZU" vorkommen, die ja immer einen oder mehrere Infinitive mit ZU einleiten, und wie oft dann noch der "reine Infinitiv mit Zu" zu finden ist.
Dazu wird die Anzahl verschiedener Wörter angegeben, von denen dann ein Infinitiv mit ZU abhängt (Kontrollwörter).
Als letztes werden dann für jedes ausgezählte Werk die 10 häufigsten Kontrollwörter mit ihren relativen Häufigkeiten (in Prozent) aufgeführt.
4.2. Abschnittsweise Analysen
Im Laufe der im Abschnitt 4.1. durchgeführten Untersuchungen ergab sich der Eindruck, daß die dort bestimmten statistischen Größen sich - über den ganzen Text gesehen - durchaus nicht gleichmäßig verhalten, sondern beträchtlichen Schwankungen unterworfen sind. Diese Beobachtung gab den Anstoß zu einer abschnittsweisen Untersuchung, um die Größe dieser Schwankungen - und eventuell auch ihre Ursachen - näher bestimmen zu können.
4.2.1. Wortlängen (in Buchstaben)
Teilt man einen Text in kleinere, äquidistante Abschnitte und untersucht das Verhalten der durchschnittlichen Wortlänge von Substantiven (in Buchstaben gezählt) pro Abschnitt, so erhält man eine Menge von Werten für diese Erscheinung, die man als Kurve über das ganze Werk aufzeichnen kann.
Die folgende Untersuchung zeigt auf, daß ein gewisser Zusammenhang hergestellt werden kann zwischen dieser statistischen Erscheinung und dem Inhalt des betrachteten Textes.
In einem ersten Beispiel wird der Text "Winnetou I (GR07)" in Abschnitte der Länge 4000 Wortformen (incl. Satzzeichen) eingeteilt und untersucht. Die in Anhang 13-G dargestellte Kurve zeigt hervorstechende Spitzen und Tiefpunkte, und der Vergleich mit dem Text ergibt nun eine nicht zu übersehende Parallelität zwischen der Form dieser Kurve einerseits, die dem Betrachter ins Auge fällt, und der Intensität der Handlung andererseits, die ja der Leser immer wieder erspürt.
Die tiefen Täler bezeichnen Teile der Handlung, die vor Spannung bersten; die Spitzen charakterisieren Teile des Werkes, in denen die Handlung zurücktritt gegenüber Beschreibungen von Land und Leuten, geschichtlichen Betrachtungen oder Diskussionen über religiöse und weltanschauliche Themen.
Diese Behauptung kann man sofort anhand des Textes nachvollziehen. Einzelne herausragende Stellen dieser Kurve sind mit den Buchstaben A bis N bezeichnet. Diesen entsprechen folgende Abschnitte der Handlung:
Eine Erklärung liegt in einer Eigenschaft der deutschen Sprache, nämlich der Möglichkeit, durch Zusammensetzung mehrerer Wörter neue Substantive zu bilden. Zu einer solchen Neubildung gehört ein gewisser bewußter gedanklicher Aufwand, der einem phantasiegeladenen Autor, der fast "wie in Trance" schreibt, - besonders dem Ich-Autor - in Phasen spannungsgeladener Handlung bei der Niederschrift nicht voll zur Verfügung steht, sodaß in solchen Phasen unwillkürlich kürzere Wortformen bevorzugt werden.
In weiteren Beispielen kann man anhand der ebenfalls in Anhang 13 zu findenden entsprechenden Schaubilder zu den übrigen Werken des Karl-May-Korpus den genannten Zusammenhang bestätigen, wenn er auch nicht ganz so instruktiv erscheint wie in "Winnetou (GR07)".
So erkennt man beispielsweise in
"Wüste":
"Kurdistan":
"Bagdad":
"Balkan":
"Skipetar":
in diesem Werk läßt sich die obige Behauptung nicht eindeutig belegen.
"Schut":
"Jenseits":
"Silberlöwe 3":
"Silberlöwe 4":
"Waldrose 1":
"Waldrose 3":
"Nachsommer":
Obwohl man bei der Lektüre des "Nachsommer" zu erkennen meint, daß die Handlung ohne jedweden Wellenschlag verläuft, zeichnen sich doch die drei wichtigsten - von den wenigen - Liebesszenen deutlich in der Statistik ab:
4.2.2. Wortschatz
Wenn man anhand der gleichen Texteinteilung in Stücke der Länge 4000 Wortformen (incl. Satzzeichen), wie sie in Abschnitt 4.2.1. erwähnt ist, eine Untersuchung des Wortschatzes dieser Stücke durchführt, so ist leicht ersichtlich, daß sowohl die Anzahl verschiedener Substantiv-Lemmata pro Teilstück als auch die Anzahl verschiedener Adjektiv-Lemmata pro Teilstück im wesentlichen ein ähnliches Verhalten aufweisen wie die durchschnittliche Wortlänge von Substantiven in dieser Einteilung.
Statistisch läßt sich diese Ähnlichkeit des Verhaltens zeigen, wenn man die entsprechenden Korrelationskoeffizienten betrachtet, die in Anhang 14 zu finden sind. Zum Vergleich sind dort die Korrelationskoeffizienten zu finden zu den Paarungen:
A/S: | Anzahl Adjektiv-Lemmata | - Anzahl Substantiv-Lemmata | * |
A/V: | Anzahl Adjektiv-Lemmata | - Anzahl Verb-Lemmata | |
A/P: | Anzahl Adjektiv-Lemmata | - Anzahl Partikel-Lemmata | |
A/SLg: | Anzahl Adjektiv-Lemmata | - durchschn. Substantivlänge | * |
S/V: | Anzahl Substantiv-Lemmata | - Anzahl Verb-Lemmata | |
S/P: | Anzahl Substantiv-Lemmata | - Anzahl Partikel-Lemmata | |
S/SLg: | Anzahl Substantiv-Lemmata | - durchschn. Substantivlänge | * |
V/P: | Anzahl Verb-Lemmata | - Anzahl Partikel-Lemmata | |
V/SLg: | Anzahl Verb-Lemmata | - durchschn. Substantivlänge | |
P/SLg: | Anzahl Partikel-Lemmata | - durchschn. Substantivlänge |
Der Vergleich zeigt deutlich, daß die drei markierten Paarungen bedeutend stärker miteinander korreliert sind als die übrigen Paarungen.
4.3. Der Zusammenhang von Wortschatz und Textmenge.
Die Untersuchungen des Wortschatzes anhand des Karl-May-Korpus zeigen bisher, daß man nur von dem Wortschatz eines Werks oder einer Werkgruppe sprechen kann, nicht aber von dem Wortschatz eines Autors.
Das Karl-May-Korpus ist bisher noch nicht umfangreich genug, als daß man in der Lage wäre, eine Aussage über den Gesamtwortschatz des Autors Karl May zu machen. Jede Vergrößerung der untersuchten Textmenge hat bisher noch immer eine Vergrößerung des benutzten Wortschatzes mit sich gebracht.
In welcher Weise sich der Zusammenhang zwischen Textmenge und Wortschatz ausdrückt, das zeigt die Tabelle in Anhang 15, in der die durchschnittliche Größe des Wortschatzes bei wachsender Textmenge für die bisher in das Korpus aufgenommenen Werke dargestellt wird, und zwar sowohl für den Gesamtwortschatz als auch für den Wortschatz an Substantiven, Adjektiven, Verben und Partikeln.
Die in Anhang 15-F ebenfalls beigefügte graphische Darstellung des Zusammenhangs zwischen Wortschatz und Textmenge des "Orient-Zyklus" zeigt augenfällig, daß auch über eine Textmenge von einer Million Wortformen hinaus der Wortschatz des Autors Karl May wohl noch beträchtlich steigen kann. Einzig der Partikel-Wortschatz scheint sich seinem Maximalumfang genähert zu haben.
Zwei weitere Tabellen im Anhang 15 zeigen auf, wie sich die prozentualen Anteile von Substantiven, Adjektiven, Verben und Partikeln einerseits als Anteile am Gesamttext als auch als Anteile am Wortschatz verhalten. Die Tabellen zeigen jeweils die Mittelwerte und die Streuungen der prozentualen Anteile an Textabschnitten wachsender Längen.