4. Analysen der Korpus-Texte

"Die Bemühungen, über die hier berichtet wird, gehen darauf aus, den Stil sprachlicher Äußerungen mit mathematischen Darstellungsmitteln zu kennzeichnen."(1)

An diese Bemühungen von W. Fucks in den frühen 50er Jahren wird hier angeknüpft. Wo Fucks noch im wesentlichen auf die manuelle Durchführung der Untersuchungen beschränkt war, kommt heute demjenigen, der sich mit Textanalyse befaßt, natürlich die fortgeschrittene Computertechnik zur Hilfe, mit der sich die notwendigen Untersuchungen in weit größerem Umfang durchführen lassen. Das bedeutet auch, daß den Ergebnissen statistischer Analysen eine größere Signifikanz zukommt, da sie sich auf eine größere Datenbasis stützen können.

Auf der Suche nach statistisch erfassbaren Erscheinungen in den Texten, die Rückschlüsse auf den Stil des Autors erlauben, wurde eine - durchaus nicht erschöpfende - Reihe von Untersuchungen durchgeführt, globale Untersuchungen der einzelnen Teilkorpora, lokale Untersuchungen von Textabschnitten konstanter Länge und die Einwirkung wachsender Textmenge auf den Wortschatz.

Bei der Beurteilung der Resultate darf man natürlich nicht vergessen, daß eine einzelne statistische Zahl erst im Vergleich mit anderen Zahlen eine Bedeutung bekommt. Nur im Vergleich kann man versuchen, ein statistisch untersuchtes Phänomen zu deuten.

Fußnote:
(1) Wilhelm Fucks, Mathematische Analyse des literarischen Stils. Studium Generale, 6. Jahrgg. Heft 9, Springer-Verlag, Berlin, Göttingen, Heidelberg, 1953
Wilhelm Fucks, Mathematische Analyse von Sprachelementen, Sprachstil und Sprachen, Westdt. Verlag, Köln und Opladen, 1955

4.1. Globale Analysen

Als erstes werden hier statistische Untersuchungen beschrieben, deren Wirkungsbereich der gesamte Text eines Werkes (also eines Teilkorpus) ist. Dabei wird sowohl das statistische Verhalten des Phänomens "Wort" als auch des Phänomens "Satz" in verschiedenen Richtungen betrachtet und näher analysiert.

Die Ergebnisse der Analysen der (bisher elf) Teilkorpora erlauben Vergleiche zwischen verschiedenen Werken, die von verschiedenen Autoren verfaßt wurden, aus unterschiedlichen Schaffensperioden stammen und in unterschiedlichen Handlungsräumen spielen.

4.1.1. Wortanalysen

4.1.1.1. Wortklassen

Eine Übersicht über die Häufigkeit der einzelnen Wortklassen sowohl in den einzelnen Texten als auch im Gesamtkorpus zeigt die Statistik in Anhang 7, während in Anhang 7a dargestellt ist, wieviel verschiedene Wortformen auf die einzelnen Wortklassen fallen.

Die Häufigkeit, mit der sich eine Wortklasse mit vorlaufenden und nachfolgenden Wortklassen verbindet (die "Übergangshäufigkeit"), wurde auch untersucht. Die Ergebnisse dieser Untersuchung sind allerdings so umfangreich, daß sie in dieser Arbeit nicht abgedruckt werden können. Es handelt sich dabei um "Trigrammhäufigkeiten" der Wortklassen, die einen Umfang von 43*43*43 (= 79507) Werten haben.

4.1.1.2. Lemmaklassen

Eine Übersicht über die Häufigkeit der einzelnen Lemmaklassen sowohl in den einzelnen Texten als auch im Gesamtkorpus zeigt die Statistik in Anhang 8, während in Anhang 8a dargestellt ist, wieviel verschiedene Grundformen auf die einzelnen Lemmaklassen fallen.

4.1.1.3. Wortschatz

Die Statistik in Anhang 8a zeigt nun den Umfang des Wortschatzes der einzelnen Lemmaklassen und den Umfang des Gesamtwortschatzes des Karl-May-Korpus, wenn man die Angaben für die Lemmaklassen S (Substantive), A (Adjektive), V (Verben) und P (Partikel) addiert. Die Lemmaklassen N (Namen), F (fremdsprachliche Textbestandteile) und U (zu übergehende Textbestandteile) können nicht zum eigentlichen Wortschatz gezählt werden.

4.1.1.4. Wortlängen (in Buchstaben)

Die Anhänge 9 und 9a bringen Übersichten über die Länge von Wortformen - gemessen in Buchstaben pro Wortform - und die Häufigkeiten ihres Vorkommens. Dabei sind die Wortklassen SATZ, KOMA, UEB, NAM und FRMD nicht berücksichtigt worden, das bedeutet, daß diese Untersuchung sich auf den eigentlichen Wortschatz beschränkt.

Für die drei wichtigen Lemmaklassen S (Substantive), A (Adjektive) und V (Verben) sind getrennte Übersichten aufgeführt, die nur die Wortformen der jeweils zugehörigen Wortklassen berücksichtigen.

Anhang 9 zeigt eine Übersicht über die Längenverteilung in den einzelnen Werken des Karl-May-Korpus anhand der Angaben von Maximalwert, Mittelwert, Streuung und Schiefe, während in Anhang 9a die Verteilungen selbst zu finden sind.

4.1.1.5. Wortlängen (in Silben)

In den Jahren 1953 - 1955 veröffentlichte Wilhelm Fucks(1) Ergebnisse statistischer Untersuchungen der Wortlängen bei verschiedenen Autoren.

Als Maß für die Wortlänge benutzte Fucks die Anzahl der Silben pro Wort. Um nun die Texte des Karl-May-Korpus mit den von Fucks untersuchten Texten vergleichen zu können, wurde auch über das Karl-May-Korpus eine Untersuchung der Wortlängen in Silben durchgeführt.

Als Maß, das die wirkliche Silbenzahl pro Wort recht gut approximiert, wurde die Anzahl von Vokalen pro Wort benutzt, wenn die folgenden Reduktionen in der angegebenen Reihenfolge vor der Zählung ausgeführt werden:


Die Ergebnisse dieser Analyse sind in Anhang 10 bzw. 10a dargestellt. Anhang 10 bringt eine Übersicht über die Silbenzahl pro Wortform in den einzelnen Werken des Karl-May-Korpus anhand der Angaben von Maximalwert, Mittelwert, Streuung und Schiefe, während in Anhang 10a die Verteilungen selbst zu finden sind.

Fußnote:
(1) Fucks,W. (siehe Fußnote zu Abschnitt 4.)

4.1.1.6. Wortbildung durch Affixe

Die deutsche Sprache besitzt die Eigenschaft, durch Hinzufügen von Präfixen oder Suffixen neue Worte bilden zu können.

In diesem Abschnitt wird das statistische Verhalten der wichtigsten Substantiv- und Adjektivsuffixe und Verbpräfixe untersucht. In Anhang 16 sind Tabellen zu finden, die die absoluten Häufigkeiten und darunter jeweils die relativen Häufigkeiten in Prozenten für die einzelnen Teilkorpora aufzeigt, zum einen bezogen auf die Gesamtzahl der in den jeweiligen Texten auftretenden Wortformen (Token), zum andern bezogen auf die Gesamtzahl der in den jeweiligen Texten auftretenden Lemmata.

4.1.2. Satzanalysen

4.1.2.1. Satzklassen

Ein Satz besteht aus der Gesamtheit aller Wortformen zwischen je zwei Satzzeichen, bzw. zwischen dem Textanfang und dem ersten Satzzeichen. Sätze (oder richtiger Satzgefüge) bestehen aus einem Hauptsatz und eventuell einem oder mehreren Nebensätzen. In der hier besprochenen Untersuchung werden als Nebensätze solche Teile eines Satzes betrachtet, die folgende Bedingungen erfüllen:
  1. der Satzteil muß beginnen mit einer der Wortklassen:
    ("UKO" | "FRAN" | "UOA" | "OB" | "REL" | "DSS" | "PRP" + "REL" | "UKO [= als | auf | ohne]" + "DSS")

    UND

  2. der Satzteil muß enden mit einer der Wortklassen:
    ("KOMA" | "SATZ").

    UND

  3. es muß die Wortklasse "FIV" [=finite Verbform] enthalten sein.
    ODER
    es muß die Wortklasse "IZU" [=Infinitiv mit ZU] enthalten sein, wenn der Satzteil mit der Wortklasse "UOA" [= um | ohne | anstatt] eingeleitet wird.

Auf Grund dieser Definition werden die Texte des Karl-May-Korpus in Haupt- und Nebensätze eingeteilt. Dabei wurde allerdings auf die Erkennung von Infinitivsätzen (anderen als durch die Wortklassse UOA eingeleiteten) bewußt verzichtet.

Die Häufigkeiten von Haupt- und Nebensätzen, die Anzahl von Nebensätzen pro Hauptsatz und eine Übersicht über die Nebensatzarten, geordnet nach der Art ihrer Einleitung durch Konjunktionen oder Relativpronomina, werden in Anhang 12 mitgeteilt.

4.1.2.2. Satzlängen

In Anhang 11 bzw. 11a wird eine Übersicht über die Satzlängen gegeben, wobei die Satzlänge als die Anzahl aufeinanderfolgender Wortformen definiert ist, die zwischen zwei Satzzeichen (Wortklasse SATZ) bzw. zwischen dem Textanfang und dem ersten Satzzeichen stehen.

Anhand der Angaben von Maximalwert, Mittelwert, Streuung und Schiefe werden in Anhang 11 Übersichten dargestellt über die Verteilungen

In Anhang 11a sind die Verteilungen selbst dazu zu finden.

Eine Übersicht über die Längen von Haupt- und Nebensätzen anhand von Mittelwert und Streuung ist in Anhang 12 zu finden.

4.1.3. Analyse von Nominalgruppen

4.1.3.1. Definition der Nominalgruppe

Der Begriff der Nominalgruppe wird in dieser Arbeit so verstanden, daß jede Nominalgruppe einen Kern besitzt, der ein Substantiv (Wortklasse SUB) ist oder eine Wortklasse, die ein Substantiv ersetzen kann. Das sind die Wortklassen SBI, ADJS, PT1S, PT2S, IZUS, NAM, FRMD und - wenn sie isoliert stehen, das heißt, wenn sie nicht mit einer der gerade genannten Wortklassen verbunden sind, - auch die Wortklassen DEM, POS, IND, NUM, PER, REL, FRA.

Dieser Kern ist jeweils das letzte Element der Nominalgruppe; eventuell gehen ihm weitere Elemente voraus. Welche Kombinationen dabei möglich sind und wann der weitere Aufbau der Nominalgruppe nach links abbricht, zeigt die folgende Tabelle:

Nominalgruppen-Aufbau

Vorgänger
+   ->
SUB
SBI
(=N0)
ADJS
PT1S
PT2S
IZUS
(=N1)
NAM
(=N2)
FRMD
(=N3)
N11N12N13N10
ADJ
PT1A
PT2A
IZUA
NUM
N11N11N11N11N11N11 * *
DEM
POS
FRA
N10N10N10N10N10N10N10 *
ADV
ADJV
PT1V
PT2V
* N12 * * N12N12 * *
NAMN0N1 * N3N11N12N13N10
INDN13N13N13N13N13N13N13 *
NUM * * * * * * N13 *
KOMA |
"und"|"oder"|"als"
+
ADJ PT1A
PT2A IZUA
* * * * N11N11 * *
"manch"
"solch"
"irgend"
* * * * * * * N10
alle
anderen
Wortklassen
* * * * * * * *

* bedeutet:
Aufbau der Nominalgruppe wird beendet;
Nominalgruppe ist komplett.

Alle Nominalgruppen werden damit in die Nominalgruppenklassen N0 N1 N2 N3 N10 N11 N12 N13 eingeordnet.

Wenn dieser Aufbau der Nominalgruppen eines Satzes beendet ist, werden alle noch isoliert vorkommenden Wortklassen "DEM POS IND NUM PER REL FRA" als Nominalgruppenklasse N4 bezeichnet.

4.1.3.2. Die häufigsten Typen

Zu einem Nominalgruppentypus werden alle Nominalgruppen gerechnet, die die gleiche Länge, also die gleiche Anzahl von Konstituenten besitzen, und in denen korrespondierende Konstituenten die gleiche Wortklasse haben.

Beispiel:

der alte Vater==>DEM ADJ SUB
ein neues Haus==>DEM ADJ SUB

Eine Übersicht über die häufigsten Nominalgruppen-Typen ist in Anhang 17 zu finden.

4.1.3.3. Attribute in Nominalgruppen

Eine besondere Untersuchung wurde der Frage gewidmet, wie häufig der substantivische Kern (d.h. ein Kern aus einer der Wortarten SUB SBI ADJS PT1S PT2S IZUS NAM FRMD) einer Nominalgruppe durch - ein oder mehrere - Attribute genauer beschrieben wird.

Anhang 18 bringt eine Übersicht darüber, wie häufig die verschiedenen Arten von Attributen - ADJ, PT1A, PT2A, IZUA und Kombinationen daraus - anzutreffen sind.

4.1.4. Die Verwendung des "Infinitivs mit ZU"

Bei der Lektüre der Werke Karl May's fällt dem Leser immer wieder auf, daß der Autor sich häufiger, als man es gewohnt ist, des Infinitivs mit ZU in Formulierungen wie "er hat zu beachten", "es scheint zu regnen", "Zeit zu reagieren" bedient.

Daraufhin wurde das Auftreten dieser grammatischen Konstruktion genauer ausgezählt. Das Ergebnis ist in Anhang 19 zu sehen.

Man kann in dieser Aufstellung finden, wie oft der "Infinitiv mit ZU" im Verhältnis zur Gesamtwortanzahl auftritt, wie oft die Konjunktionen "UM ZU, OHNE ZU, ANSTATT ZU" vorkommen, die ja immer einen oder mehrere Infinitive mit ZU einleiten, und wie oft dann noch der "reine Infinitiv mit Zu" zu finden ist.

Dazu wird die Anzahl verschiedener Wörter angegeben, von denen dann ein Infinitiv mit ZU abhängt (Kontrollwörter).

Als letztes werden dann für jedes ausgezählte Werk die 10 häufigsten Kontrollwörter mit ihren relativen Häufigkeiten (in Prozent) aufgeführt.

4.2. Abschnittsweise Analysen

Im Laufe der im Abschnitt 4.1. durchgeführten Untersuchungen ergab sich der Eindruck, daß die dort bestimmten statistischen Größen sich - über den ganzen Text gesehen - durchaus nicht gleichmäßig verhalten, sondern beträchtlichen Schwankungen unterworfen sind. Diese Beobachtung gab den Anstoß zu einer abschnittsweisen Untersuchung, um die Größe dieser Schwankungen - und eventuell auch ihre Ursachen - näher bestimmen zu können.

4.2.1. Wortlängen (in Buchstaben)

Teilt man einen Text in kleinere, äquidistante Abschnitte und untersucht das Verhalten der durchschnittlichen Wortlänge von Substantiven (in Buchstaben gezählt) pro Abschnitt, so erhält man eine Menge von Werten für diese Erscheinung, die man als Kurve über das ganze Werk aufzeichnen kann.

Die folgende Untersuchung zeigt auf, daß ein gewisser Zusammenhang hergestellt werden kann zwischen dieser statistischen Erscheinung und dem Inhalt des betrachteten Textes.

In einem ersten Beispiel wird der Text "Winnetou I (GR07)" in Abschnitte der Länge 4000 Wortformen (incl. Satzzeichen) eingeteilt und untersucht. Die in Anhang 13-G dargestellte Kurve zeigt hervorstechende Spitzen und Tiefpunkte, und der Vergleich mit dem Text ergibt nun eine nicht zu übersehende Parallelität zwischen der Form dieser Kurve einerseits, die dem Betrachter ins Auge fällt, und der Intensität der Handlung andererseits, die ja der Leser immer wieder erspürt.

Die tiefen Täler bezeichnen Teile der Handlung, die vor Spannung bersten; die Spitzen charakterisieren Teile des Werkes, in denen die Handlung zurücktritt gegenüber Beschreibungen von Land und Leuten, geschichtlichen Betrachtungen oder Diskussionen über religiöse und weltanschauliche Themen.

Diese Behauptung kann man sofort anhand des Textes nachvollziehen. Einzelne herausragende Stellen dieser Kurve sind mit den Buchstaben A bis N bezeichnet. Diesen entsprechen folgende Abschnitte der Handlung: