4. Analysen der Korpus-Texte

"Die Bemühungen, über die hier berichtet wird, gehen darauf aus, den Stil sprachlicher Äußerungen mit mathematischen Darstellungsmitteln zu kennzeichnen."⁽¹⁾

An diese Bemühungen von W. Fucks in den frühen 50er Jahren wird hier angeknüpft. Wo Fucks noch im wesentlichen auf die manuelle Durchführung der Untersuchungen beschränkt war, kommt heute demjenigen, der sich mit Textanalyse befaßt, natürlich die fortgeschrittene Computertechnik zur Hilfe, mit der sich die notwendigen Untersuchungen in weit größerem Umfang durchführen lassen. Das bedeutet auch, daß den Ergebnissen statistischer Analysen eine größere Signifikanz zukommt, da sie sich auf eine größere Datenbasis stützen können.

Auf der Suche nach statistisch erfassbaren Erscheinungen in den Texten, die Rückschlüsse auf den Stil des Autors erlauben, wurde eine - durchaus nicht erschöpfende - Reihe von Untersuchungen durchgeführt, globale Untersuchungen der einzelnen Teilkorpora, lokale Untersuchungen von Textabschnitten konstanter Länge und die Einwirkung wachsender Textmenge auf den Wortschatz.

Bei der Beurteilung der Resultate darf man natürlich nicht vergessen, daß eine einzelne statistische Zahl erst im Vergleich mit anderen Zahlen eine Bedeutung bekommt. Nur im Vergleich kann man versuchen, ein statistisch untersuchtes Phänomen zu deuten.

Fußnote:
(1) Wilhelm Fucks, Mathematische Analyse des literarischen Stils. Studium Generale, 6. Jahrgg. Heft 9, Springer-Verlag, Berlin, Göttingen, Heidelberg, 1953
Wilhelm Fucks, Mathematische Analyse von Sprachelementen, Sprachstil und Sprachen, Westdt. Verlag, Köln und Opladen, 1955

4.1. Globale Analysen

Als erstes werden hier statistische Untersuchungen beschrieben, deren Wirkungsbereich der gesamte Text eines Werkes (also eines Teilkorpus) ist. Dabei wird sowohl das statistische Verhalten des Phänomens "Wort" als auch des Phänomens "Satz" in verschiedenen Richtungen betrachtet und näher analysiert.

Die Ergebnisse der Analysen der (bisher elf) Teilkorpora erlauben Vergleiche zwischen verschiedenen Werken, die von verschiedenen Autoren verfaßt wurden, aus unterschiedlichen Schaffensperioden stammen und in unterschiedlichen Handlungsräumen spielen.

4.1.1. Wortanalysen

4.1.1.1. Wortklassen

Eine Übersicht über die Häufigkeit der einzelnen Wortklassen sowohl in den einzelnen Texten als auch im Gesamtkorpus zeigt die Statistik in Anhang 7, während in Anhang 7a dargestellt ist, wieviel verschiedene Wortformen auf die einzelnen Wortklassen fallen.

Die Häufigkeit, mit der sich eine Wortklasse mit vorlaufenden und nachfolgenden Wortklassen verbindet (die "Übergangshäufigkeit"), wurde auch untersucht. Die Ergebnisse dieser Untersuchung sind allerdings so umfangreich, daß sie in dieser Arbeit nicht abgedruckt werden können. Es handelt sich dabei um "Trigrammhäufigkeiten" der Wortklassen, die einen Umfang von 43*43*43 (= 79507) Werten haben.

4.1.1.2. Lemmaklassen

Eine Übersicht über die Häufigkeit der einzelnen Lemmaklassen sowohl in den einzelnen Texten als auch im Gesamtkorpus zeigt die Statistik in Anhang 8, während in Anhang 8a dargestellt ist, wieviel verschiedene Grundformen auf die einzelnen Lemmaklassen fallen.

4.1.1.3. Wortschatz

Die Statistik in Anhang 8a zeigt nun den Umfang des Wortschatzes der einzelnen Lemmaklassen und den Umfang des Gesamtwortschatzes des Karl-May-Korpus, wenn man die Angaben für die Lemmaklassen S (Substantive), A (Adjektive), V (Verben) und P (Partikel) addiert. Die Lemmaklassen N (Namen), F (fremdsprachliche Textbestandteile) und U (zu übergehende Textbestandteile) können nicht zum eigentlichen Wortschatz gezählt werden.

4.1.1.4. Wortlängen (in Buchstaben)

Die Anhänge 9 und 9a bringen Übersichten über die Länge von Wortformen - gemessen in Buchstaben pro Wortform - und die Häufigkeiten ihres Vorkommens. Dabei sind die Wortklassen SATZ, KOMA, UEB, NAM und FRMD nicht berücksichtigt worden, das bedeutet, daß diese Untersuchung sich auf den eigentlichen Wortschatz beschränkt.

Für die drei wichtigen Lemmaklassen S (Substantive), A (Adjektive) und V (Verben) sind getrennte Übersichten aufgeführt, die nur die Wortformen der jeweils zugehörigen Wortklassen berücksichtigen.

Anhang 9 zeigt eine Übersicht über die Längenverteilung in den einzelnen Werken des Karl-May-Korpus anhand der Angaben von Maximalwert, Mittelwert, Streuung und Schiefe, während in Anhang 9a die Verteilungen selbst zu finden sind.

4.1.1.5. Wortlängen (in Silben)

In den Jahren 1953 - 1955 veröffentlichte Wilhelm Fucks⁽¹⁾ Ergebnisse statistischer Untersuchungen der Wortlängen bei verschiedenen Autoren.

Als Maß für die Wortlänge benutzte Fucks die Anzahl der Silben pro Wort. Um nun die Texte des Karl-May-Korpus mit den von Fucks untersuchten Texten vergleichen zu können, wurde auch über das Karl-May-Korpus eine Untersuchung der Wortlängen in Silben durchgeführt.

Als Maß, das die wirkliche Silbenzahl pro Wort recht gut approximiert, wurde die Anzahl von Vokalen pro Wort benutzt, wenn die folgenden Reduktionen in der angegebenen Reihenfolge vor der Zählung ausgeführt werden:

aa -- a , ae -- a , ai -- a , au -- a
ee -- e , ei -- e , eu -- e
ie -- i
oe -- o , oo -- o , ou -- o
qu -- q
ue -- u
äu -- ä

Die Ergebnisse dieser Analyse sind in Anhang 10 bzw. 10a dargestellt. Anhang 10 bringt eine Übersicht über die Silbenzahl pro Wortform in den einzelnen Werken des Karl-May-Korpus anhand der Angaben von Maximalwert, Mittelwert, Streuung und Schiefe, während in Anhang 10a die Verteilungen selbst zu finden sind.

Fußnote:
(1) Fucks,W. (siehe Fußnote zu Abschnitt 4.)

4.1.1.6. Wortbildung durch Affixe

Die deutsche Sprache besitzt die Eigenschaft, durch Hinzufügen von Präfixen oder Suffixen neue Worte bilden zu können.

In diesem Abschnitt wird das statistische Verhalten der wichtigsten Substantiv- und Adjektivsuffixe und Verbpräfixe untersucht. In Anhang 16 sind Tabellen zu finden, die die absoluten Häufigkeiten und darunter jeweils die relativen Häufigkeiten in Prozenten für die einzelnen Teilkorpora aufzeigt, zum einen bezogen auf die Gesamtzahl der in den jeweiligen Texten auftretenden Wortformen (Token), zum andern bezogen auf die Gesamtzahl der in den jeweiligen Texten auftretenden Lemmata.

4.1.2. Satzanalysen

4.1.2.1. Satzklassen

Ein Satz besteht aus der Gesamtheit aller Wortformen zwischen je zwei Satzzeichen, bzw. zwischen dem Textanfang und dem ersten Satzzeichen. Sätze (oder richtiger Satzgefüge) bestehen aus einem Hauptsatz und eventuell einem oder mehreren Nebensätzen. In der hier besprochenen Untersuchung werden als Nebensätze solche Teile eines Satzes betrachtet, die folgende Bedingungen erfüllen:

der Satzteil muß beginnen mit einer der Wortklassen:
("UKO" | "FRAN" | "UOA" | "OB" | "REL" | "DSS" | "PRP" + "REL" | "UKO [= als | auf | ohne]" + "DSS")

UND
der Satzteil muß enden mit einer der Wortklassen:
("KOMA" | "SATZ").

UND
es muß die Wortklasse "FIV" [=finite Verbform] enthalten sein.
ODER
es muß die Wortklasse "IZU" [=Infinitiv mit ZU] enthalten sein, wenn der Satzteil mit der Wortklasse "UOA" [= um | ohne | anstatt] eingeleitet wird.

Auf Grund dieser Definition werden die Texte des Karl-May-Korpus in Haupt- und Nebensätze eingeteilt. Dabei wurde allerdings auf die Erkennung von Infinitivsätzen (anderen als durch die Wortklassse UOA eingeleiteten) bewußt verzichtet.

Die Häufigkeiten von Haupt- und Nebensätzen, die Anzahl von Nebensätzen pro Hauptsatz und eine Übersicht über die Nebensatzarten, geordnet nach der Art ihrer Einleitung durch Konjunktionen oder Relativpronomina, werden in Anhang 12 mitgeteilt.

4.1.2.2. Satzlängen

In Anhang 11 bzw. 11a wird eine Übersicht über die Satzlängen gegeben, wobei die Satzlänge als die Anzahl aufeinanderfolgender Wortformen definiert ist, die zwischen zwei Satzzeichen (Wortklasse SATZ) bzw. zwischen dem Textanfang und dem ersten Satzzeichen stehen.

Anhand der Angaben von Maximalwert, Mittelwert, Streuung und Schiefe werden in Anhang 11 Übersichten dargestellt über die Verteilungen

der Satzlängen (Anzahl Wortformen pro Satz),
der Anzahl der Kommata (Wortklasse KOMA) pro Satz,
der Anzahl von Substantiven (Lemmaklasse S) pro Satz,
der Anzahl von Adjektiven (Lemmaklasse A) pro Satz,
der Anzahl von Verbformen (Lemmaklasse V) pro Satz,
der Anzahl von Partikeln (Lemmaklasse P) pro Satz,
der Anzahl von Nomina (Wortklassen SUB ADJS PT1S PT2S IZUS SBI NAM) pro Satz,
der Anzahl von Attributen (Wortklassen ADJ PT1A PT2A IZUA) pro Satz.

In Anhang 11a sind die Verteilungen selbst dazu zu finden.

Eine Übersicht über die Längen von Haupt- und Nebensätzen anhand von Mittelwert und Streuung ist in Anhang 12 zu finden.

4.1.3. Analyse von Nominalgruppen

4.1.3.1. Definition der Nominalgruppe

Der Begriff der Nominalgruppe wird in dieser Arbeit so verstanden, daß jede Nominalgruppe einen Kern besitzt, der ein Substantiv (Wortklasse SUB) ist oder eine Wortklasse, die ein Substantiv ersetzen kann. Das sind die Wortklassen SBI, ADJS, PT1S, PT2S, IZUS, NAM, FRMD und - wenn sie isoliert stehen, das heißt, wenn sie nicht mit einer der gerade genannten Wortklassen verbunden sind, - auch die Wortklassen DEM, POS, IND, NUM, PER, REL, FRA.

Dieser Kern ist jeweils das letzte Element der Nominalgruppe; eventuell gehen ihm weitere Elemente voraus. Welche Kombinationen dabei möglich sind und wann der weitere Aufbau der Nominalgruppe nach links abbricht, zeigt die folgende Tabelle:

Nominalgruppen-Aufbau

Vorgänger + ->	SUB SBI (=N0)	ADJS PT1S PT2S IZUS (=N1)	NAM (=N2)	FRMD (=N3)	N11	N12	N13	N10
ADJ PT1A PT2A IZUA NUM	N11	N11	N11	N11	N11	N11	*	*
DEM POS FRA	N10	N10	N10	N10	N10	N10	N10	*
ADV ADJV PT1V PT2V	*	N12	*	*	N12	N12	*	*
NAM	N0	N1	*	N3	N11	N12	N13	N10
IND	N13	N13	N13	N13	N13	N13	N13	*
NUM	*	*	*	*	*	*	N13	*
KOMA \| "und"\|"oder"\|"als" + ADJ PT1A PT2A IZUA	*	*	*	*	N11	N11	*	*
"manch" "solch" "irgend"	*	*	*	*	*	*	*	N10
alle anderen Wortklassen	*	*	*	*	*	*	*	*

* bedeutet:
Aufbau der Nominalgruppe wird beendet;
Nominalgruppe ist komplett.

Alle Nominalgruppen werden damit in die Nominalgruppenklassen N0 N1 N2 N3 N10 N11 N12 N13 eingeordnet.

Wenn dieser Aufbau der Nominalgruppen eines Satzes beendet ist, werden alle noch isoliert vorkommenden Wortklassen "DEM POS IND NUM PER REL FRA" als Nominalgruppenklasse N4 bezeichnet.

4.1.3.2. Die häufigsten Typen

Zu einem Nominalgruppentypus werden alle Nominalgruppen gerechnet, die die gleiche Länge, also die gleiche Anzahl von Konstituenten besitzen, und in denen korrespondierende Konstituenten die gleiche Wortklasse haben.

Beispiel:

der alte Vater	==>	DEM ADJ SUB
ein neues Haus	==>	DEM ADJ SUB

Eine Übersicht über die häufigsten Nominalgruppen-Typen ist in Anhang 17 zu finden.

4.1.3.3. Attribute in Nominalgruppen

Eine besondere Untersuchung wurde der Frage gewidmet, wie häufig der substantivische Kern (d.h. ein Kern aus einer der Wortarten SUB SBI ADJS PT1S PT2S IZUS NAM FRMD) einer Nominalgruppe durch - ein oder mehrere - Attribute genauer beschrieben wird.

Anhang 18 bringt eine Übersicht darüber, wie häufig die verschiedenen Arten von Attributen - ADJ, PT1A, PT2A, IZUA und Kombinationen daraus - anzutreffen sind.

4.1.4. Die Verwendung des "Infinitivs mit ZU"

Bei der Lektüre der Werke Karl May's fällt dem Leser immer wieder auf, daß der Autor sich häufiger, als man es gewohnt ist, des Infinitivs mit ZU in Formulierungen wie "er hat zu beachten", "es scheint zu regnen", "Zeit zu reagieren" bedient.

Daraufhin wurde das Auftreten dieser grammatischen Konstruktion genauer ausgezählt. Das Ergebnis ist in Anhang 19 zu sehen.

Man kann in dieser Aufstellung finden, wie oft der "Infinitiv mit ZU" im Verhältnis zur Gesamtwortanzahl auftritt, wie oft die Konjunktionen "UM ZU, OHNE ZU, ANSTATT ZU" vorkommen, die ja immer einen oder mehrere Infinitive mit ZU einleiten, und wie oft dann noch der "reine Infinitiv mit Zu" zu finden ist.

Dazu wird die Anzahl verschiedener Wörter angegeben, von denen dann ein Infinitiv mit ZU abhängt (Kontrollwörter).

Als letztes werden dann für jedes ausgezählte Werk die 10 häufigsten Kontrollwörter mit ihren relativen Häufigkeiten (in Prozent) aufgeführt.

4.2. Abschnittsweise Analysen

Im Laufe der im Abschnitt 4.1. durchgeführten Untersuchungen ergab sich der Eindruck, daß die dort bestimmten statistischen Größen sich - über den ganzen Text gesehen - durchaus nicht gleichmäßig verhalten, sondern beträchtlichen Schwankungen unterworfen sind. Diese Beobachtung gab den Anstoß zu einer abschnittsweisen Untersuchung, um die Größe dieser Schwankungen - und eventuell auch ihre Ursachen - näher bestimmen zu können.

4.2.1. Wortlängen (in Buchstaben)

Teilt man einen Text in kleinere, äquidistante Abschnitte und untersucht das Verhalten der durchschnittlichen Wortlänge von Substantiven (in Buchstaben gezählt) pro Abschnitt, so erhält man eine Menge von Werten für diese Erscheinung, die man als Kurve über das ganze Werk aufzeichnen kann.

Die folgende Untersuchung zeigt auf, daß ein gewisser Zusammenhang hergestellt werden kann zwischen dieser statistischen Erscheinung und dem Inhalt des betrachteten Textes.

In einem ersten Beispiel wird der Text "Winnetou I (GR07)" in Abschnitte der Länge 4000 Wortformen (incl. Satzzeichen) eingeteilt und untersucht. Die in Anhang 13-G dargestellte Kurve zeigt hervorstechende Spitzen und Tiefpunkte, und der Vergleich mit dem Text ergibt nun eine nicht zu übersehende Parallelität zwischen der Form dieser Kurve einerseits, die dem Betrachter ins Auge fällt, und der Intensität der Handlung andererseits, die ja der Leser immer wieder erspürt.

Die tiefen Täler bezeichnen Teile der Handlung, die vor Spannung bersten; die Spitzen charakterisieren Teile des Werkes, in denen die Handlung zurücktritt gegenüber Beschreibungen von Land und Leuten, geschichtlichen Betrachtungen oder Diskussionen über religiöse und weltanschauliche Themen.

Diese Behauptung kann man sofort anhand des Textes nachvollziehen. Einzelne herausragende Stellen dieser Kurve sind mit den Buchstaben A bis N bezeichnet. Diesen entsprechen folgende Abschnitte der Handlung:

A: Die Einleitung und die Einführung des Lesers in Handlungsraum und Handlungszeit.
B: Die ersten Jagden auf Büffel, Mustangs und Grizzlybär.
C: Erster Auftritt Winnetous, Gespräch mit seinem Lehrer Klekih- Petra.
D: Die Ermordung Klekih-Petras.
E: Der Ritt zu den Kiowas, Pläne werden geschmiedet.
F: Winnetous Gefangennahme.
G: Der lang und breit ausgesponnene Prozeß der Befreiung Winnetous.
H: Kampf, Verwundung, Gefangennahme.
I : Beschreibung der Genesung und des Aufenthalts im Pueblo.
K: Der Kampf mit Intschu-tschuna.
L: Ein Gespräch über Religion.
M: Der Mord an Intschu-tschuna und Nscho-tschi.

N: Die Verfolgung bis zum Lager der Kiowas.
Warum wird gerade die durchschnittliche Wortlänge von Substantiven untersucht?

Eine Erklärung liegt in einer Eigenschaft der deutschen Sprache, nämlich der Möglichkeit, durch Zusammensetzung mehrerer Wörter neue Substantive zu bilden. Zu einer solchen Neubildung gehört ein gewisser bewußter gedanklicher Aufwand, der einem phantasiegeladenen Autor, der fast "wie in Trance" schreibt, - besonders dem Ich-Autor - in Phasen spannungsgeladener Handlung bei der Niederschrift nicht voll zur Verfügung steht, sodaß in solchen Phasen unwillkürlich kürzere Wortformen bevorzugt werden.

In weiteren Beispielen kann man anhand der ebenfalls in Anhang 13 zu findenden entsprechenden Schaubilder zu den übrigen Werken des Karl-May-Korpus den genannten Zusammenhang bestätigen, wenn er auch nicht ganz so instruktiv erscheint wie in "Winnetou (GR07)".

So erkennt man beispielsweise in

"Wüste":

den tragischen Zwischenfall auf dem Schott el Dscherid (Seite 45 ff.)
das Gespräch mit Martin Albani (Seite 205 ff.)
die Gefangenschaft bei den Beduinen mit nachfolgender Löwenjagd (Seite 330 ff.)
den Besuch bei dem Pascha von Mossul (Seite 427 ff.)

"Kurdistan":

die Totenfeier für Pir Kamek (Seite 80 ff.)
die Vorbereitung zur Befreiung von Amad el Ghandur (Seite 210 ff.)
die erste Belagerung durch feindliche Kurden (Seite 330 ff.)

"Bagdad":

die einleitende Betrachtung (Seite 9 ff.)
den Tod von Mohammed Emin (Seite 150 ff.)
die Beschreibung von Damaskus (Seite 300 ff.)
die Geschehnisse in Baalbek (Seite 350 ff.)
die Beschreibung von Stambul (Seite 385 ff.)

"Balkan":

das Gespräch mit Martin Albani (Seite 270 ff.)
das gemächliche Geschehen im Konak von Dabila (Seite 370 ff.)
den Auftritt des Mübarek (Seite 460 ff.)

"Skipetar":

in diesem Werk läßt sich die obige Behauptung nicht eindeutig belegen.

"Schut":

die "Fischtran"-Szene (Seite 60 ff.)
die Bärenjagd (Seite 120 ff.)
den Überfall auf dem Weg nach Rugova (Seite 320 ff.)

"Jenseits":

die Verabredung zum dreifachen Zweikampf (Seite 120)
eine lange Betrachtung über den Zufall (Seite 244 ff.)
den Überfall durch die Beni Lam (Seite 304)

"Silberlöwe 3":

das Wiedersehen von Hanneh und Kara Ben Halef mit dem todkranken Halef (Seite 300 ff.)
das Abenteuer von Kara Ben Halef und Tifl mit den Soldaten (Seite 370 ff.)
die Diskussion über das Thema "Lüge" (Seite 437 ff.)
den Anblick und die Beschreibung des "Hohen Hauses" (Seite 500 ff.)

"Silberlöwe 4":

den Traum vom Inneren der Ruinen (Seite 314 ff.)
das große Rennen (Seite 588 ff.)

"Waldrose 1":

den Unterschied zwischen der Beschreibung von Mutter Dry's Kneipe und Rodenstein's Schlo� einerseits und dem dazwischenliegenden Rencontre mit dem Schwarzen Kapit�n andererseits (Seite 224 ff.)
den Unterschied zwischen der Schilderung der verschiedenen Milieus in Saragossa und der Schilderung der Vergewaltigung der Gouvernante (Seiten 300 - 365)
den Mordversuch an Donnerpfeil (Seite 430 ff.)

"Waldrose 3":

den Unterschied zwischen der Ehrengerichtsszene auf der Hazienda del Erina und der kurz darauf geschilderten Gefangennahme der 5 Hauptpersonen Sternau, Helmers, Mariano, Emma und Katja Seite 990 ff.)
die Beschreibung der indianischen B�ffel- und B�renjagd (Seite 1050 ff.)
die Befreiung der Gefangenen (um Seite 1100)
die recht leidenschaftslos geschilderte erneute Gefangennahme aller Protagonisten durch Landola/Grandeprise und ihre Verbringung auf eine einsame Insel und die dauffolgende Charakterisierung Juarez' (Seite 1125 ff.)
den - im Sinne von Cortejo - erfolglosen Millionenraub bei Lord Lindsay (Seite 1150 ff.)
die Beschreibung des Lebens auf Rheinwalden (Seite 1161 ff.)
Kurt's Doppelduell (1247 ff.) und
die anschlie�ende Liebesszene in Kurt's Zimmer (1257 ff.)

"Nachsommer":

Obwohl man bei der Lektüre des "Nachsommer" zu erkennen meint, daß die Handlung ohne jedweden Wellenschlag verläuft, zeichnen sich doch die drei wichtigsten - von den wenigen - Liebesszenen deutlich in der Statistik ab:

ein Treffen zwischen Natalie und Heinrich (Seite 398 ff.)
das Liebesbekenntnis zwischen Natalie und Heinrich (Seite 445 ff.)
das Liebesbekenntnis zwischen Mathilde und Gustav (Seite 603 ff.)

4.2.2. Wortschatz

Wenn man anhand der gleichen Texteinteilung in Stücke der Länge 4000 Wortformen (incl. Satzzeichen), wie sie in Abschnitt 4.2.1. erwähnt ist, eine Untersuchung des Wortschatzes dieser Stücke durchführt, so ist leicht ersichtlich, daß sowohl die Anzahl verschiedener Substantiv-Lemmata pro Teilstück als auch die Anzahl verschiedener Adjektiv-Lemmata pro Teilstück im wesentlichen ein ähnliches Verhalten aufweisen wie die durchschnittliche Wortlänge von Substantiven in dieser Einteilung.

Statistisch läßt sich diese Ähnlichkeit des Verhaltens zeigen, wenn man die entsprechenden Korrelationskoeffizienten betrachtet, die in Anhang 14 zu finden sind. Zum Vergleich sind dort die Korrelationskoeffizienten zu finden zu den Paarungen:

A/S: Anzahl Adjektiv-Lemmata - Anzahl Substantiv-Lemmata *

A/V: Anzahl Adjektiv-Lemmata - Anzahl Verb-Lemmata

A/P: Anzahl Adjektiv-Lemmata - Anzahl Partikel-Lemmata

A/SLg: Anzahl Adjektiv-Lemmata - durchschn. Substantivlänge *

S/V: Anzahl Substantiv-Lemmata - Anzahl Verb-Lemmata

S/P: Anzahl Substantiv-Lemmata - Anzahl Partikel-Lemmata

S/SLg: Anzahl Substantiv-Lemmata - durchschn. Substantivlänge *

V/P: Anzahl Verb-Lemmata - Anzahl Partikel-Lemmata

V/SLg: Anzahl Verb-Lemmata - durchschn. Substantivlänge

P/SLg: Anzahl Partikel-Lemmata - durchschn. Substantivlänge

Der Vergleich zeigt deutlich, daß die drei markierten Paarungen bedeutend stärker miteinander korreliert sind als die übrigen Paarungen.

4.3. Der Zusammenhang von Wortschatz und Textmenge.

Die Untersuchungen des Wortschatzes anhand des Karl-May-Korpus zeigen bisher, daß man nur von dem Wortschatz eines Werks oder einer Werkgruppe sprechen kann, nicht aber von dem Wortschatz eines Autors.

Das Karl-May-Korpus ist bisher noch nicht umfangreich genug, als daß man in der Lage wäre, eine Aussage über den Gesamtwortschatz des Autors Karl May zu machen. Jede Vergrößerung der untersuchten Textmenge hat bisher noch immer eine Vergrößerung des benutzten Wortschatzes mit sich gebracht.

In welcher Weise sich der Zusammenhang zwischen Textmenge und Wortschatz ausdrückt, das zeigt die Tabelle in Anhang 15, in der die durchschnittliche Größe des Wortschatzes bei wachsender Textmenge für die bisher in das Korpus aufgenommenen Werke dargestellt wird, und zwar sowohl für den Gesamtwortschatz als auch für den Wortschatz an Substantiven, Adjektiven, Verben und Partikeln.

Die in Anhang 15-F ebenfalls beigefügte graphische Darstellung des Zusammenhangs zwischen Wortschatz und Textmenge des "Orient-Zyklus" zeigt augenfällig, daß auch über eine Textmenge von einer Million Wortformen hinaus der Wortschatz des Autors Karl May wohl noch beträchtlich steigen kann. Einzig der Partikel-Wortschatz scheint sich seinem Maximalumfang genähert zu haben.

Zwei weitere Tabellen im Anhang 15 zeigen auf, wie sich die prozentualen Anteile von Substantiven, Adjektiven, Verben und Partikeln einerseits als Anteile am Gesamttext als auch als Anteile am Wortschatz verhalten. Die Tabellen zeigen jeweils die Mittelwerte und die Streuungen der prozentualen Anteile an Textabschnitten wachsender Längen.

A/S:	Anzahl Adjektiv-Lemmata	- Anzahl Substantiv-Lemmata	*
A/V:	Anzahl Adjektiv-Lemmata	- Anzahl Verb-Lemmata
A/P:	Anzahl Adjektiv-Lemmata	- Anzahl Partikel-Lemmata
A/SLg:	Anzahl Adjektiv-Lemmata	- durchschn. Substantivlänge	*
S/V:	Anzahl Substantiv-Lemmata	- Anzahl Verb-Lemmata
S/P:	Anzahl Substantiv-Lemmata	- Anzahl Partikel-Lemmata
S/SLg:	Anzahl Substantiv-Lemmata	- durchschn. Substantivlänge	*
V/P:	Anzahl Verb-Lemmata	- Anzahl Partikel-Lemmata
V/SLg:	Anzahl Verb-Lemmata	- durchschn. Substantivlänge
P/SLg:	Anzahl Partikel-Lemmata	- durchschn. Substantivlänge