2. Zielsetzung
Zur Beantwortung der in der Vorrede genannten Fragen mit den technischen
Hilfsmitteln, die die elektronische Datenverarbeitung heute bietet, muß man sich
auf eine Datenbasis stützen, die die in Frage kommenden Texte umfaßt. Es ist
also notwendig, ein Korpus der Texte Karl May's aufzubauen, wozu auch
Einzeltexte anderer zeitgenössischer Schriftsteller angefügt werden müssten, wenn man den "Standort" Karl May's innerhalb seiner Schriftstellerkollegen bestimmen will.
Dieses Textkorpus soll die Datengrundlage bilden für linguistische und statistische Untersuchungen der verschiedensten Arten.
Das Karl-May-Korpus wird aus Teilkorpora zusammengesetzt, deren jedes den
Text eines Werkes des Autors Karl May - und evtl. auch anderer Autoren -
enthält.
Um Untersuchungen der Texte in späteren Bearbeitungsphasen überhaupt erst zu ermöglichen oder aber sie zu erleichtern, werden zu allen Wortformen eines
Textes Angaben über
- die Wortklasse,
- die zugehörige Grundform (Lemma) und
- die Lemmawortklasse
hinzugefügt. Dadurch wird auch die Mehrdeutigkeit von Wortformen beseitigt,
die durch Homographen entsteht.
Durch die Markierung entstehen aus dem Ursprungstext, der aus den vom Autor
niedergeschriebenen Wortformen besteht, drei korrespondierende Texte:
- ein Text aus Wortklassen,
- ein Text aus Lemmata,
- ein Text aus Lemmaklassen.
Ein solches linguistisch markiertes Textkorpus bildet eine notwendige
Voraussetzung für sprachwissenschaftliche Untersuchungen der vielfältigsten Art.
Der Aufbau des Karl-May-Korpus wird in Abschnitt 3 eingehend erläutert.
Eine Reihe von statistischen Untersuchungen der bisher in das Karl-May-Korpus
aufgenommenen Texte wurde schon durchgeführt. Die Ergebnisse sind in
Abschnitt 4 zu finden.
Das Karl-May-Korpus kann über die folgende Adresse bezogen werden:
European Language Resources Association ELRA
55-57, rue Brillat Savarin
75013 Paris, France
Tel. +33 - (0)1 - 43 13 33 33
Fax. +33 - (0)1 - 43 13 33 30
e-mail: info-elra@calva.net