2. Zielsetzung

Zur Beantwortung der in der Vorrede genannten Fragen mit den technischen Hilfsmitteln, die die elektronische Datenverarbeitung heute bietet, muß man sich auf eine Datenbasis stützen, die die in Frage kommenden Texte umfaßt. Es ist also notwendig, ein Korpus der Texte Karl May's aufzubauen, wozu auch Einzeltexte anderer zeitgenössischer Schriftsteller angefügt werden müssten, wenn man den "Standort" Karl May's innerhalb seiner Schriftstellerkollegen bestimmen will.

Dieses Textkorpus soll die Datengrundlage bilden für linguistische und statistische Untersuchungen der verschiedensten Arten.

Das Karl-May-Korpus wird aus Teilkorpora zusammengesetzt, deren jedes den Text eines Werkes des Autors Karl May - und evtl. auch anderer Autoren - enthält.

Um Untersuchungen der Texte in späteren Bearbeitungsphasen überhaupt erst zu ermöglichen oder aber sie zu erleichtern, werden zu allen Wortformen eines Textes Angaben über

hinzugefügt. Dadurch wird auch die Mehrdeutigkeit von Wortformen beseitigt, die durch Homographen entsteht.

Durch die Markierung entstehen aus dem Ursprungstext, der aus den vom Autor niedergeschriebenen Wortformen besteht, drei korrespondierende Texte:

Ein solches linguistisch markiertes Textkorpus bildet eine notwendige Voraussetzung für sprachwissenschaftliche Untersuchungen der vielfältigsten Art.

Der Aufbau des Karl-May-Korpus wird in Abschnitt 3 eingehend erläutert.

Eine Reihe von statistischen Untersuchungen der bisher in das Karl-May-Korpus aufgenommenen Texte wurde schon durchgeführt. Die Ergebnisse sind in Abschnitt 4 zu finden.

Das Karl-May-Korpus kann über die folgende Adresse bezogen werden:

European Language Resources Association ELRA
55-57, rue Brillat Savarin
75013 Paris, France
Tel. +33 - (0)1 - 43 13 33 33
Fax. +33 - (0)1 - 43 13 33 30
e-mail: info-elra@calva.net