Fragen zu den Suchergebnissen

Was ist mit fehlerhaften Wörtern?

Alle Wörter werden so aufgenommen und dargestellt, wie sie in den Texten gefunden werden. Durch die Beschränkung auf Texte von Nachrichtentexte als qualitativ hochwertige Quellen soll die Anzahl der fehlerhaften Wörter möglichst gering gehalten werden. Aber trotzdem finden sich orthographische Fehler (z.B. nähmlich statt nämlich) und auch Fehler, die durch die Verarbeitung entstanden sind, wie z.B. tung. Außerdem finden sich Texte in alter Rechtschreibung, Texte in Mundart (siehe ick oder isch) usw.

In der Regel ist die Häufigkeit eines fehlerhaften Wortes jedoch viel geringer als die Häufigkeit der korrekten Version, außerdem sind bei Wörtern in alter Rechtschreibung Verweise auf die jetzt gültige Schreibung angebracht.

Was sind Kookkurrenzen?

Zwischen den lexikalischen Einheiten eines Satzes oder eines Textes bestehen eine Vielzahl semantischer Zusammenhänge, die in ihrer Gesamtheit die Semantik des Satzes oder Textes formen. Eine (automatische) Extraktion dieser Zusammenhänge setzt normalerweise die Kenntnis der Semantik der einzelnen Bestandteile voraus. Diese ist aber insbesondere bei statistischen oder korpuslinguistischen Verfahren nicht oder nur unzureichend bekannt.

Ein "einfacher" Ansatz baut auf der Annahme auf, daß semantisch in Beziehung stehende Einheiten in verschiedenen Umgebungen vermehrt gemeinsam auftauchen. Oder umgekehrt: Wörter, die auffällig oft gemeinsam auftreten, stehen meist in einem inhaltlichen oder grammatischen Zusammenhang. Dieses Eigenschaft des statistisch auffälligen gemeinsamen Auftretens wird als Kookkurrenz bezeichnet.Kookkurrenzen, die mit Hilfe von statistischen Methoden gefunden werden, umfassen beliebige Wortkombinationen ungeachtet ihrer grammatischen Wohlgeformtheit, während so genannte Kollokationen solche Kookkurrenzen sind, bei denen die Kombination auf bestimmte Wortarten beschränkt sind, z.B. Adjektiv-Substantiv-Kollokationen wie unangefochtener Spitzenreiter. In diesem Beispiel drückt das Adjektiv meist eine typische Eigenschaft des Substantivs aus.

Die angegebenen Kookkurrenzen sin also Wörter, die typischerweise gemeinsam mit dem Ausgangswort in einem Satz auftreten. Von zusätzlichem Interesse sind die typischen unmittelbaren linken und rechten Nachbarn des Ausgangswortes im Satz. Diese sind zusätzlich angegeben. Für jedes Wort werden maximal 50 Kookkurrenzen angegeben. Die Zahlen in Klammern geben jeweils die Stärke der Zusammengehörigkeit (gemmessen mit dem sogenannten Log-Likelihood-Maß) an.

Die Grafik unten auf der Seite verbindet zusätzlich diejenigen Satzkookkurrenzen des Ausgangswortes, die untereinander ebenfalls Kookkurrenzen sind. Die Linienstärke ist entsprechend der jeweiligen Signifikanz gewählt.

Was hat es mit den Häufigkeitsklassen auf sich?

Unter den Angaben zu einem Wort finden Sie unter anderem jeweils eine so genannte Häufigkeitsklasse. Vielleicht haben Sie sich ja auch schon einmal gefragt, was es denn damit auf sich haben könnte:

In (natürlichen) Sprachen kommen die einzelnen Wörter in unterschiedlicher Häufigkeit vor und zwar so, dass einige wenige Wörter sehr häufig und sehr viele Wörter nur sehr selten vorkommen. Diesen Umstand spiegeln die Häufigkeitsklassen wieder:

HKL(Wort) = ganzzahliger Anteil (log2(anzahl('der')/anzahl(wort)))

Die folgende Grafik zeigt die Verteilung der Wörter auf die verschiedenen Häufigkeitsklassen. Ist es nicht verblüffend, dass die Werte fast auf einer Geraden liegen?
Grafik Häufigkeitsklassen

Dies erklärt sich folgendermaßen: Die Verteilung der Wörter folgt dem Zipf'schen Gesetz (benannt nach dem Harvard-Professor für Linguistik George Kingsley Zipf (1902-1950)).

Dazu ordnen wir die Wörter aus unseren Texten entsprechend ihrer Häufigkeit: Das häufigste Wort erhält den Rang 1, das zweithäufigste den Rang 2 usw. Das zipfsche Gesetz besagt nun, dass das Produkt aus Rang und Häufigkeit eines Wortes für alle Wörter nahezu gleich ist.

In doppelt logarithmischer Darstellung ergibt sich daraus eine Gerade im log(Rang) - log(Häufigkeit) - Diagramm. Da bei unserer Berechnung der Häufigkeitsklassen bereits einmal der Logarithmus im Spiel ist, braucht in der Grafik nur noch die Anzahl-Achse logarithmisch angetragen zu werden, um das zipf'sche Gesetz in Aktion zu sehen.

Falsche Freunde unter den Vornamen

Wenn wir eine Liste von Vornamen haben und wissen wollen, welches die häufigsten sind, können wir folgendes versuchen: Wir zählen, wie oft jedes dieser Wörter in einem langen Text vorkommt und ordnen diese Liste nach Häufigkeit. Leider klappt das nicht, da manche Wörter noch eine weitere Bedeutung haben, z.B. Horst als Adlernest. Die Frage ist: Welches sind die häufigsten Wörter, die als Vorname auftreten können, aber viel häufiger anders verwendet werden?

Die Antwort:

Mark kurz für Markus
April engl. Vorname
Juli kurz für Julius bzw. Julia
August dt. Vorname
Israel jüd. Vorname
Roman lat. Vorname
Ecke kurz für Eckehard
Ernst dt. Vorname
Wolf kurz für Wolfgang
Mercedes span. Vorname