Kant und Zipf – Übung zur Termhäufigkeit





Zur Ermittlung von Termhäufigkeiten und für Übungen zu Zipf's Law wird der Volltext von Immanuel Kants "Kritik der reinen Vernunft" verwendet.

Die Archiv-Datei zur Übung enthält folgende Dateien:
  • kant-kdrv.txt – der Volltext von Kants "Kritik der reinen Vernunft"
  • ling-zipf-kdrv.xls – die Auswertungen einer Zählung der reinen Zeichenketten und der Grundformen
  • kant-kdrv.abs – die Ergebnisse für eine Lingo-Indexierung mit Häufigkeit der Token
  • kant-kdrv.ven – die Ergebnisse für eine Lingo-Indexierung mit Häufigkeit der Grundformen
  • zipf.cfg – die Lingo-Konfiguration


 Aufgabenstellung
  1. Erstellen Sie aus der Datei „kant-kdrv.txt“ eine nach Häufigkeiten sortierte Liste der enthaltenen Zeichenketten. Verwenden Sie notepad++, um eine Liste der Einzelwörter zu erstellen und Excel (Pivot-Tabellen), um die Worthäufigkeit zu berechnen. Analysieren Sie das Ergebnis.
  2. Überprüfen Sie, ob in der Liste nur Einträge enthalten sind, die Ihrer Vorstellung von einem „Wort“ entsprechen. Wiederholen Sie ggf. Ihre Ersetzung, bis Sie mit dem Ergebnis zufrieden sind. Halten Sie die Gesamtmenge der zu ersetzenden Zeichen in Form eines regulären Ausdrucks fest.
  3. Überprüfen Sie die Liste auf das Vorkommen von Wortvarianten und auf die Gesamtanzahl der enthaltenen Einträge. Erstellen Sie mit Lingo eine nach Häufigkeiten sortierte Liste der Zeichenketten token). Benutzen Sie für diesen Indexierungslauf die Konfiguration „zipf.cfg“. Speichern Sie die Ergebnisse für eine spätere Verwendung in geeignet benannte Dateien ab.
  4. Erstellen Sie mit Lingo eine nach Häufigkeiten sortierte Liste der Grundformen. Verwenden Sie dafür die Standardkonfiguration „lingo.cfg“. Speichern Sie die Ergebnisse für eine spätere Verwendung in geeignet benannten Dateien ab.
  5. Führen Sie für die in 3. und 4. erstellten Ergebnisse eine vergleichende Analyse durch:
      • Übereinstimmung bzw. Unterschiede der Excel-Pivot-Liste mit der durch Lingo ermittelten Liste der token. Erklären Sie ggf. vorhandene Unterschiede. 
      • Vergleich der Anzahl der Einträge in der durch Lingo ermittelten Liste der token und der durch Lingo ermittelten Liste der Häufigkeit der Grundformen. Erklären Sie ggf. vorhandene Unterschiede.
      • Vergleich der Häufigkeit der Einträge für ausgewählte Wörter in der Liste der token und der Liste der Grundformen. Muss die Häufigkeit in einer Liste immer größer (oder kleiner) sein als in der anderen?
      • Welcher Effekt für die Häufigkeiten ergibt sich durch Zu- oder Abschalten einer Zerlegung von Komposita.