Laborpraktikum Bibliografische Datenmodelle und Information Retrieval (IR 3.4)




► Aufgabenstellung
In diesem Laborpraktikum werden verschiedene Ansätze automatischer Indexierung behandelt. Einführend wird untersucht, auf welche Weise Indexterme aus einer vorgegebenen Datenbasis automatisch gewonnen werden können. Dazu gehört die Erstellung einfacher Stichwortlisten und Register mit einem Textverarbeitungsprogramm oder mit Midos (und der dort integrierten Funktion der Automatischen Schlagwortvergabe). Der Schwerpunkt der praktischen Arbeiten liegt auf dem automatischen Indexierungssystem Lingo und der damit durchgeführten linguistisch und statistisch basierten Indexierungsläufe für eine vorgegebene Dokumentkollektion. Ergänzend werden zwei Stemming-Verfahren zur automatischen Indexierung des Englischen eingesetzt.


► Lehrmaterialien
Dieser Text gibt einen Überblick über die für die Aufgabenstellung erforderlichen Quelldaten und die eingesetzte Software. Grundlage für die Bearbeitung der Aufgabenstellung ist Kapitel 5 des Buchs Informationserschließung und Automatisches Indexieren:

Automatisches Indexieren (Kapitel 5)

Dort sind die Vorgehensweise und die theoretischen Grundlagen ausführlich beschrieben. Die vollständige Abfolge der einzelnen Schritte der Aufgabenstellung sowie ergänzende und vertiefende Übungsaufgaben finden sich in Abschnitt 5.5 Praktikum Automatisches Indexieren.

Wiederholungsfragen zum Laborpraktikum

► Datenquellen
Alle Daten lassen sich als Gesamtpaket (in einer Archivdatei) herunterladen:

gln-daten.zip

Die Archivdatei "gln-daten.zip" muss auf dem eigenen Rechner entpackt werden. Dadurch entsteht ein Ordner "gln-daten" mit folgender Verzeichnisstruktur:

/bilder
/fremddaten
/literatur
/systematik
/thesauri
/titelseiten
/wortlisten

Falls nur einzelne Daten heruntergeladen werden sollen, können die o.g. Ordner auch direkt aufgesucht werden:

Stammordner aller Daten zum Buch

Alle im Buch verwendeten Dateinamen und Bezeichnungen beziehen sich immer auf die in der Archivdatei gln-daten.zip bzw. in der Verzeichnisstruktur des gln-Stammordners enthaltenen Dateien.

► Software
Das Softwarepaket Midos 6 (inkl. Midos-Thesaurus) steht auf allen Laborrechnern als Vollversion zur Verfügung. Eine voll funktionsfähige Demo-Version kann von der Webseite des Herstellers kostenlos bezogen werden.

Das Softwarepaket zur automatischen Indexierung Lingo ist ebenfalls auf allen Laborrechnern bereits installiert. Die Einrichtung einer persönlichen Arbeitsumgebung und der Start mit Lingo sind in einem kurzen Papier beschrieben:

Einrichtung von Lingo für die Laborpraktika „Automatisches Indexieren“ (0C33/2B33)


Weitere Software-Links: