Wahlpflichtveranstaltung – Information Retrieval und Automatisches Indexieren

In der Wahlpflichtveranstaltung „Information Retrieval und Automatisches Indexieren“ wird für eine vorgegebene Dokumentkollektion eine linguistisch basierte automatische Indexierung durchgeführt. Eingesetzt werden dabei die Testkollektion GIRT mit deutschsprachigen bibliografischen Referenzdaten aus dem Bereich der Sozialwissenschaften, die linguistisch und statistisch arbeitende Software Lingo für die automatische Indexierung der Kollektion und das Datenbanksystem Midos als Container für die Dokumentkollektion und als Tool für die Unterstützung des Indexierung-Workflows. Für ein Information Retrieval werden die GIRT-Dokumentkollektion und die Ergebnisse der automatischen Indexierung in die Suchmaschinenlösung Solr überführt. Am Ende des Programms steht eine Evaluierung mit der Softwarelösung TREC_EVAL.

Arbeitsprogramm

10 GIRT-XML (Transformation ins Midosformat - schon fertig)
20 Import in Midos (Korpus-Aufbereitung und Feldauswahl für den Export)
30 Export in Lingo-Format
40 Indexierung mit Lingo (Anpassung von Parametern)
50 Import der Lingo-Dateien in Solr
60 Retrieval in Solr (ggf. Anpassen einiger Ranking-Parameter, etc.)
70 Export in TREC-Format
80 Evaluation mit TREC_EVAL
90 GOTO 40 (oder 20)

Skript für den Aufgabenteil „Automatisches Indexieren“

wp-biw-6-aufgabenstellung-automatisches-indexieren-2017s.pdf

Materialien für den Teil "Einführung in Solr"

Zur Vorbereitung auf die Einführung in Solr am 29.05. sollten Sie das erste Kapitel aus dem Buch "Solr in Action" lesen, das es kostenlos zur Ansicht beim Manning-Verlag gibt. Weiterhin können Sie bereits das offizielle Solr-Tutorial bearbeiten, dies ist aber freiwillig.

Materialien für den Teil "Evaluierung von Suchmaschinen mit trec_eval"

Terminplanung

24.04.2017 – Erstes Treffen, Organisation, Arbeitsprogramm

08.05.2017 – Einführung in Lingo

22.05.2017 – Abschluss automatische Indexierung

29.05.2017 – Einführung Solr

12.06.2017 – Abschluss Solr

19.06.2017 – Einführung TREC_EVAL

03.07.2017 – Abschluss TREC_EVAL

10.07.2017 – Abschlussgespräch