Wahlpflichtveranstaltung – Information Retrieval und Automatisches Indexieren

In der Wahlpflichtveranstaltung „Information Retrieval und Automatisches Indexieren“ wird für eine vorgegebene Dokumentkollektion eine linguistisch basierte automatische Indexierung durchgeführt. Eingesetzt werden dabei die Testkollektion GIRT mit deutschsprachigen bibliografischen Referenzdaten aus dem Bereich der Sozialwissenschaften, die linguistisch und statistisch arbeitende Software Lingo für die automatische Indexierung der Kollektion und das Datenbanksystem Midos als Container für die Dokumentkollektion und als Tool für die Unterstützung des Indexierung-Workflows. Für ein Information Retrieval werden die GIRT-Dokumentkollektion und die Ergebnisse der automatischen Indexierung in die Suchmaschinenlösung Solr überführt. Am Ende des Programms steht eine Evaluierung mit der Softwarelösung TREC_EVAL.

Arbeitsprogramm

10 GIRT-XML (Transformation ins Midosformat - schon fertig)
20 Import in Midos (Korpus-Aufbereitung und Feldauswahl für den Export)
30 Export in Lingo-Format
40 Indexierung mit Lingo (Anpassung von Parametern)
50 Import der Lingo-Dateien in Solr
60 Retrieval in Solr (ggf. Anpassen einiger Ranking-Parameter, etc.)
70 Export in TREC-Format
80 Evaluation mit TREC_EVAL
90 GOTO 40 (oder 20)

Materialien für den Teil "Einführung in Solr"- 18.04.2018

Zur Vorbereitung auf die Einführung in Solr am 18.04. sollten Sie das erste Kapitel aus dem Buch "Solr in Action" lesen, das es kostenlos zur Ansicht beim Manning-Verlag gibt. Weiterhin können Sie bereits das offizielle Solr-Tutorial bearbeiten, dies ist aber freiwillig.

Materialien für den Teil "Evaluierung von Suchmaschinen mit trec_eval" - 09.05.2018

Skript für den Aufgabenteil „Automatisches Indexieren“ - 30.05.2018

wp-biw-6-aufgabenstellung-automatisches-indexieren-2018.pdf

Terminplanung

11.04.2018 – Erstes Treffen, Organisation, Arbeitsprogramm

18.04.2018 – Einführung in Solr (Schaer)

09.05.2018 – Einführung TREC_EVAL (Schaer)

30.05.2018 – Einführung Lingo (Lepsky)

13.06.2018 – Treffen Lingo (Lepsky)

27.06.2018 – Abschlussgespräch