Informationserschließung und Automatisches Indexieren



Winfried Gödert, Klaus Lepsky, Matthias Nagelschmidt

Informationserschließung und Automatisches Indexieren: ein Lehr und Arbeitsbuch.

XIV, 434 S. Berlin u.a.: Springer, 2012.
(X.media.press)


Modul Informationserschließung und Wissensorganisation [BC 3 / IR 3a]

Das Modul Informationserschließung und Wissensorganisation (BC 3 / IR 3a) vermittelt mit der Vorlesung Grundlagen der Informationserschließung und Wissensorganisation und dem Laborpraktikum Erstellen und Erschließen einer Datenbank für Bilder (BC 32 / IR 3.2) die Grundlagen der Wissensorganisation und Wissensrepräsentation.

In der Vorlesung stehen Methoden, Formen und Techniken der inhaltlichen Dokumenterschließung im Vordergrund. Hierzu gehören insbesondere Techniken zur Analyse des Dokumentinhaltes, Prinzipien zur Repräsentation des Inhaltes in Klassifikationssystemen oder verbalen Dokumentationssprachen sowie Fragen der Eignung der jeweiligen Dokumentationssprache für Verfahren des Information Retrieval. Schwerpunkte liegen auf der Theorie von Dokumentationssprachen (Klassifikationssysteme, Thesauri, Schlagwortregelwerke), der exemplarischen Vorstellung von Dokumentationssprachen sowie der Erarbeitung von Kriterien zur qualitativen Einordnung der Erschließungstechniken.

Theoretische Grundlagen und praktische Anleitungen zu den Inhalten der Lehrveranstaltungen finden sich im Lehrbuch:

Informationserschließung und Automatisches Indexieren.

Die intensive Lektüre der Einleitung und des Kapitels 2 ist Voraussetzung für die erfolgreiche Teilnahme am Modul!

Zu den Inhalten des Laborpraktikums

Laborpraktikum: Erstellen und Erschließen einer Datenbank für Bilder (BC 32 / IR 3.2)

Skript zur Vorlesung

Vorlesung: Grundlagen der Informationserschließung und Wissensorganisation

Übungsaufgaben und Wiederholungsfragen

Wiederholungsübung zur Modulprüfung (BC 3 / IR 3a)



Modul Informationserschließung und bibliografisches Information Retrieval [BC 4 / IR 3b]

Das Modul Informationserschließung und bibliografisches Information Retrieval (BC 4 / IR 3b) schließt an das Modul Informationserschließung und Wissensorganisation (BC 3 / IR 3a) an und besteht aus einer Vorlesung und einem Laborpraktikum.

Das Laborpraktikum Erstellen und Erschließen einer bibliografischen Datenbank (BC 41 / IR 3.3) behandelt die Prinzipien einer formalen und inhaltlichen Dokumentbeschreibung für heterogene Dokumenttypen. Durch die selbstständige Analyse gängiger Datenformate, die Erweiterung und Anpassung eigener Kategorienschemata und die praktische Konzeptionierung und Durchführung von Datenimporten wird ein vertieftes Verständnis von Datenstrukturen für bibliografische Referenzdaten ermöglicht.

Die Vorlesung Bibliografische Datenmodelle und Information Retrieval (BC 42 / IR 3.4) vermittelt die für die Aufgabenstellung des Laborpraktikums benötigten methodischen Kenntnisse zur formalen und inhaltlichen Dokumentbeschreibung sowie zur Erstellung geeigneter bibliografischer Retrievalanwendungen.

Theoretischen Grundlagen und praktische Anleitungen zu den Inhalten der Lehrveranstaltungen finden sich im Lehrbuch

Informationserschließung und Automatisches Indexieren.

Die intensive Lektüre des Kapitels 3 ist Voraussetzung für die erfolgreiche Teilnahme am Modul!

Hilfestellungen zum eingesetzten Programm finden sich in Kapitel 8.

Ein Terminplan für die Arbeiten an der Aufgabenstellung im Laborpraktikum befindet sich beim Blogeintrag zum Laborpraktikum Erstellen und Erschließen einer bibliografischen Datenbank (BC 41 / IR 3.3).

Zu den Inhalten des Laborpraktikums

Laborpraktikum: Erstellen und Erschließen einer bibliografischen Datenbank (BC 41 / IR 3.3)

Skript zur Vorlesung

Vorlesung: Grundlagen der Informationserschließung und Wissensorganisation

Übungsaufgaben und Wiederholungsfragen

Wiederholungsübung zur Modulprüfung BC 4 / IR 3b

Laborpraktikum: Erstellen und Erschließen einer Datenbank für Bilder [BC 3.2 / IR 3.2]



Aufgabenstellung

In diesem Laborpraktikum wird eine strukturierte Datenbank zur Erfassung und Erschließung von Bildern angelegt. Die Bilder werden im Rahmen eines Erschließungskonzepts formal erfasst, durch Datensätze in einer Datenbankumgebung repräsentiert und inhaltlich durch aspektdifferenzierte Thesauri erschlossen. Es werden die Grundsätze zur Erstellung von Erschließungskonzepten, des begrifflichen Strukturierens und der Gestaltung von Dokumentationssprachen erläutert. In die Vorgehensweise der intellektuellen Erschließung durch Inhaltsanalyse und Zuteilung normierten Vokabulars auf Grundlage von Indexierungsprinzipien wird sowohl theoretisch als auch mit Blick auf die konkreten Beispiele eingeführt. Die erschlossenen Daten werden mit einer Retrievalumgebung suchbar gemacht. Beispielrecherchen illustrieren die Möglichkeiten der eingesetzten Erschließungsmethoden.

Lehrmaterialien

Dieser Text gibt lediglich einen Überblick über die für die Aufgabenstellung erforderlichen Quelldaten und die eingesetzte Software.

Grundlage für die Bearbeitung der Aufgabenstellung ist Kapitel 2 des Buchs Informationserschließung und Automatisches Indexieren:

Erstellen und Erschließen einer Datenbank für Bilder (Kapitel 2)

Dort sind die Vorgehensweise und die theoretischen Grundlagen ausführlich beschrieben. Die vollständige Abfolge der einzelnen Schritte der Aufgabenstellung sowie ergänzende und vertiefende Übungsaufgaben finden sich in Abschnitt 2.11 Praktikum Bilddatenbank.

Am Beginn der praktischen Arbeit im Labor steht eine Übung zur Strukturierung.

Datenquellen

Alle Daten lassen sich als Gesamtpaket (in einer Archivdatei) herunterladen:

gln-daten.zip

Die Archivdatei "gln-daten.zip" muss auf dem eigenen Rechner entpackt werden. Dadurch entsteht ein Ordner "gln-daten" mit folgender Verzeichnisstruktur:

/bilder
/fremddaten
/literatur
/systematik
/thesauri
/titelseiten
/wortlisten

Falls nur einzelne Daten heruntergeladen werden sollen, können die o.g. Ordner auch direkt aufgesucht werden:

Stammordner aller Daten zum Buch

Alle im Buch verwendeten Dateinamen und Bezeichnungen beziehen sich immer auf die in der Archivdatei gln-daten.zip bzw. in der Verzeichnisstruktur des gln-Stammordners enthaltenen Dateien.

Software

Das Softwarepaket Midos 6 (inkl. Midos-Thesaurus) steht auf allen Laborrechnern als Vollversion zur Verfügung. Eine voll funktionsfähige Demo-Version kann von der Webseite des Herstellers kostenlos bezogen werden.

Terminplan für das Sommersemester


09.04.-13.04. – Übung zur begrifflichen Strukturierung und Repräsentation am Beispiel Pflanzen (Konzeption mit Powerpoint)

16.04.-20.04. – Übung zur begrifflichen Strukturierung und Repräsentation am Beispiel Pflanzen (Übertragung in Midos-ThesaurusWiederholungsfragen

23.04.-27.04. – Analyse der Bilder zur Ermittlung geeigneter Beschreibungskategorien; Erstellung eines Datenformats zur formalen und inhaltlichen Erschließung der Bilder (Midos 6); Erfassen der formalen Bilddaten als Datensätze einer Datenbank (Midos 6)

30.04.-04.05. – Erfassen der formalen Bilddaten als Datensätze einer Datenbank (Midos 6)

07.05.-11.05. – Erfassen der formalen Bilddaten als Datensätze einer Datenbank (Midos 6)
Wiederholungsfragen

14.05.-18.05. – Projektwoche

21.05.-25.05. – Entwicklung eines Erschließungsmodells für die inhaltliche Bildbeschreibung (Auswahllisten, Thesauri, freie Beschreibungstexte; Regeln zur Deskriptorzuteilung);
Thesauruserstellung (Midos-Thesaurus); Sammeln geeigneter Begriffe und Strukturierung entsprechend der Thesaurus-Konventionen

28.05.-01.06. – Thesauruserstellung (Midos-Thesaurus); Sammeln geeigneter Begriffe und Strukturierung entsprechend der Thesaurus-Konventionen Wiederholungsfragen

04.06.-08.06. – Indexierung der Bilder mit den Elementen der Auswahllisten und der Thesauri (Midos 6, Midos-Thesaurus)

11.06.-15.06. – Indexierung der Bilder mit den Elementen der Auswahllisten und der Thesauri (Midos 6, Midos-Thesaurus)

18.06.-22.06. – Erstellen eines Ausgabeformates zur Anzeige der Bildbeschreibungen und der Bilder (Midos 6Wiederholungsfragen

25.06.-29.06. – Erstellen einer Retrievalanwendung mit Navigationsmöglichkeiten, Suchindizes und Einbindung der Thesaurussuche (Midos 6); Durchführung von Beispielrecherchen anhand selbst gewählter Fragestellungen (Midos 6Wiederholungsfragen

02.07.-06.07.Wiederholung

Laborpraktikum Erstellen und Erschließen einer bibliografischen Datenbank (BC 4.1 / IR 3.3)





Aufgabenstellung

In diesem Laborpraktikum wird mit einer Datenbank gearbeitet, die bibliografische Datensätze für selbstständige und unselbstständige Schriften enthält. Damit wird die Situation einer heterogenen Dokumentkollektion simuliert, für die eine homogene Erschließungs- und Suchumgebung aufgebaut wird. Die Diskussion der formalen und inhaltlichen Erschließung berücksichtigt die spezifischen Eigenschaften bibliografischer Daten in einem Erschließungskonzept und setzt die aus der Beschäftigung mit Bilddokumenten bekannte Vorgehensweise der Aspektorientierung und Verwendung terminologisch kontrollierten Vokabulars fort. Die Dokumentkollektion wird durch Import von Datensätzen aus anderen Quellen erweitert. Die dafür erforderlichen Manipulationen an den zu importierenden Daten werden ausführlich behandelt und mit Hilfe eines Texteditors durchgeführt. Es wird eine Retrievalumgebung aufgebaut und es wird eine Bibliografie erstellt.

Über diesen Text

Dieser Text gibt einen Überblick über die für die Aufgabenstellung erforderlichen Quelldaten und die eingesetzte Software. Grundlage für die Bearbeitung der Aufgabenstellung ist Kapitel 3 des Buchs Informationserschließung und Automatisches Indexieren:

Erstellen und Erschließen einer bibliografischen Datenbank (Kapitel 3)

Dort sind die Vorgehensweise und die theoretischen Grundlagen ausführlich beschrieben. Die vollständige Abfolge der einzelnen Schritte der Aufgabenstellung sowie ergänzende und vertiefende Übungsaufgaben finden sich in Abschnitt 3.12 Praktikum bibliografische Datenbank.

Datenquellen

Alle Daten lassen sich als Gesamtpaket (in einer Archivdatei) herunterladen:

gln-daten.zip

Die Archivdatei "gln-daten.zip" muss auf dem eigenen Rechner entpackt werden. Dadurch entsteht ein Ordner "gln-daten" mit folgender Verzeichnisstruktur:

/bilder
/fremddaten
/literatur
/systematik
/thesauri
/titelseiten
/wortlisten

Falls nur einzelne Daten heruntergeladen werden sollen, können die o.g. Ordner auch direkt aufgesucht werden:

Stammordner aller Daten zum Buch

Alle im Buch verwendeten Dateinamen und Bezeichnungen beziehen sich immer auf die in der Archivdatei gln-daten.zip bzw. in der Verzeichnisstruktur des gln-Stammordners enthaltenen Dateien.

Software

Das Softwarepaket Midos 6 (inkl. Midos-Thesaurus) steht auf allen Laborrechnern als Vollversion zur Verfügung. Eine voll funktionsfähige Demo-Version kann von der Webseite des Herstellers kostenlos bezogen werden.

Terminplan für das Sommersemester


09.04.-13.04. – Einrichten einer eigenen Arbeitsumgebung mit den Programmen Midos 6FreeCommanderNotepad++; Einrichten der bibliografischen Datenbank "literatur.dbm" (Midos 6); Erfassen der formalen Dokumentdaten für die zu ergänzenden Dokumente (Midos 6Präsentation: Prinzipien der formalen Beschreibung; Anpassung des Datenformats an die Erfordernisse der zu ergänzenden Dokumenttypen

16.04.-20.04. – Erfassen der formalen Dokumentdaten für die zu ergänzenden Dokumente (Midos 6)

23.04.-27.04. – Erfassen der formalen Dokumentdaten für die zu ergänzenden Dokumente (Midos 6Wiederholungsfragen

30.04.-04.05. – Inhaltliche Erschließung durch Wortlisten oder aspektorientierte Thesauri gemäß eines selbst gewählten Erschließungskonzepts (Midos 6Midos-Thesaurus)

07.05.-11.05. – Inhaltliche Erschließung durch Wortlisten oder aspektorientierte Thesauri gemäß eines selbst gewählten Erschließungskonzepts (Midos 6Midos-Thesaurus); Automatische Schlagwortvergabe als interaktive, dokumentbezogene Vorgehensweise (Midos 6Wiederholungsfragen

14.05.-18.05. – Projektwoche

21.05.-25.05. – Erstellen eines Ausgabeformates zur Anzeige der Dokumentbeschreibungen am Bildschirm und innerhalb einer Bibliografie (Midos 6)

28.05.-01.06. – Erstellen eines Ausgabeformates zur Anzeige der Dokumentbeschreibungen am Bildschirm und innerhalb einer Bibliografie (Midos 6)

04.06.-08.06. – Import von Fremddaten ("fremddaten.bib"); Anpassung der Datenstruktur durch globales Suchen und Ersetzen; Harmonisierung der Datenbank (Notepad++Midos 6)

11.06.-15.06. – Import von Fremddaten ("fremddaten.bib"); Anpassung der Datenstruktur durch globales Suchen und Ersetzen; Harmonisierung der Datenbank (Notepad++Midos 6Wiederholungsfragen

18.06.-22.06. – Erstellen einer Retrievalanwendung mit Navigationsmöglichkeiten, Suchindizes und Einbindung der Thesaurussuche (Midos 6)

25.06.-29.06. – Erstellen von Hilfetexten zur Suchgestaltung und -durchführung als Bestandteile der Retrievalanwendung; Erstellen einer Bibliografie mit formalen und sachlichen Registern (Midos 6Wiederholungsfragen

02.07.-06.07. – Wiederholung


Modul Strukturierte Dokumentbeschreibung und Metadaten II [BC 2] im Sommersemester 2018

Lehrveranstaltungen

Die Lehrveranstaltungen beginnen im Sommersemester 2018 ab der Projektwoche (14.5.-18.5.). Es gibt drei Lehrangebote:
  • Grundlagen RDA und Aleph-Katalogisierung, Metadaten und Formate, Blockveranstaltung (Stephani Scholz, HBZ)
  • Vorlesung Prinzipien der strukturierten Dokumentbeschreibung, Metadaten II (Lepsky)
  • Laborpraktikum Formalerschließung (Bredack u. Tutorin)

Modulinhalte

  • Dokumenttypen und formale Dokumentbeschreibung
  • Entitäten und Beziehungen (FRBR, FRBR-LRM)
  • Prinzipien der Formalerschließung
  • Katalogprinzipien
  • Regelwerke (RDA)
  • Normdateien
  • Datenformate (MARC, BIBFRAME)
  • standardisierte Datenanzeige (ISBD)
  • Datenübernahme, Datenimport, Datenexport
  • Verknüpfung von Medien

Wahlpflichtveranstaltung – Information Retrieval und Automatisches Indexieren

In der Wahlpflichtveranstaltung „Information Retrieval und Automatisches Indexieren“ wird für eine vorgegebene Dokumentkollektion eine linguistisch basierte automatische Indexierung durchgeführt. Eingesetzt werden dabei die Testkollektion GIRT mit deutschsprachigen bibliografischen Referenzdaten aus dem Bereich der Sozialwissenschaften, die linguistisch und statistisch arbeitende Software Lingo für die automatische Indexierung der Kollektion und das Datenbanksystem Midos als Container für die Dokumentkollektion und als Tool für die Unterstützung des Indexierung-Workflows. Für ein Information Retrieval werden die GIRT-Dokumentkollektion und die Ergebnisse der automatischen Indexierung in die Suchmaschinenlösung Solr überführt. Am Ende des Programms steht eine Evaluierung mit der Softwarelösung TREC_EVAL.

Arbeitsprogramm

10 GIRT-XML (Transformation ins Midosformat - schon fertig)
20 Import in Midos (Korpus-Aufbereitung und Feldauswahl für den Export)
30 Export in Lingo-Format
40 Indexierung mit Lingo (Anpassung von Parametern)
50 Import der Lingo-Dateien in Solr
60 Retrieval in Solr (ggf. Anpassen einiger Ranking-Parameter, etc.)
70 Export in TREC-Format
80 Evaluation mit TREC_EVAL
90 GOTO 40 (oder 20)

Materialien für den Teil "Einführung in Solr"- 18.04.2018

Zur Vorbereitung auf die Einführung in Solr am 18.04. sollten Sie das erste Kapitel aus dem Buch "Solr in Action" lesen, das es kostenlos zur Ansicht beim Manning-Verlag gibt. Weiterhin können Sie bereits das offizielle Solr-Tutorial bearbeiten, dies ist aber freiwillig.

Materialien für den Teil "Evaluierung von Suchmaschinen mit trec_eval" - 09.05.2018

Skript für den Aufgabenteil „Automatisches Indexieren“ - 30.05.2018

wp-biw-6-aufgabenstellung-automatisches-indexieren-2018.pdf

Terminplanung

11.04.2018 – Erstes Treffen, Organisation, Arbeitsprogramm

18.04.2018 – Einführung in Solr (Schaer)

09.05.2018 – Einführung TREC_EVAL (Schaer)

30.05.2018 – Einführung Lingo (Lepsky)

13.06.2018 – Treffen Lingo (Lepsky)

27.06.2018 – Abschlussgespräch