Web-Ontology

Für das Hochschulranking 2014 wurde ein neuer, thematisch orientierter Zugang eingeführt, der die bisherigen Einstiege über Fächer und Orte konsequent ergänzt. Dieser neue Zugang öffnet das Angebot des Hochschulrankings auch für die Interessierten, die noch keine exakte Vorstellung davon haben, was beziehungsweise wo sie studieren wollen.

Das Hochschulranking von ZEIT ONLINE und CHE

Das Hochschulranking von ZEIT ONLINE und CHE (Centrum für Hochschul-Entwicklung) veröffentlicht jährlich Rankings zu den Studienbedingungen von über 40 Fächern an Hochschulen im deutschsprachigen Raum.
Der Einstieg in das Ranking ist traditionell über Fächer oder über Hochschulorte möglich. Diese Form des Zugangs liegt nahe, denn viele angehende Studenten haben entweder eine Idee davon, was oder wo sie studieren wollen. Gleichzeitig ist die Umfrage-Datenbank nach Orten, Hochschulen und und Fächern organisiert und unterstützt diese Form des Zugangs gleichsam von Haus aus.
Dennoch erweisen sich diese Zugangsmöglichkeiten in manchen Fällen als unzureichend. Zum einen ist Studienanfängern häufig unklar, welches Fach ihre Interessen überhaupt abdeckt (beispielsweise Informatik oder Technische Informatik oder Elektrotechnik). Zum anderen macht die zunehmende Ausdifferenzierung der Studienangebote, insbesondere in den Ingenieurswissenschaften, die Reduktion auf 40 Fachgebiete problematisch.
In dieser Situation hat sich das Projektteam von ZEIT ONLINE entschieden, einen neuen, zusätzlichen Einstieg ins Hochschulranking zu entwickeln. Der neue Einstieg soll einen thematischen Zugang etablieren und auch den Studenten den Zugang zum Ranking ermöglichen, für die gilt: “Ich weiss nicht genau, was ich studieren will. Aber ich interessiere mich für irgendwas mit…”

Neuer Zugang als Ontologie

Der traditionelle Zugang zum Hochschulranking findet über Fächer oder Orte statt. Fächer und Orte sind expliziter Teil des relationalen Modells des Hochschulrankings. Um alle Studiengänge auszulesen, die ein bestimmtes Fach anbieten, genügt eine einfache Datenbankabfrage. Ähnliches gilt für den Zugang über Orte. Im Gegensatz dazu sind die Themen, die ein Studiengang abdeckt, nur implizit in den Daten vorhanden. Die Informationen sind vorhanden, aber sie sind nicht distinkt, nicht abfrage-bereit in der relationalen Struktur ausgewiesen.
Um den neuen Einstieg aufzubauen, mussten wir daher zwei Aufgaben lösen: Zum einen aus dem Datenbestand Begriffe ermitteln, die die Themen der Studiengänge abbilden. Die dabei entstehende Begriffswelt bildet das spätere Frontend.
Zum anderen mussten Abbildungsregeln erstellt werden. Diese Regeln werden benutzt, um ausgehend von einem gewählten Begriff eine passende Auswahl von Studienangeboten und Rankings zu ermitteln. Die Kombination aus Begriffen und Regeln ergibt die Ontologie.

Ontologie: In der Informatik bezeichnet “Ontologie” eine Kombination aus strukturiertem Begriffsraum und Regeln, wie die Begriffe miteinander oder mit einem Außen interagieren sollen.

 

Erstellung der Web-Ontologie

Kategorien als erster Einstieg

Schnell wurde deutlich, dass die thematische Vielfalt des Hochschulrankings zu groß ist, um alle interessanten Begriffe auf einer Ebene präsentieren zu können. Daher haben wir uns dafür entschieden, das Frontend als zweistufige Hierarchie zu gestalten. Auf der ersten Ebene wird eine grobe thematische Kategorisierung dargestellt. Diese führt auf die zweite Ebene, auf der eine TagCloud den Begriffsraum der jeweiligen Kategorie aufspannt.

Die Kategorien wurden von der ZEIT Studienführer-Redaktion übernommen, die in diesem Jahr eine grobe Einteilung der Studiengebiete in sechs Haupt-Kategorien erstellt hat.

Der ZEIT Studienführer veröffentlicht das Hochschulranking jährlich als Print-Magazin. Zusätzlich zu den Daten finden die angehenden Studenten dort Einschätzungen und Beschreibungen, die ihnen helfen, sich in der neuen Welt “Hochschule” zurecht zu finden.

 

Initiale Begriffswelt

Die erste Fassung der Begriffswelt sollte aus den im Hochschulranking enthaltenen Daten extrahiert werden. Als Ausgangspunkt hatten wir die folgenden Inhalte:

  1. Die Namen der etwa 4500 Studiengänge
  2. “Schlagwörter” zu den Studiengängen

Die Schlagwörter werden von den Fachbereichen vergeben. Sie dienen als Keywords für die lokale Suche des Hochschulrankings. Dieser “SEO”-Ursprung machte die Schlagwörter für unsere Zwecke besonders geeignet, besser als die Namen der Studiengänge.

Denn die Namen der Studiengänge sind „Diener vieler Herren“ und müssen unterschiedlichen Anforderungen genügen. Unter all diesen Anforderungen ist es nur eine von vielen, den Inhalt des Kurses für Studienanfänger in allgemein verständlicher Form zu beschreiben. Im Gegensatz dazu, sind die Schlagwörter auf genau diesen Zweck hin getextet und vergeben.

Aus diesen beiden Quellen – Schlagwörtern und Namen – haben wir mit Hilfe von Solr eine erste Fassung des thematischen Raums erstellt. Die Schlagwörter und die Namen der Studiengänge wurden in Wortbestandteile (Terme) aufgespalten, die Terme wurden auf ihre Grundformen zurückgeführt und die Liste der Terme wurde reduziert, so dass nur Terme, die in mindestens 5 unterschiedlichen Studiengängen auftauchen, im weiteren Verlauf berücksichtigt wurden.

Solr ist ein freier Suchserver aus dem Apache Lucene Projekt (lucene.apache.org). Obwohl die klassische Aufgabe von Lucene die Volltextsuche ist, kann es auch sehr effektiv für Information Retrieval-Zwecke eingesetzt werden, insbesondere für Text-Mining.

 

Programmatisch erstellte Basis

Als Ergebnis dieses Prozesses entstand eine Excel-Liste mit etwa 3000 Zeilen, die die grundlegende Begriffswelt des Hochschulrankings abbildete.

Erste manuelle Nachbearbeitung

Im nächsten Schritt wurde diese Datei manuell nachbearbeitet. Einzelne Terme aus den Schlagwörter und Namen wurden zu Konzepten zusammengefasst. Zum Beispiel könnten “fahrzeugtechnik”, “fahrzeugbau”, “fahrwerk”, “fahrzeugelektronik” zum Konzept „Fahrzeugbau“ gehören.

Anschliessend wurde jedes Konzept einer Kategorie zugeordnet.

Das war ein rein manueller Prozess, der nicht mehr als einige Stunden in Anspruch nahm. Es gab immer mal Begriffe, die sich nicht eindeutig zuordnen liessen. Wenn sie in mehr als eine Kategorie passten, wurden sie beiden Kategorien zugeordnet. Manche Begriffe passten auch in keine Kategorie. Sie wurden dann entweder in eine Kategorie “gepresst” oder entfielen ganz.

Kontrolle im Frontend und weitere Nachbearbeitung

Anschliessend wurde die Ontologie programmatisch umgesetzt und konnte von den ZEIT-ONLINE-Mitarbeitern in einer Entwicklungsumgebung benutzt werden. Damit begann die Feinabstimmung, der aufwendigste Teil des manuellen Prozess, denn erst in der Darstellung im Frontend fielen die Schwächen der bisher erstellten Ontologie deutlich auf.

Manche Kategorien waren zu breit. Sie enthielten zu viele Begriffe, um sinnvoll genutzt werden zu können.

Für manche Begriffe ändert sich zudem die Bedeutung im Kontext der Kategorie. Ein Elektrotechniker interessiert sich bei “Medien” eher für deren technische Ausgestaltung während in den Geisteswissenschaften die kulturellen Ausformungen im Vordergrund stehen. Für diese Begriffe mussten in den Abbildungsregeln zusätzliche Constraints eingebaut werden, je nachdem aus welchem thematischen Kontext die Suche stammte.

Diese Verfeinerung – oder auch “Kuratierung” – der Ontologie machte am meisten manuelle Arbeit. Sie muss von Personen mit gutem Allgemeinwissen und einem Gespür für die Verständnishorizonte der Zielgruppen durchgeführt werden. Entscheidungen müssen getroffen werden und die Ontologie verliert einen absoluten Anspruch. Sie ist keine vollständige, exakte Abbildung der vorliegenden Daten mehr, sondern sie wird zu einem Hilfsmittel, das in vielen Fällen den Zugang erleichtern kann, in manchen Fällen aber nicht weiter hilft. Dieser Schritt – von der rein mechanischen Abbildung zum kuratierten Themenraum – erzeugte den entscheidenden Mehrwert, was die Benutzbarkeit angeht.

Fazit

Der Einsatz von Text-Mining-Technologie, gepaart mit manueller Nachbearbeitung, ermöglicht die Erstellung von Web-Ontologien. Dadurch lassen sich implizit in den Daten enthaltene Information externalisieren und als Navigations-Angebot auf der Site nutzen. Der Prozess kann initial automatisiert durchgeführt werden. Durch manuelle semantische Nachbearbeitung kann so die Qualität der Ontologie deutlich gesteigert werden.

– – – – – – – – – – –
07.07.2014
Christoph Fröhlich