Tag Archives: Text Mining

Consim: Ähnliche Texte finden

Consim ist ein Matching-System für Text. Mit Consim lassen sich Texte identifizieren, die ähnliche Themen behandeln. Consim erkennt die Ähnlichkeit von Texten mit Hilfe von Machine Learning und Natural Language Processing rein auf inhaltlicher Basis. Es werden keine Besucher-Daten oder weitere Meta-Informationen benötigt.

Beispielsweise kann Consim in den Angeboten eines Nachrichten-Verbundes Texte zu ähnlichen Themen finden. Sogar dann, wenn Sie auf verschiedenen Portalen gehostet werden. Oder Consim kann mit den Gesetzestexten eines Rechtsgebietes trainiert werden und findet dann Gerichtsurteile, in denen die jeweiligen Themen behandelt werden.

Ähnlichkeit basiert auf dem Inhalt

Um Consim einzusetzen reicht es, Zugriff auf die Inhalte zu haben. Metadaten wie Kategorisierung, Quelle oder ähnliches können als zusätzliche Hilfestellung mit in den Matching-Prozess einfliessen, sind aber nicht nötig.

Das System basiert auch nicht auf der Auswertung von User-Daten. Es ermittelt also nicht – anders als der klassische Amazon-Recommender – dass ein User, der Produkt A mochte,  auch Produkt B angeschaut hat. Vielmehr identifiziert Consim Wortgruppen, die eine thematische Einordnung des Textcontents erlauben.

Dadurch, dass Consim nur den Inhalt in Betracht zieht, funktioniert das System auch direkt für neu eingestellte Texte – es gibt kein Cold-Start-Problem – und auch in Bereichen, in denen nur wenige oder gar keine User-Interaktionen statt finden.

Use-Cases

Consim kann beispielsweise für die folgenden Anwendungsfälle eingesetzt werden:

  • Online-Nachrichtenportale: Mehr und mehr Nachrichtenportale setzten auf einen Mix aus freien News und Premium-Inhalten, die hinter einer Bezahl-Schranke liegen. Mit Hilfe von Consim lassen sich thematische Verbindungen finden, die von den freien, hoch frequentierten Online-Angeboten auf die weniger oft aufgerufenen Bezahl-Inhalte führen. Klassische Recommender-Lösungen scheitern hier, weil die Bezahl-Inhalte zu wenig Reichweite haben, um von den statistischen Verfahren berücksichtigt zu werden.
  • In Matching – Szenarien, in denen individuelle, profil-basierte Vorschläge erstellt werden, läßt Consim sich ebenfalls einsetzen. Voraussetzung ist, dass die Informationen, die zur Identifikation von Interessen und zur Herausarbeitung eines Profils verwendet werden, in Textform vorliegen. Dazu können sowohl vom User generierte als auch von ihm konsumierte Inhalte verwendet werden. Ein Anwendungsfall ist das Matching von Studieninteressen mit Studiengangs-Beschreibungen. Ein anderer ist die Suche in Stellenangeboten, wo die  bereits besuchten und als interessant bewerteten Angebote das Profil ergeben, zu dem sich ähnliche Angebote finden lassen.
  • In Expertensystemen oder Fallsammlungen für Spezialisten lassen sich mit Consim ähnliche Fälle finden.  Bestehende Filtersysteme – wie zum Beispiel Kategorie-basierte Einordnungen – lassen sich somit ergänzen  und Consim kann dem Benutzer den Zugang zu ähnlichen Fälle ebenen, die mit traditionelleren Ansätzen schwieriger zu finden wären. Beispiele für solche Anwendungen können juristische oder medizinische Fallsammlungen sein.

Funktionsweise

Das System extrahiert aus einer bestehenden Sammlung von Texte die Themengruppen, die in den Texten dieses Corpus behandelt werden.
Anschliessend werden die Texte eines zweiten Corpus analysiert, um zu ermitteln welche der erkannten Themen sie behandeln.
Je mehr übereinstimmende Themen zwei Texte behandeln, um so ähnlicher sind sie für das System.

Der Weg über zwei unterschiedliche Corpora eröffnet interessante Anwendungsfälle. So kann Consim beispielsweise mit Gesetzestexten trainiert werden, um anschließend ein Matching von Urteilen durchzuführen.

Technologie

Consim kombiniert Methoden der statistischen Textanalyse und des Deep Learning. Zu den verwendeten Machine Learning und NLP Methoden gehören insbesondere Topic Extraction und Algorithmen aus dem Text-Mining. Damit reiht sich Consim in eine Reihe von Anwendungen ein, die bei Folge 3 entwickelt wurden und Technologien aus der KI und dem Machine Learning in konkreten Szenarien nutzbar machen. Ein weiterer solcher Anwendungsfall ist unsere Vorhersage von Online Reichweiten mit Hilfe eines Neuronalen Netzes.

Wenn Sie Interesse an Consim oder ganz allgemein an unseren KI-basierten Anwendungslösungen haben, melden Sie sich gerne unter data@folge3.de