Wissenssuche im Schnellvorlauf: Forscherteam entwickelt mit DECENT ein Modell zur schnellen Information
In einem gemeinsamen Forschungsprojekt der ZBW – Leibniz-Informationszentrum Wirtschaft und des Hasso-Plattner-Instituts (HPI) haben Forscher ein Computermodell namens „DECENT“ entwickelt, das Texte nach wichtigen Informationen durchsuchen kann. Dazu werden Erwähnungen von Entitäten in Texten erkannt und klassifiziert. Mit diesem Modell können potenziell bessere Suchmaschinen und Wissensdatenbanken erstellt werden, indem nützliche Informationen aus großen Textmengen extrahiert werden.
In einer Welt, in der Menschen täglich mit einem unüberschaubaren Meer an Texten konfrontiert sind, stehen wir vor einem riesigen Problem: Wie können wir schnell und präzise die relevanten Informationen finden, die wir suchen? Dieses Problem beschäftigt auch die Forschungsgruppe „Information Profiling and Retrieval“ von der ZBW – Leibniz-Informationszentrum Wirtschaft unter Leitung des Informatikers Prof. Dr. Ralf Krestel.
In dem nun veröffentlichten Beitrag stellen Wissenschaftler der ZBW – Leibniz-Informationszentrum Wirtschaft und des Hasso-Plattner-Instituts (HPI) ihr DECENT-Modell vor. Dieses Modell identifiziert Erwähnungen von Entitäten in Texten, wie beispielsweise Personen, Orten oder Organisationen, und klassifiziert diese Entitäten in sehr feingranulare Klassen. Im Vergleich zu herkömmlichen Methoden, welche nur sehr grob zwischen Personen, Organisationen und Orten unterscheiden, können neuere Methoden viel feingranularer klassifizieren.
Damit erkennt das Modell beispielsweise nicht nur, dass Olaf Scholz eine Person ist, sondern auch, dass er ein Politiker ist – und nicht Sportler, Künstler oder Wissenschaftler. Diese feingranularen Modelle gehen teilweise noch weiter und unterscheiden beispielsweise in der Kategorie „Sportler:innen“ zwischen Tennisspielern, Basketballerinnen oder Leichtathlet:innen. Dadurch kann in einer Suchmaschine zum Beispiel konkret nach bestimmten Personengruppen gesucht werden.
Im Vergleich zu herkömmlichen Methoden bietet die ultrafeine Klassifizierung eine weit größere Vielfalt an potenziellen Klassen, die in die Zehntausende gehen können. Dies steigert natürlich den Aufwand für die Erkennung und Klassifizierung erheblich. An dieser Stelle setzt DECENT an: Das Modell verwendet maschinelles Lernen und lernt aus Daten, bei denen zuvor die vorkommenden Entitäten von Menschen manuell gekennzeichnet wurden. Dank einer geschickten Verarbeitung dieser Daten ist es deutlich effizienter als bestehende Modelle.
„Im Vergleich zu bisherigen Ansätzen ist DECENT unter gleichen Bedingungen bis zu 130-mal schneller beim Trainieren des Modells und Erkennen, ohne Einbußen bei der Klassifikationsgenauigkeit zu verzeichnen“, erklärt der leitende Wissenschaftler Prof. Dr. Ralf Krestel. „DECENT kann das Training durch eine clevere Kodierung der Eingabe und der Entitätsklassen beschleunigen und die Verallgemeinerung auf bisher ungesehene Klassen verbessern. Darüber hinaus eröffnet es die Möglichkeit, Entitätsklassen in spezialisierten Domänen und mit verschiedenen Definitionen zu behandeln, was in der Zukunft die Qualität von Ergebnissen in verschiedenen Anwendungsgebieten weiter verbessern könnte.“
Weitere Informationen
Das vollständige Forschungspapier „Efficient Ultrafine Typing of Named Entities“ von Alejandro Sierra-Múnera (HPI), Jan Westphal (HPI) und Ralf Krestel (ZBW) finden Sie unter folgender URL: DOI: 10.1109/JCDL57899.2023.00038. Es wurde auf der renommierten internationalen Joint Conference on Digital Libraries (JCDL) vorgestellt, die unter dem Motto stand: „Exploring new perspectives, challenges, and opportunities for libraries, archives, museums, and galleries“. Die JCDL beschäftigt sich mit verschiedenen Aspekten digitaler Bibliotheken, von der Infrastruktur bis zur digitalen Erhaltung.
Über die ZBW:
Die ZBW – Leibniz-Informationszentrum Wirtschaft (ZBW) ist die weltweit größte Informationsinfrastruktur für die Wirtschaftswissenschaften. Die Einrichtung beherbergt rund 4 Millionen Medieneinheiten und ermöglicht den Zugang zu Millionen wirtschaftswissenschaftlicher Online-Dokumente. Allein 2022 wurden mehr als 14 Millionen digitale Volltexte heruntergeladen. Daneben stellt die ZBW eine rasant wachsende Sammlung von Open-Access-Dokumenten zur Verfügung. EconStor, der digitale Publikationsserver, verfügt aktuell über 255.000 frei zugängliche Aufsätze und Working Papers. Mit EconBiz, dem Fachportal für wirtschaftswissenschaftliche Fachinformationen, können Studierende oder Forschende in über 11 Millionen Datensätzen recherchieren. Zudem gibt die ZBW die beiden wirtschaftspolitischen Zeitschriften Wirtschaftsdienst und Intereconomics im Gold Open Access heraus. Die ZBW ist eine forschungsbasierte wissenschaftliche Informationsinfrastruktur. Mit Professuren in der Informatik, Wirtschaftswissenschaft und Informationswissenschaft und deren international besetzter Doktorandengruppe beschäftigt sich die ZBW transdisziplinär mit dem Thema Open Science. Die ZBW ist in ihrer Forschung international vernetzt. Hauptsächliche Kooperationspartner kommen aus DFG- bzw. BMBF-Projekten sowie aus dem Leibniz-Strategieforum Open Science. Die ZBW ist Teil der Leibniz-Gemeinschaft und Stiftung des öffentlichen Rechts. URL: www.zbw.eu
Medienkontakt:
DR. DOREEN SIEGFRIED
Pressesprecherin
ZBW – Leibniz-Informationszentrum Wirtschaft
Düsternbrooker Weg 120, 24105 Kiel
T: +49 [0] 431. 88 14-455
M: +49 [0] 0172. 251 48 91
E: d.siegfried@zbw-online.eu
www.zbw.eu
Wissenschaftlicher Ansprechpartner:
Prof. Dr. Ralf Krestel
https://www.zbw.eu/de/ralf-krestel
Originalpublikation:
Das vollständige Forschungspapier „Efficient Ultrafine Typing of Named Entities“ von Alejandro Sierra-Múnera (HPI), Jan Westphal (HPI) und Ralf Krestel (ZBW) finden Sie unter folgender URL: DOI: 10.1109/JCDL57899.2023.00038.