NBER-Studie bestätigt starke Performance des PaECTER-Modells zur Patentanalyse
PaECTER ist ein semantisches Ähnlichkeitsmodell des Max-Planck-Instituts für Innovation und Wettbewerb, das Deep Learning nutzt. Ziel ist, Patente und Publikationen zu identifizieren, die sich textlich ähneln. Die Suche nach semantischer Ähnlichkeit ist sowohl für Erfinder*innen als auch in der Patentprüfung von großer Bedeutung. Die meisten existierenden Tools sind nicht skalierbar, verwenden veraltete Methoden oder sind auf einzelne Domänen begrenzt. Oft sind sie nicht Open Source. PaECTER übertrifft alle offen verfügbaren Modelle im Patentbereich und schneidet auch im wissenschaftlichen Bereich gut ab. Das hat nun eine neue Studie des National Bureau of Economic Research bestätigt.
Eine kürzlich vom National Bureau of Economic Research (NBER) veröffentlichte Studie bestätigt die starke Leistung von PaECTER, einem Patentanalysemodell, das von einem Forschungsteam am Max-Planck-Institut für Innovation und Wettbewerb entwickelt wurde. Das Modell lag in einem Vergleich mit anderen Modellen bei Aufgaben, die für die Patentprüfung und Innovationsforschung von wesentlicher Bedeutung sind, an der Spitze.
PaECTER (Patent-Level Representation Learning Using Citation-Informed Transformers) wurde von Mainak Ghosh, Sebastian Erhardt, Michael E. Rose, Erik Buunk und Dietmar Harhoff entwickelt und nutzt fortschrittliche transformer-gestützte Techniken maschinellen Lernens, die mit Patentzitationsdaten trainiert wurden. Das Modell wurde speziell entwickelt, um die komplexen Herausforderungen der Analyse von Patenttexten zu meistern, und bietet erhebliche Verbesserungen bei der Identifizierung und Kategorisierung ähnlicher Patente, was es sowohl für die Patentprüfung als auch Innovationsforschung besonders wertvoll macht.
Das neue NBER-Arbeitspapier „Patent Text and Long-Run Innovation Dynamics: The Critical Role of Model Selection“ vergleicht PaECTER eingehend mit anderen Sprachverarbeitungsmodellen (NLP-Modellen). Die Autor*innen Ina Ganguli (University of Massachusetts Amherst), Jeffrey Lin (Federal Reserve Bank of Philadelphia), Vitaly Meursault (Federal Reserve Bank of Philadelphia) und Nicholas Reynolds (University of Essex) wogen die Leistungen der Modelle bei Patentinterferenz-Aufgaben ab, wo mehrere Erfinder Patentansprüche für ähnliche Erfindungen erheben.
Die Studie kam zu dem Schluss, dass PaECTER im Vergleich zu herkömmlichen Modellen wie TF-IDF (Term Frequency – Inverse Document Frequency: ein Maß zur Bewertung der Relevanz eines Wortes in einem Dokument innerhalb einer Sammlung von Dokumenten) die Zahl falsch-positiver Ergebnisse erheblich reduziert und die Effizienz steigert. Die Studie zeigte auch die Fähigkeiten von PaECTER im Vergleich zu anderen modernen Modellen wie GTE und S-BERT (Generalized Text Embedding und Sentence-BERT als Methoden zur Repräsentation von Texten in Form von numerischen Vektoren, die semantische Informationen über Wörter oder ganze Sätze erfassen). Während PaECTER bei expertengesteuerten Aufgaben wie der Identifizierung von Interferenzen außerordentlich gut abschnitt, behauptete es sich auch bei allgemeineren Aufgaben der Patentklassifizierung, was seine vielseitige Einsetzbarkeit weiter unterstreicht.
„Wir freuen uns, dass die Leistung von PaECTER durch die NBER-Studie validiert wurde, die seine Stärken bei der Patentähnlichkeitsanalyse aufzeigt und seine Rolle als zuverlässiges Werkzeug für alle, die im Bereich Innovation und geistiges Eigentum arbeiten, bestätigt“, sagt Mainak Ghosh, einer der Entwickler von PaECTER. „Diese unabhängige Validierung bestärkt seine Relevanz im Bereich der Patentprüfung.“
Das PaECTER-Modell ist auf der Plattform Hugging Face verfügbar und damit für Forschende, politische Entscheidungsträger*innen und Patentfachleute weltweit zugänglich. Seine robuste Performance, wie in der NBER-Studie nachgewiesen, unterstreicht seinen Wert im Hinblick auf eine verbesserte Verarbeitung von Patentdaten und trägt zu einer genaueren und effizienteren Analyse von Patentinnovationen über die Zeit bei.
ÜBER DAS MAX-PLANCK-INSTITUT FÜR INNOVATION UND WETTBEWERB
Das Max-Planck-Institut für Innovation und Wettbewerb betreibt juristische und ökonomische Grundlagenforschung zu Innovations- und Wettbewerbsprozessen und ihrer Regulierung. Im Mittelpunkt der Forschung stehen Anreize und Determinanten für Innovation sowie deren Implikationen. Mit einem herausragenden internationalen Forschungsteam und einer exzellenten wissenschaftlichen und administrativen Infrastruktur, einschließlich der renommierten Bibliothek, ist das Institut Anlaufstelle für Akademikerinnen und Akademiker aus aller Welt und fördert aktiv den wissenschaftlichen Nachwuchs. Es informiert und berät im juristischen und ökonomischen Diskurs auf unparteiischer Grundlage. Als unabhängige Forschungseinrichtung stellt das Institut evidenzbasierte Forschungsergebnisse für Wissenschaft, Politik, Wirtschaft und Öffentlichkeit zur Verfügung.
Zum Max-Planck-Institut für Innovation und Wettbewerb: https://www.ip.mpg.de/de/
Wissenschaftlicher Ansprechpartner:
Sebastian Erhardt, M.Sc.
Wissenschaftlicher Mitarbeiter
https://www.ip.mpg.de/de/personen/erhardt-sebastian.html
Originalpublikation:
Ghosh, Mainak; Erhardt, Sebastian; Rose, Michael; Buunk, Erik; Harhoff, Dietmar (2024). PaECTER: Patent-Level Representation Learning Using Citation-Informed Transformers, arXiv preprint 2402.19411. Verfügbar unter https://arxiv.org/abs/2402.19411
PaECTER auf Hugging Face: https://huggingface.co/mpi-inno-comp/paecter
Ganguli, Ina; Lin, Jeffery; Meursault, Vitaly; Reynolds, Nicholas F. (2024). Patent Text and Long-Run Innovation Dynamics: The Critical Role of Model Selection (No. w32934). National Bureau of Economic Research. Verfügbar unter https://www.nber.org/papers/w32934