InnoMetrics
Entwicklung einer Innovationsmetrik zur Neuheitsmessung auf Basis echtzeitfähiger Text Mining Verfahren
Gefördert vom Bundesministerium für Bildung und Forschung
Vorhaben
Forschung und Entwicklung (F&E) sind für die Weiterentwicklung des Wissenschafts- und Wirtschaftsstandorts Deutschland von großer Wichtigkeit. Entsprechend bedeutsam ist eine gezielte Förderung der Innovationsfähigkeit deutscher Unternehmen. Im Rahmen des Projektes sollen bestehender Innovations- und F&E-Messverfahren weiterentwickelt etablierte Output-Indikatoren auf möglichst grundlegende Weise sinnvoll ergänzt werden. Output-Metriken sind insbesondere hinsichtlich der Feststellung der Wirksamkeit von Fördermaßnahmen unentbehrlich. Etablierte Output-Metriken wie z.B. der Umsatzanteil aus Neuprodukteinführungen greifen an dieser Stelle aufgrund von drei Kernproblemen zu kurz.
Sie stützen sich vielfach auf Kennzahlen, die vor allem den wirtschaftlichen Erfolg von Innovationen erfassen. Hier bleibt oft unklar, inwiefern ein etwaiger Markterfolg auf einen konkreten technischen Fortschritt gegenüber dem Status-Quo zurückzuführen ist oder sich etwa über Werbemaßnahmen oder Markttrends erklären lässt.
Etablierte Metriken messen bestenfalls indirekt den Neuheitsgrad einer spezifischen Innovation, also die Höhe des wissenschaftlich-technischen Fortschritts. Für eine valide Erfassung des Innovationsgrades (etwa von inkrementell bis radikal) muss daher in der Regel auf eher subjektive und kaum skalierbare qualitative Verfahren zurückgegriffen werden.
Etablierte Output-Indikatoren greifen zudem häufig erst nach erfolgter Markteinführung, was eine systematische Messung des Neuheitsgrads in früheren Phasen des Forschungs- und Entwicklungsprozesses erschwert. Zudem sind sie für neue Innovationstypen wie Geschäftsmodellinnovationen und soziale Innovationen weniger geeignet.
Es mangelt daher an geeigneten Indikatoren zur Messung von Neuheit entlang des gesamten Innovationsprozesses von Forschung über Entwicklung bis hin zur Einführung. So verwundert es nicht, dass die eigentliche Innovationshöhe Entscheidungsträgern in Forschungsförderung, Wissenschaft und Praxis oftmals verborgen bleibt. Dies erschwert u.a. eine valide Evaluation von (Förder-)Maßnahmen, die möglichst grundlegende Neuerungen von Produkten, Dienstleistungen, Prozessen und Geschäftsmodellen auch jenseits klassischer Anwendungsfelder hervorbringen sollen.
Damit besteht eine klare Notwendigkeit die bestehende Palette an Output-Indikatoren in der Innovationsforschung zu erweitern. Für die unternehmensinterne und ordnungspolitische Steuerung bedarf es feinerer Messinstrumente, die den Aspekt der Neuheit einer Innovation beleuchten und auch den Grad der Neuheit einer Innovation objektiv messbar machen. Um die Entwicklung radikaler Innovationen bestmöglich zu begleiten, sollte die Metrik Neuheit von Outputs in allen Prozessphasen von Forschung über Entwicklung bis hin zur eigentlichen Einführung erfassen können.
Forschungsansatz
Der präsentierte Forschungsansatz, der an der Schnittstelle von Innovationsforschung und Text Mining positioniert ist, adressiert die genannte Forschungslücke der direkten Messung von Neuheit explizit. Dazu sollen neue Datenquellen für die Messung der Innovationshöhe erschlossen werden, die dank erheblicher Fortschritte in der Datenanalytik nun erstmalig sinnvoll ausgewertet werden können.
Im Rahmen der zunehmenden Digitalisierung der Gesellschaft wächst die verfügbare Datenmenge rasant. Den größten Teil dieser Daten stellen sogenannte unstrukturierte Daten dar. Dabei handelt es sich primär um Textdaten. Im Kontext der Innovationsforschung und -messung gehören dazu entlang der gesamten Prozesskette von Forschungs- und Entwicklungsvorhaben vor allem Texte wie Forschungsberichte, Fachartikel, Patentbeschreibungen, Pressemitteilungen, Produktrezensionen oder Pflichtveröffentlichungen von Unternehmen. Solche Texte werden aktuell allenfalls punktuell und eher qualitativ denn quantitativ für die Innovationsmessung erschlossen. Daher besitzen diese unstrukturierten Daten ein hohes, bisher ungehobenes Potential für die Verbesserung der Innovationsmessung sowie der Evaluation von Fördermaßnahmen hinsichtlich der erzielten Innovationshöhe.
Die Fortschritte der letzten Jahre im Bereich im Bereich Big Data und Data Mining sowie die zunehmenden Rechenkapazitäten erlauben es nun, mittels Verfahren der maschinellen Sprachverarbeitung große, unstrukturierte Datenmengen automatisiert auszuwerten. Durch die vollständige Automatisierbarkeit sind die Verfahren nicht nur kostengünstig und skalierbar, sondern lassen sich potentiell auch in Echtzeit durchführen.
Das Projekt nun zielt darauf ab, die bisher unbeachtet gebliebenen unstrukturierten Informationen aus Texten wie bspw. Forschungsberichten, Patentbeschreibungen und Pressemitteilungen für die Messung der Neuheit einer Innovation nutzbar zu machen. Die Grundidee des Forschungsansatzes basiert auf der Annahme, dass sich Texte, die die Beschreibung von Neuerungen zum Inhalt haben, von bestehenden Texten umso stärker unterscheiden, je höher der Neuheitsgrad der beschriebenen Ideen ist. Grund für diese Annahme ist, dass die Beschreibung von radikal-neuen Innovationen entweder ein gänzlich neues Vokabular erfordert oder bereits gebräuchliche Begriffe neu kombiniert. Das Vorhaben möchte also Neuheit von Innovationen durch die damit einhergehende sprachliche Veränderung fassbar machen. Die grundlegende Idee des Vorhabens stützt sich dabei auf frühe Arbeiten aus der Wissenschaftstheorie von Ludwik Fleck (1979) und Thomas Kuhn (1970). Diese zeigen auf, dass wissenschaftlich-technischer Fortschritt Veränderungen im Sprachgebrauch erzeugt. Jedoch werden erst durch den technologischen Fortschritt der Analyse von Big Data diese Zusammenhänge großzahlig untersuch- und anwendbar.
Die technische Basis für das vorgeschlagene Forschungsvorhaben bildet das Text Clustering. Dies ist ein Verfahren zur automatisierten Gruppierung großer Textmengen aus dem Bereich Data Mining bzw. dem Text Mining. Hierbei wird ein Textkorpus, d.h. eine Menge von Dokumenten, anhand der enthaltenen Wörter in Gruppen ähnlicher Dokumente eingeteilt. In dem zurzeit in der Wissenschaft viel Aufmerksamkeit geschenkten statistischen Verfahren, dem Topic Modeling, geschieht dies anhand der gemeinsamen Auftretenswahrscheinlichkeit von Wörtern. Das Topic Modeling wurde 2003 entwickelt und bis heute einigen Verbesserungen unterzogen und validiert. Es wird seit einiger Zeit auch in der sozialwissenschaftlichen Forschung erfolgreich zur Gruppierung großer Textmengen verwendet – zum Beispiel zur Analyse wissenschaftlicher Literatur. Das Verfahren wurden ebenfalls eingesetzt, um zu untersuchen, ob und wie Wissen in Patenten rekombiniert wird. Zur Messung des Innovationsgrades wurde das Verfahren bislang jedoch noch nicht eingesetzt. Einen entsprechenden Ansatz möchte das vorliegende Vorhaben wie folgt entwickeln.
Im Kern werden Dokumente wie Forschungsberichte bis zu einem definierten Zeitpunkt mithilfe der genannten Clustering-Algorithmen zunächst thematisch gruppiert. Dokumente die nach dem definierten Zeitpunkt erscheinen, können dann dahingehend geprüft werden, inwiefern sie in bestehende Gruppierungen eingeordnet werden können. Maßgeblich hierfür ist der „sprachliche“ Abstand jüngerer Dokumente zu bereits bestehenden Dokumenten. Grundlage für die Abstandsberechnung sind die errechneten Clusterzugehörigkeiten der Dokumente im Sinne von Wahrscheinlichkeiten.
Die berechneten Abstände bilden die Grundlage für die vorgeschlagene neue Metrik und erlauben die Errechnung eines Neuheitsgrads und auch damit die Positionierung einer Innovation auf dem Spektrum von inkrementell bis radikal. Dokumente mit einem großen linguistischen Abstand vom bestehenden Textkorpus, also dem bestehenden Stand der Forschung, sind Kandidaten für besonders neuartige Innovationen. Zusammengefasst macht sich dieses Vorgehen zunutze, dass sich Neues nur schlecht in bestehenden sprachlichen Kategorien fassen lässt.
Dieses Verfahren lässt sich auf Basis jeglicher Art von Texten durchführen, die entlang des gesamten Forschungs- und Entwicklungsprozesses generiert werden. So lässt sich Innovationshöhe in verschiedenen Prozessphasen systematisch und potentiell in Echtzeit erfassen, je nachdem ob Antragsskizzen (Forschungsförderung), wissenschaftliche Publikationen (wissenschaftliche Forschung), Patente (Entwicklung), oder Texte im Zusammenhang mit der Markteinführung wie z.B. Produktankündigungen, Pressemitteilungen und Produktrezensionen (Innovations-Diffusion) als Textbasis herangezogen werden. Die neue Methode leistet damit auch einen Beitrag dazu, innovative Entwicklungen mit einer geringeren Zeitverzögerung systematisch zu erfassen (Frühindikatoren).
Geplante Ergebnisse
Gemäß der grundlagenorientierten Ausrichtung des Forschungsprojekts zielt die Verwertung vor allem auf die öffentliche Verfügbarmachung der Ergebnisse ab. Dabei soll die zentrale Idee des erarbeiteten Verfahrens zur Neuheitsmessung dem Fachpublikum aus Wirtschaft und Gesellschaft in einer Art und Weise zugänglich gemacht werden, die eine Implementierung der neuen Methode gemäß der eigenen Anforderungen erlaubt. Der Prototyp des Verfahrens soll demnach der Open Source Philosophie folgend als dokumentiertes Programm im Sinne einer Blaupause veröffentlicht werden.
Das Projekt erweitert die aktuelle sozialwissenschaftliche Forschung im Bereich der Innovationsindikatorik zum einen durch die Erschließung neuer Datenquellen und zum anderen durch einen neuen Ansatz zur Messung von Neuheit, der universell für unterschiedliche Innovationsarten verwendet werden kann. Durch die Bereitstellung eines neuen Output-Indikators wird eine neue Basis für die Untersuchung der Determinanten der Innovationshöhe zur Verfügung gestellt. Die Verfügbarmachung des Algorithmus als Programm unter einer Open-Source-Lizenz soll vor allem die Weiterentwicklung des Verfahrens über die Fördermaßnahme hinaus sichern und es anderen Forschern erlauben, das Verfahren auf unterschiedlichsten Datenquellen zu testen.
Unternehmen und öffentlichen Institutionen bietet die neue Methodik ein wirkungsvolles Instrument zur Steuerung und Evaluierung ihrer Innovationsaktivitäten. Sie kann sowohl zur Einschätzung eines gesamten Forschungsprogramms, des Stands der Forschung zu einer Technologie, in einer Branche oder auch eines einzelnen Unternehmens genutzt werden.