Impro

  BMBF Logo

Ein integrativer Ansatz aus Bibliometrie und Text Mining zur vollautomatischen Inhaltsanalyse von Zitationsumgebungen

Gefördert vom Bundesministerium für Bildung und Forschung

Vorhaben

Im Zentrum der Messung von Forschungsleistung stehen die Zitationen, sie bilden die Basis der Bibliometrie. In der Lehre von der Vermessung wissenschaftlicher Veröffentlichungen werden auf Grundlage der Verweise von Publikationen auf andere Beiträge, den Zitationen, Netzwerke gebildet, die dann auf verborgene Beziehungen hin untersucht werden können. In der Bibliometrie wird die Anzahl der erhaltenen Verweise gleichgesetzt mit der Relevanz einer Arbeit. Damit wird implizit auch angenommen, alle Zitate seien gleichwertig. Diese vereinfachende Annahme zeichnet jedoch nur ein oberflächliches Bild der wissenschaftlichen Landschaft, was seit der Nutzung bibliometrischer Daten auch immer wieder Teil kontroverser Diskussionen ist. Insbesondere wird die Beziehung einer Zitation zum Text, in dem sie auftritt, ignoriert. Dies ist insofern problematisch, als dass sich Zitationen hinsichtlich ihrer Beziehung zum zitierenden Text stark unterscheiden können. Während diese Art der Vereinfachung für viele Zwecke ausreichend ist, schließt sie doch gleichzeitig auch viele interessante Analysemöglichkeiten aus. Zu wissen für was man zitiert wurde ist zum Beispiel erheblich wertvoller, als nur zu wissen, wie oft man zitiert wurde.

Um sowohl die Zitationsanalyse insgesamt als auch die Quantifizierung von Leistungen und die Beurteilung von Impact im Speziellen aussagekräftiger zu machen, ist es daher notwendig, nicht nur die Zahl erhaltener Zitationen, sondern auch ihren jeweiligen Kontext auszuwerten. Eine Möglichkeit diese Frage zu adressieren ist der Einbezug von Informationen über die jeweilige Zeitschrift des zitierenden Werks wie etwa ihre fachliche Zuordnung. Eine andere Möglichkeit stellt das Heranziehen von syntaktischen Merkmalen des Textausschnitts dar, der den jeweiligen Verweis enthält. Darunter fällt z.B. die Analyse der Textposition einer Zitation oder die Unterscheidung zwischen direkten und indirekten Zitaten. Eine weitere Variante ist die Untersuchung der semantischen Merkmale des Textausschnitts. So können Zitationen z.B. dazu verwendet werden, Aussagen zu belegen, zu widerlegen oder zu erweitern. Zu diesen Ansätzen wurden in der Vergangenheit verschiedene Vorschläge zur Implementierung veröffentlicht. Sie erweitern damit das Wissen über die Beziehungen von zitiertem und zitierenden Werken. Sie sind jedoch nicht geeignet, den Beitrag einer zitierten Quelle aufzuzeigen, also den Nutzen, den das zitierte Dokument für die zitierende Arbeit tatsächlich darstellt. So werden aufwendige Studien manchmal nur für eine bestimmte methodische Verfeinerung zitiert und andere Arbeiten lediglich für Begriffsdefinitionen herangezogen. Mit den bestehenden Ansätzen bleiben diese Bezüge im Dunkeln. Auf den ersten Blick stellt die manuelle Kodierung von Zitaten mit qualitativen Techniken einen Lösungsweg dar. Dieses Vorgehen ist jedoch in seinem praktischen Wert stark begrenzt, da typischerweise eine große Anzahl von Zitaten und Zitationskontexten untersucht werden muss. Für diese Art der Analyse sind daher automatische, skalierbare Methoden erforderlich, die ohne manuellen Eingriff selbstständig die Themen aufdecken, für die eine Publikation zitiert wird und dadurch in der Lage ist, die Blackbox Impact zu öffnen.

Der hier präsentierte Forschungsansatz kombiniert Ideen aus der klassischen Bibliometrie mit Entwicklungen aus der Informatik und geht damit auf die genannte blinde Stelle bezüglich des thema­tischen Kontexts von Zitationen ein. Die Fortschritte der letzten Jahre im Bereich Big Data und Data Mining sowie die immer größer werdenden zur Verfügung stehenden Rechenkapazitäten erlauben es nun, mittels Verfahren der maschinellen Sprach­ver­arbeitung große, unstrukturierte Datenmengen automatisiert auszuwerten. Damit lassen sich auch die bis dato kaum in der Bibliometrie beachteten Publikationstexte selbst automatisiert auswerten. Vor dem Hintergrund, dass Zitationen einen direkten thematischen Bezug zur die Zitation enthaltenen Textstelle aufzuweisen haben – beispielsweise bei der Klärung von Begrifflichkeiten, der Rezeption verwendeter Theorien oder zur Fundierung von Aussagen – konzentriert sich der präsentierte Forschungsansatz auf die Textumgebungen von Zitationen, indem aus den unmittelbaren Textumgebungen von Zitationen auf den jeweiligen thematischen Bezug zum zitierten Werk geschlossen wird. Dieser Bezug stellt den Nutzen („Impact“) dar, den die zitierten Werke für das zitierende Werk ausmachen.

Ziel des Projekts ist es, mithilfe automatisierter Text Mining Verfahren zu verstehen, für was genau eine Publikation zitiert wurde. Dieses tiefergehende thematische Verständnis der Zitation als Basis der Bibliometrie eröffnet vielfältige neue Analysemöglichkeiten für die Hochschul- und Wissenschaftsforschung.

Forschungsansatz

Zur Messung von Impact und den thematischen Bezügen von Publikationstexten werden Techniken aus den Bereichen Computational Linguistics und Data Mining eingesetzt. Zunächst werden pro Zielpublikation alle Zitationen innerhalb der Volltexte einer Menge von Dokumenten identifiziert. Daraufhin werden die Textumgebungen der Zitationen, die auf die Zielpublikation verweist extrahiert. Die so bestimmten Zitationsumgebungen werden nach der Aufbereitung mit Verfahren aus dem Natural Language Processing mit der Text-Clustering-Technik Topic Modeling gruppiert. Die resultierenden Gruppen von Zitationsumgebungen repräsentieren dann die Themen, für die die Zielpubli­kation tatsächlich innerhalb anderer Werke verwendet wird. Aus den extrahierten Themen lässt sich ein Themenprofil erzeugen, welches den tatsächlichen Impact veranschaulicht, d.h. die tatsächliche Nutzung einer Zielpublikation innerhalb der wissenschaftlichen Gemeinschaft visualisiert. Aus einem solchen Impact-Profil ließe sich beispielsweise ablesen, welche Arten von Studien sich auf eine bestimmte konzeptionelle Arbeit als Basis stützen oder in welchen thematischen Kontexten eine Methode Anwendung findet. Die Erstellung der Themenprofile aus den Volltexten soll also vollautomatisch geschehen. Es ist zudem wichtig zu betonen, dass diese Themen nicht vordefiniert werden, sondern durch das Verfahren selbst „erlernt“ werden.

Das vorgeschlagene Projekt zielt somit auf die Entwicklung einer neuartigen Methode ab, den thematischen Kontext von Zitationen automatisch zu extrahieren und auszuwerten. Dieses Verfahren zur vollautomatischen Inhaltsanalyse von Zitations­umgebungen eignet sich vor allem für die tiefgehende thematische Analyse des Impacts im Sinne einer tatsächlichen Nutzung wissenschaftlicher Beiträge. Darüber hinaus kann die von uns vorgeschlagene Methode in einfacher Weise mit Metadaten wie Veröffentlichungs­zeitpunkten zitierender Werke kombiniert werden, um thematische Trends in der Nutzung von Wissen zu berechnen. Forscher können mit der vorgeschlagenen Methode also nicht nur Impact und die Absorption von Wissen themenbezogen quantifizieren, sondern auch bibliometrische Analysen anreichern, um etwa Muster in der Wissensdiffusion themen­spezifisch innerhalb und über wissenschaftliche Disziplinen hinweg aufzudecken.

Geplante Ergebnisse

Gemäß der grundlagenorientierten Ausrichtung des Forschungsprojekts zielt die Verwertung vor allem auf die öffentliche Verfügbarmachung der Ergebnisse in der Wissenschaft ab. Vor allem aber sollen die zentralen Ideen dem Fachpublikum in einer Art und Weise zugänglich gemacht werden, die eine Implementierung der neuen Methode gemäß den eigenen Anforderungen erlaubt. Um einen schnellen Transfer zu ermöglichen, soll das zu erstellende, computergestützte Verfahren der Open-Source-Philosophie folgend als dokumentierter Quellcode anderen Forschern zugänglich gemacht werden.

Das Projekt erweitert die aktuelle bibliometrische Forschung durch die Erschließung einer neuen Methode zur Messung des thematischen Beitrags wissenschaftlicher Veröffent­lichungen und damit auch zur themenbezogenen Quantifizierung und Analyse von Impact. Durch die Bereitstellung des Verfahrens wird eine Basis für neue Untersuchungs­möglichkeiten zur Offenlegung von Strukturen wissenschaftlicher Disziplinen und Wissens­transfer zur Verfügung gestellt. Das Projekt wird auf einschlägigen Fachkonferenzen vorgestellt werden, die Ergebnisse sollen in entsprechenden Journalen veröffentlicht werden. Die Verfügbarmachung des Verfahrens als Quellcode unter einer Open-Source-Lizenz soll vor allem die Weiterentwicklung über die Fördermaßnahme hinaus sichern und es anderen Forschern erlauben, das Verfahren in verschiedenen Disziplinen und zu unterschiedlichsten Analysezwecken zu testen.

Unternehmen und öffentlichen Institutionen bietet die neue Methodik ein neues Instrument zur Einschätzung der Relevanz wissenschaftlicher Publikationen und damit verbunden auch der Individuen und Institutionen, die die Erkenntnisse erzeugt haben. Es ist daher besonders für die öffentliche Forschungsevaluation und -steuerung sowie forschungsnahe Industrien und F&E-Einrichtungen interessant und ermöglicht einen neuartigen Ansatz der Expertensuche: Welcher Forscher oder welches Institut von welcher Forschungseinrichtung wird in der Wissenschaftsgemeinschaft für Thema X wahrgenommen? Welcher Forscher oder welches Institut eignet sich für die die Begutachtung von Veröffentlichungen zu Thema Y? Diesen Fragen ließen sich über eine „Rückwärtssuche“ über eine Menge von erstellen Impact-Profilen beantworten. Weiterhin ermöglicht das Verfahren öffentlichen Institutionen das Verfahren die Bewertung der Expertise von Forschungseinrichtungen und kann auch zur Bestimmung von Veränderungen des Impact-Profils zur Evaluation von Fördermaßnahmen genutzt werden.