Essays on text mining : methodological advances and practical applications to scientific texts

Rüdiger, Matthias Sebastian; Salge, Torsten-Oliver (Thesis advisor); Wentzel, Daniel (Thesis advisor)

Aachen (2020)
Doktorarbeit

Dissertation, Rheinisch-Westfälische Technische Hochschule Aachen, 2020

Kurzfassung

Die Bausteine des Wissenschaftssystems sind die wissenschaftlichen Publikationen. Sie dienen dazu, der Welt neue Erkenntnisse zu präsentieren und vorhandenes Wissen niederzureißen. Mit der zunehmenden Anzahl wissenschaftlicher Publikationen und der fortschreitenden Zersplitterung der Wissenschaft in immer spezialisiertere Bereiche nimmt jedoch auch die Komplexität zu, all diese Informationen auch überblicken zu können. Um die Produktivität der Wissenschaft insgesamt aufrechterhalten zu können, ist es deswegen notwendig, wissenschaftliche Erkenntnisse regelmäßig zu konsolidieren, d.h. zu ordnen, die Bedeutung der verschiedenen Beiträge abzuwägen und die Informationen zu einem kohärenten Wissensstand zu integrieren. Damit wird der aktuelle Stand der Forschung in anderen Wissenschaftlern so zugänglich gemacht, dass sie mit neuen Entwicklungen und Entdeckungen Schritt halten können. Zwei Ansätze haben sich für diesen Zweck als besonders nützlich erwiesen: Review-Artikel und die Zitatanalyse. Beide Ansätze haben jedoch mit der zunehmenden Zahl wissenschaftlicher Publikationen zu kämpfen, allerdings auf sehr unterschiedliche Weise. Während Autoren von Review-Artikeln der schieren Menge an Inhalten kaum Herr werden, hat die Zitationsanalyse noch gar nicht damit angefangen, den Inhalt überhaupt zu berücksichtigen. Die aktuellen Fortschritte im Bereich des maschinellen Lernens und des Text Mining eröffnen mehrere Möglichkeiten, diesen Herausforderungen zu begegnen. Vor diesem Hintergrund führe ich in meiner Dissertation zwei Forschungsprojekte durch. Das erste Projekt ist der Erforschung der Möglichkeiten und Grenzen von Text Mining gewidmet. Forschungsaufrufe zur Weiterentwicklung der Methode Text Mining sowie zur Erforschung ihrer Zuverlässigkeit und Validität folgend ist es mein Ziel, alle kritischen Schritte im Prozess in der Anwendung von Text Mining unter die Lupe zu nehmen. Diese Schritte umfassen die Umwandlung von Text in Zahlen, die Auswahl eines geeigneten Algorithmus und die Auswertung der Ergebnisse. Die Ergebnisse des ersten Projekts dienen damit unter anderem als Anleitungen für die Durchführung computergestützter Literatur-Reviews. Darüber hinaus treffe ich Aussagen zur Validität und Reliabilität von Text-Mining-Methoden. Die Ergebnisse des ersten Projekts bilden die Grundlage für das zweite Projekt meiner Dissertation: die Entwicklung und Anwendung zweier analytischer Instrumente, die Zitationsanalyse mit Text Mining kombinieren. Beide Instrumente führen die bis dato fehlende inhaltliche Dimension in die Zitationsanalyse ein, eines aus einer Mikro- und eines aus einer Makroperspektive. Die Mikro-Perspektive konzentriert sich auf die kontextuellen Aspekte einzelner Referenzen im Text und die Beziehung zwischen zitierten und zitierenden Artikeln. Auf diese Weise kann der thematische Beitrag akademischer Forschung und ihre tatsächliche Rezeption und Nutzung durch die akademische Gemeinschaft identifiziert werden. In der Makroperspektive hingegen wird die Wissenschaft als Ganzes betrachtet, und Wissensströme innerhalb und zwischen den Disziplinen auf thematischer Ebene betrachtet. Beide Instrumente zeichnen sich durch vollständige Automatisierbarkeit aus und werden jeweils im Rahmen einer umfassenden Fallstudie vorgestellt, um ihre analytischen Fähigkeiten zu veranschaulichen. In den Fallstudien wird die sich noch entwickelnde Disziplin Informations Systems (IS) näher beleuchtet. Die vorliegende Arbeit umfasst vier Aufsätze, je zwei in jedem der zwei Forschungsprojekte. Das erste Projekt evaluiert die Anwendung von Text-Mining-Verfahren. Aufsatz 1 vergleicht die Leistung von Text-Mining-Algorithmen und untersucht insbesondere die Validität und Reliabilität der Metriken zur Ergebnisbewertung. Artikel 2 befasst sich mit der Textvorverarbeitung und Textvektorisierung, zwei Schritte, die für die Anwendung von Text-Mining-Algorithmen erforderlich sind. Die Ergebnisse der beiden ersten Aufsätze basieren auf umfassenden Experimenten auf Grundlage automatisch generierter Testdaten aus der Wikipedia. Das zweite Forschungsprojekt baut auf den technischen Erkenntnissen des ersten Projekts auf und stellt die Entwicklung von zwei Instrumenten vor, die beide die Zitationsanalyse um eine inhaltliche Dimension erweitern. Artikel 3 nimmt eine Mikro-Perspektive ein und untersucht die inhaltlichen Beziehungen von durch Zitate miteinander verbundene Publikationen im Bereich Informations Systems. Insbesondere wird der wissenschaftliche Impact von Publikationen im Diskurs um das Technology Acceptance Model bewertet. Artikel 4 untersucht den Wissensfluss von und zu der Disziplin Informations Systems und diskutiert ihre Positionierung in der Landschaft der Wissenschaftsfelder. Die Ergebnisse dieser Arbeit tragen zum Verständnis dazu bei, wie Text-Mining-Methoden sowohl die textanalytische Arbeit erleichtern als auch bibliometrische Forschungsmethoden ergänzen und wie diese Erkenntnisse in die Praxis umgesetzt werden können. Die vier Aufsätze fördern (a) das Wissen über Text Mining als Forschungsmethode, (b) bereichern das Instrumentarium der Bibliometrie und (c) erweitern das Wissen über die Disziplin Information Systems durch die Anwendung der neuen bibliometrischen Instrumente. Die Instrumente dienen dazu, die Introspektion der Wissenschaft zu verbessern und am Beispiel der Disziplin Information Systems zu veranschaulichen, wie dies vollautomatisch auf zwei verschiedenen Analyseebenen erreicht werden kann. Auf diese Weise erweitere ich das Wissen und die Untersuchungsmethoden rund um Wissensproduktion, -verbreitung und -absorption.

Einrichtungen

  • Lehrstuhl für Innovation, Strategie und Organisation [816410]

Identifikationsnummern