Nonparametric estimation of customer segments with panel data

  • Nicht-parametrische Schätzung von Kundensegmenten mit Paneldaten

Jörg, Johannes Ferdinand; Wentzel, Daniel (Thesis advisor); Cleophas, Eva Catherine (Thesis advisor)

Aachen : RWTH Aachen University (2021)
Doktorarbeit

Dissertation, Rheinisch-Westfälische Technische Hochschule Aachen, 2021

Kurzfassung

Durch die zunehmende Verfügbarkeit von großen Datensätzen, die von Firmen gesammelt werden, gewinnt die Entwicklung automatisierter Verfahren zur Evaluation dieser Datensätze an Bedeutung. Diese Arbeit stellt einen Ansatz für den Umgang mit großen Datensätzen von Paneldaten, d.h. wiederholte Beobachtungen derselben Individuen über mehrere Zeitperioden hinweg, vor. Solche Datensätze werden oftmals im Bereich des Einzelhandels oder des Marketings gesammelt. Wir entwickeln und evaluieren eine nicht-parametrische Schätzmethodik, basierend auf sowohl künstlich generierten Daten als auch realer Datensätze. Das Ziel der Schätzung ist ein automatisierter Markt- oder Kundensegmentierungsalgorithmus, um Optimierungsprozesse und Entscheidungsfindungen zu unterstützen. Um dieses Ziel zu erreichen, ist der Algorithmus in zwei unabhängige Teile aufgeteilt: die Schätzung der Anzahl der Segmente und die Schätzung der Struktur der Segmente. Während beide Teile des Algorithmus getrennt voneinander verwendet werden können, wurden sie so gestaltet, dass sie zusammenarbeiten: Die Ausgabe des ersten Teils kann als Eingabe des zweiten Teils genutzt werden. Beide basieren auf Mischverteilungen, welche eine allgemeine Möglichkeit darstellen, Wahrscheinlichkeiten für Populationen mit Untergruppen zu modellieren. In einem weiteren Schritt benutzen wir die Schätzergebnisse, um die Kunden nachträglich zu ihrem jeweiligen geschätzten Segment zuzuweisen. Um die praktische Anwendbarkeit zu illustrieren, wird das Verfahren in einer Simulationskalibrierung eingesetzt, um einen genetischen Algorithmus zu initialisieren. Diese Arbeit besteht aus drei wissenschaftlichen Aufsätzen: die Schätzung der Anzahl der Segmente, die Schätzung der Struktur der Segmente und die praktische Anwendung im Bereich des Revenue Managements. Jeder Aufsatz enthält eine Simulationsstudie, in welcher die Leistung des jeweiligen Algorithmus dargestellt wird. Um vergleichbare und aussagekräftige Ergebnisse zu erhalten, wurden sowohl künstliche Datensätze generiert als auch reale Datensätze verwendet. Die folgenden Abschnitte geben einen kurzen Überblick über die drei Aufsätze. Die Schätzung der Anzahl der Segmente kann mit relativ kleinen Datensätzen durchgeführt werden, d.h. es werden Paneldaten über zwei Zeitperioden benötigt. Wir verwenden eine Rangschätzung der entsprechenden Beobachtungsmatrix, aus der sich eine untere Schranke für die Anzahl der Segmente ergibt. Anschließend zeigen wir, dass sich diese untere Schranke für künstlich generierte Datensätze als Schätzung für die wirkliche Anzahl der Segmente eignet. Die Ergebnisse werden mit unterschiedlichen Indizes für k-means Clusteringalgorithmen verglichen. Hierbei werden sowohl unzensierte als auch zensierte Daten verwendet. Während unzensiert bedeutet, dass die Daten die zugrundeliegenden Präferenzen gut reflektieren, können bei zensierten Daten die Präferenzen des Kunden durch äußere Faktoren beeinflusst worden sein und damit nicht das ursprüngliche Kundenwahlverhalten reflektieren. Wir evaluieren verschiedene Heuristiken, um fehlende Datenpunkte zu imputieren oder durch Verfügbarkeiten beeinflusste Daten wieder auf eine ursprüngliche Wahl zurückzuführen. Nach der Schätzung der Anzahl der Segmente schlagen wir einen Algorithmus vor, der die Struktur innerhalb dieser Segmente schätzt. Um dies zu erreichen, benötigt die Schätzung eine festgelegte Anzahl an Segmenten und Paneldaten mit Beobachtungen über drei Zeitperioden. Wir verbessern einen bereits bestehenden Ansatz zum Schätzen der Struktur, der Nachteile bei Szenarien mit diskreten Eigenschaften aufweist. Die Verbesserungen führen zu einem signifikanten Effekt auf die Schätzergebnisse. Wir diskutieren wiederum die Implikationen von unzensierten und zensierten Datensätzen auf die Leistung des Algorithmus und verbessern die Schätzergebnisse im Fall von zensierten Daten durch einen Umverteilungsansatz der resultierenden Wahrscheinlichkeiten. Wir vergleichen die Ergebnisse der vorgestellten Schätzung mit einem anderen nicht-parametrischen Ansatz und gehen dabei sowohl auf die Qualität der Schätzung als auch auf ihre Laufzeit ein. Nachdem die Schätzergebnisse vorliegen, wird abschließend die Zuweisung von Kunden zu ihren geschätzten Segmenten evaluiert. Um die praktische Anwendbarkeit der vorgestellten Schätzmethodik über den Einzelhandel oder das Marketing hinaus herauszuarbeiten, führen wir Simulationsstudien durch, in denen mit Hilfe der Schätzmethodik die Kalibrierung von Szenarien verbessert wird. Dafür benutzen wir einen Revenue-Management-Simulator für Fluggesellschaften, welcher Kundensegmente benutzt, um Interaktionen zwischen Kunden und dem Revenue-Management-System zu simulieren. Da das manuelle Kalibrieren solcher Szenarien zeitintensiv ist, ist ein automatisiertes Verfahren zum Kalibrieren anhand einer Zielfunktion hilfreich. Für die Simulationsstudie benutzen wir einen genetischen Algorithmus, um die Kalibrierungsergebnisse schrittweise zu verbessern. Normalerweise werden zufällige Initialisierungswerte für genetische Algorithmen verwendet. Allerdings zeigten sich signifikante Zeitersparnisse, wenn man dem Initialisieren die Schätzungen des vorgestellten Algorithmus zur Verfügung stellt.

Identifikationsnummern

Downloads