Diplomarbeiten


(Fachbereiche): Betriebswirtschaft - Funktional Wirtschaftsinformatik E-Commerce

BESTELLEN

Titel Analyse und Entwicklung dynamischer Clusterverfahren für eine kundenorientierte Produktempfehlung
Untertitel
AutorIn David Reindler
Seiten 121 Seiten
Hochschule Technische Universität Carolo-Wilhelmina zu Braunschweig Deutschland
Art der Arbeit Diplomarbeit
Abgabe 2005
Note 1
Preis 98,00 EUR (inkl. MwSt.)
Bestellnummer 90009186
Sprache Deutsch
Medien Papier / CD
Inhaltsangabe
Problemstellung:

Seit Ende der neunziger Jahre unterliegt der E-Commerce Sektor einer wachsenden Dynamik. Immer mehr Menschen verfügen über einen Internetanschluss und nutzen diesen nicht nur für den Austausch von Informationen, sondern bestellen immer häufiger auch Produkte und nehmen Dienstleistungen über das Internet in Anspruch. Mittlerweile steht fest, dass sich das Internet als Distributionskanal eignet. Beim Kauf über das Internet gibt es keinen Ladenschluss, keine Standortprobleme oder lange Wartezeiten. All dies macht den Onlineeinkauf so bequem und letztlich auch immer attraktiver für die Kunden. Aufgrund dieser Entwicklung ist es nicht verwunderlich, dass auch die Umsätze, die über das Internet erwirtschaftet werden, weiter ansteigen und dadurch vermehrt neue Anbieter angezogen werden. Durch die steigende Zahl der Anbieter verschärft sich mittlerweile auch der Konkurrenzkampf im Internet.

Eine weitere erkennbare Entwicklung ist die steigende Produktvielfalt. Hierbei ist zu vermerken, dass einerseits die Anzahl der Produkte rasant zunimmt, während die Produkte andererseits immer ähnlicher und damit schwerer vergleichbar werden. Dies ist eine Entwicklung, die es speziell für weniger fachkundige Interessenten oftmals schwierig macht, die möglichen Alternativen zu überblicken. Die Fülle an verschiedenen aber doch ähnlichen und sogar austauschbaren Produkten macht es fast unmöglich, sich schnell für ein Produkt zu entscheiden.

Um dem Kunden diese "Qual der Wahl" zu ersparen, sind neue Methoden für eine Produktauswahl nötig. Auch ohne großes Fachwissen muss es möglich sein, die Produktvielfalt zu überschauen und für die eigenen Wünsche positiv zu nutzen.

Ziel dieser Arbeit ist es, Methoden zu entwickeln, die den Auswahlprozess für den Kunden deutlich vereinfachen. Ohne großes Fachwissen soll es jedem Interessenten möglich sein, sich schnell und einfach eine Liste der für ihn relevanten Produkte erstellen zu lassen.

Hierzu wird untersucht, ob mit Hilfe von Clustermethoden des Data Minings eine Entscheidungsunterstützung für den Bereich des E-Commerce entwickelt werden kann. Idee ist es, Produkte nach Ähnlichkeiten zu gruppieren und dem Nutzer so eine Hilfestellung bei der Auswahl der für ihn interessanten Produkte zu geben.

Im Mittelpunkt dieser Arbeit stehen die Analyse der existierenden Clusteralgorithmen sowie die Anpassung und Entwicklung eigener Verfahren zur Produktauswahl. Clusteralgorithmen bezeichnen Verfahren, die es ermöglichen, eine Menge von Objekten in unterschiedliche Cluster einzuteilen. Dabei sollen Objekte innerhalb desselben Clusters möglichst homogen sein, während Objekte aus unterschiedlichen Clustern möglichst heterogen sein sollen. Mit Hilfe solcher Algorithmen könnte es dem Nutzer ermöglicht werden, sich schrittweise durch die Menge von Produkten zu arbeiten. Bei jedem Schritt werden die Produkte in mehrere Cluster aufgeteilt und nach Ähnlichkeit gruppiert. Durch die Auswahl eines speziellen Clusters kann der Kunde die Produktgruppe nach und nach einschränken. Im Idealfall ergibt sich dadurch am Ende eine Auswahl aller Produkte, die die speziellen Anforderungen des Kunden erfüllen. Alle irrelevanten Produkte, die diesen Anforderungen nicht entsprechen, sind durch die Entscheidung für ein spezielles Cluster bereits weggefallen.

Auf dem Gebiet des Clusterings könnten hierzu bereits einige anwendbare Algorithmen existieren. In dieser Arbeit werden daher die Anforderungen an die Clusterverfahren anhand eines konkreten Beispielmarktes herausgearbeitet. Durch einen Vergleich der Anforderungen mit den Eigenschaften der Algorithmen könnte so ein geeignetes Verfahren ermittelt und implementiert werden.

Gang der Untersuchung:

Die Struktur der Arbeit gliedert sich in sieben Kapitel. Im Anschluss an die Einleitung wird in Kapitel zwei und drei auf die theoretischen Grundlagen des Data Minings eingegangen. Der Knowledge Discovery Prozess bildet den Einstieg in das Thema. In Kapitel zwei werden die Phasen dieses Prozesses kurz beschrieben und die für die Problemstellung relevanten Aspekte herausgearbeitet. Die entscheidende Phase ist dabei das Data Mining, der eigentliche Schritt der Informationsgewinnung. Im Abschnitt 2.2 werden die verschiedenen Aufgabengebiete des Data Minings kurz vorgestellt, der Fokus wird aber auf das Clustering gelegt, da diese Methoden eine mögliche Problemlösung darstellen. Das Kapitel drei soll einen umfassenden Einblick in diesen Forschungsbereich geben und die unterschiedlichen Verfahren gegeneinander abgrenzen.

Aufbauend auf diesen Grundlagen wird in Kapitel vier und fünf die Problemstellung näher beschrieben, und es wird ein erster Lösungsansatz vorgeschlagen. Zunächst werden die speziellen Probleme des dynamischen Clusterings dargestellt. Die Herausforderung beim dynamischen Clustering stellt die Interaktion mit dem Benutzer dar. Durch die aktive Beeinflussung des Clusterprozesses treten aber neue Probleme auf, die in Kapitel vier genauer dargestellt werden. Außerdem wird der aktuelle Stand der Forschung näher untersucht. Das Kapitel fünf soll die Grundlagen Clustering in einen engeren Zusammenhang mit der Problemstellung bringen. Hierbei werden die verschiedenen Aspekte miteinander verknüpft und die möglichen Einflussfaktoren näher beschrieben.

Abschließend soll das Kapitel sechs der Arbeit diese Lösungsansätze durch ein praktisches Beispiel evaluieren und die Auswirkungen der Einflussfaktoren detailliert untersuchen. Anschließend werden die Ergebnisse in Kapitel sieben zusammengefasst, es werden Potentiale identifiziert und eine Handlungsempfehlung für die Zukunft gegeben.

Des Weiteren befindet sich am Ende der Arbeit ein Glossar, dieses dient dazu, einzelne Begriffe der Arbeit näher zu erläutert. Begriffe, die im Glossar definiert wurden, sind in der Arbeitkursiv gedruckt. Der darauf folgende Anhang stellt detaillierte Testergebnisse zur Verfügung.

Inhaltsverzeichnis:

Inhaltsverzeichnis I
1. Einleitung 1
1.1 Problemstellung 1
1.2 Zielsetzung 1
1.3 Aufbau der Arbeit 2
2. Knowledge Discovery in Databases 4
2.1 Phasen des Knowledge Discovery in Databases 4
2.2 Normalisierung der Daten 8
2.3 Aufgaben des Data Minings 10
2.3.1 Explorative Datenanalyse 12
2.3.2 Deskriptive Datenanalyse 12
2.3.3 Predictive Modeling 13
2.3.4 Pattern Discovery 13
2.3.5 Retrieval by Content 14
3. Deskriptive Analyse im Data Mining: Clustering 15
3.1 Distanzberechnung beim Clustering 16
3.1.1 Distanzberechnung bei Intervallbasierten Variablen 18
3.1.2 Distanzberechnung bei Binären Variablen 20
3.1.3 Distanzberechnung bei Nominalen Variablen 21
3.1.4 Distanzberechnung bei Ordinalen Variablen 21
3.1.5 Distanzberechnung bei gemischt skalierten Daten 21
3.1.6 Distanzberechnung bei fehlenden Werten 23
3.1.7 Distanzberechnung bei speziellen Strukturen 24
3.1.8 Standardisierung der Distanzwerte 24
3.2 Clusterverfahren 25
3.2.1 Partitionierende Algorithmen 27
3.2.2 Hierarchische Algorithmen 34
3.2.3 Dichtebasierte Algorithmen 38
3.2.4 Gitterbasierte Algorithmen 42
3.2.5 Modellbasierte Algorithmen 44
4. Dynamisches Clustering 48
4.1 Anforderungen des Produktclustering 49
4.2 Aktueller Forschungsstand 50
5. Problemmodellierung 53
5.1 Lösungsansätze 55
5.2 Einflussfaktoren 58
5.2.1 Verfahren 58
5.2.2 Daten 59
5.2.3 Benutzer 59
5.3 Vergleichsmöglichkeiten 60
6. Testergebnisse 62
6.1 Ausgewählte Anwendungsfälle 63
6.1.1 Bildschirme 63
6.1.2 Festplatten 65
6.2 Einfluss des Verfahrens 66
6.2.1 Spezifische Parameter 67
6.2.2 Clusteranzahl 68
6.2.3 Distanzfunktion 70
6.2.4 Algorithmen 73
6.3 Einfluss der Daten 77
6.3.1 Fehlende Werte 77
6.3.2 Normalisierung der Daten 77
6.3.3 Spezialprodukte 80
6.4 Einfluss des Benutzers 81
6.4.1 Gewichtung 81
6.4.2 Vorabauswahl 85
6.5 Repräsentation der Cluster 87
6.6 Laufzeit der Verfahren 89
6.7 Zusammenfassung der Ergebnisse 90
7. Schlussbetrachtung 94
Anhang 97
Literaturverzeichnis 108
Abbildungsverzeichnis 113
Tabellenverzeichnis 114
Glossar 116
Eidesstattliche Erklärung 118

BESTELLEN