Problemstellung:
Seit Ende der neunziger Jahre unterliegt der E-Commerce Sektor einer wachsenden Dynamik. Immer mehr Menschen verfügen über einen Internetanschluss und nutzen diesen nicht nur für den Austausch von Informationen, sondern bestellen immer häufiger auch Produkte und nehmen Dienstleistungen über das Internet in Anspruch. Mittlerweile steht fest, dass sich das Internet als Distributionskanal eignet. Beim Kauf über das Internet gibt es keinen Ladenschluss, keine Standortprobleme oder lange Wartezeiten. All dies macht den Onlineeinkauf so bequem und letztlich auch immer attraktiver für die Kunden. Aufgrund dieser Entwicklung ist es nicht verwunderlich, dass auch die Umsätze, die über das Internet erwirtschaftet werden, weiter ansteigen und dadurch vermehrt neue Anbieter angezogen werden. Durch die steigende Zahl der Anbieter verschärft sich mittlerweile auch der Konkurrenzkampf im Internet.
Eine weitere erkennbare Entwicklung ist die steigende Produktvielfalt. Hierbei ist zu vermerken, dass einerseits die Anzahl der Produkte rasant zunimmt, während die Produkte andererseits immer ähnlicher und damit schwerer vergleichbar werden. Dies ist eine Entwicklung, die es speziell für weniger fachkundige Interessenten oftmals schwierig macht, die möglichen Alternativen zu überblicken. Die Fülle an verschiedenen aber doch ähnlichen und sogar austauschbaren Produkten macht es fast unmöglich, sich schnell für ein Produkt zu entscheiden.
Um dem Kunden diese "Qual der Wahl" zu ersparen, sind neue Methoden für eine Produktauswahl nötig. Auch ohne großes Fachwissen muss es möglich sein, die Produktvielfalt zu überschauen und für die eigenen Wünsche positiv zu nutzen.
Ziel dieser Arbeit ist es, Methoden zu entwickeln, die den Auswahlprozess für den Kunden deutlich vereinfachen. Ohne großes Fachwissen soll es jedem Interessenten möglich sein, sich schnell und einfach eine Liste der für ihn relevanten Produkte erstellen zu lassen.
Hierzu wird untersucht, ob mit Hilfe von Clustermethoden des Data Minings eine Entscheidungsunterstützung für den Bereich des E-Commerce entwickelt werden kann. Idee ist es, Produkte nach Ähnlichkeiten zu gruppieren und dem Nutzer so eine Hilfestellung bei der Auswahl der für ihn interessanten Produkte zu geben.
Im Mittelpunkt dieser Arbeit stehen die Analyse der existierenden Clusteralgorithmen sowie die Anpassung und Entwicklung eigener Verfahren zur Produktauswahl. Clusteralgorithmen bezeichnen Verfahren, die es ermöglichen, eine Menge von Objekten in unterschiedliche Cluster einzuteilen. Dabei sollen Objekte innerhalb desselben Clusters möglichst homogen sein, während Objekte aus unterschiedlichen Clustern möglichst heterogen sein sollen. Mit Hilfe solcher Algorithmen könnte es dem Nutzer ermöglicht werden, sich schrittweise durch die Menge von Produkten zu arbeiten. Bei jedem Schritt werden die Produkte in mehrere Cluster aufgeteilt und nach Ähnlichkeit gruppiert. Durch die Auswahl eines speziellen Clusters kann der Kunde die Produktgruppe nach und nach einschränken. Im Idealfall ergibt sich dadurch am Ende eine Auswahl aller Produkte, die die speziellen Anforderungen des Kunden erfüllen. Alle irrelevanten Produkte, die diesen Anforderungen nicht entsprechen, sind durch die Entscheidung für ein spezielles Cluster bereits weggefallen.
Auf dem Gebiet des Clusterings könnten hierzu bereits einige anwendbare Algorithmen existieren. In dieser Arbeit werden daher die Anforderungen an die Clusterverfahren anhand eines konkreten Beispielmarktes herausgearbeitet. Durch einen Vergleich der Anforderungen mit den Eigenschaften der Algorithmen könnte so ein geeignetes Verfahren ermittelt und implementiert werden.
Gang der Untersuchung:
Die Struktur der Arbeit gliedert sich in sieben Kapitel. Im Anschluss an die Einleitung wird in Kapitel zwei und drei auf die theoretischen Grundlagen des Data Minings eingegangen. Der Knowledge Discovery Prozess bildet den Einstieg in das Thema. In Kapitel zwei werden die Phasen dieses Prozesses kurz beschrieben und die für die Problemstellung relevanten Aspekte herausgearbeitet. Die entscheidende Phase ist dabei das Data Mining, der eigentliche Schritt der Informationsgewinnung. Im Abschnitt 2.2 werden die verschiedenen Aufgabengebiete des Data Minings kurz vorgestellt, der Fokus wird aber auf das Clustering gelegt, da diese Methoden eine mögliche Problemlösung darstellen. Das Kapitel drei soll einen umfassenden Einblick in diesen Forschungsbereich geben und die unterschiedlichen Verfahren gegeneinander abgrenzen.
Aufbauend auf diesen Grundlagen wird in Kapitel vier und fünf die Problemstellung näher beschrieben, und es wird ein erster Lösungsansatz vorgeschlagen. Zunächst werden die speziellen Probleme des dynamischen Clusterings dargestellt. Die Herausforderung beim dynamischen Clustering stellt die Interaktion mit dem Benutzer dar. Durch die aktive Beeinflussung des Clusterprozesses treten aber neue Probleme auf, die in Kapitel vier genauer dargestellt werden. Außerdem wird der aktuelle Stand der Forschung näher untersucht. Das Kapitel fünf soll die Grundlagen Clustering in einen engeren Zusammenhang mit der Problemstellung bringen. Hierbei werden die verschiedenen Aspekte miteinander verknüpft und die möglichen Einflussfaktoren näher beschrieben.
Abschließend soll das Kapitel sechs der Arbeit diese Lösungsansätze durch ein praktisches Beispiel evaluieren und die Auswirkungen der Einflussfaktoren detailliert untersuchen. Anschließend werden die Ergebnisse in Kapitel sieben zusammengefasst, es werden Potentiale identifiziert und eine Handlungsempfehlung für die Zukunft gegeben.
Des Weiteren befindet sich am Ende der Arbeit ein Glossar, dieses dient dazu, einzelne Begriffe der Arbeit näher zu erläutert. Begriffe, die im Glossar definiert wurden, sind in der Arbeitkursiv gedruckt. Der darauf folgende Anhang stellt detaillierte Testergebnisse zur Verfügung.
Inhaltsverzeichnis: