„Das Projekt mit dem SDSC-BW hat uns geholfen, unsere Ideen mit den richtigen Modellen in die Tat umzusetzen und den KI-Gedanken in der gesamten Gruppe voranzutreiben."
Sebastian Klumpp, Geschäftsführer der Price Intelligence GmbH

Mit dem SDSC-BW finden Produkte ihren geeigneten Platz

Wie das SDSC-BW die richtigen Algorithmen für erfolgreiche Multilabel-Produktklassifizierung aufspürt

Der Kunde

Die Price Intelligence GmbH (priceintelligence), Stuttgart, ist ein Anbieter für Marktüberwachungssoftware – mit Schwerpunkt auf der Optimierung von E-Commerce-Daten für Händler und Hersteller. Die Lösung erfasst und bewertet internationale Daten von Marktplätzen und Onlineshops. Preis- und Wettbewerbsbeobachtung, Dynamic Pricing sowie Sortimentsoptimierungen sind Features, von denen die Nutzer profitieren.
www.priceintelligence.net

Die Daten

In modernen E-Commerce-Systemen fallen eine Vielzahl von Daten an – insbesondere, wenn Warenhäuser ihre großen Lager füllen und Produkte aus Lieferantenlisten in das hauseigene Produktinformationssystem integriert werden sollen. Auf dem Weg von der Lieferantenliste in das Product Information Management (PIM)-System werden Daten teilautomatisiert verarbeitet. Im Rahmen einer Potenzialanalyse untersuchte das SDSC-BW, wie der Prozess der Kategorisierung von Produkten in hierarchische Taxonomien innerhalb von PIM-Systemen vollautomatisiert werden könnte – und das auf Basis der Beschreibung nebst Produkttiteln. Als Datengrundlage stellte priceintelligence eine komplette PIM-Struktur sowie eine breite Masse an Lieferantenlisten zur Verfügung.

Die Herausforderung

Der Prozess der Multilabel-Produktklassifizierung unter Zuhilfenahme von aktuellen Algorithmen der natürlichen Sprachverarbeitung (NLP) benötigt Datensätze mit einer signifikanten Informationsgüte. Wichtig ist auch eine ausgewogene Verteilung über die zur Verfügung stehenden Kategorien, um Modelle für eine Vorhersage im Rahmen der Klassifizierung effizient zu trainieren. Die Herausforderung bei priceintelligence bestand darin, einen vollautomatisierten Prozess für die Produktklassifizierung zu erarbeiten, der auch bei weniger aus- gewogenen Verteilungen funktioniert. Parallel um priceintelligence- Entwicklerteam mussten die SDSC-BW Experten verschiedene Strategien verfolgen, wie Daten und Modelle bestmöglich auf- und verarbeitet werden können, um die Rate der korrekten Klassifizierungen zu erhöhen.

Die Potentialanalyse

Im Rahmen der kostenlos durchgeführten Potenzialanalyse untersuchten die Experten des SDSC-BW detailliert das PIM-System sowie die Lieferantendaten. Der Fokus der Analyse lag auf der Identifikation von textuellen Informationen mit signifikantem Informationsgehalt und deren Auftreten nebst Gewichtung. So konnte das Team Rückschlüsse auf Modellgenauigkeiten ableiten und eine geeignete Modellauswahl treffen.

Das Resultat

Auf Grundlage, der in der Potenzialanalyse untersuchten, Algorithmen bereitete das Expertenteam eine ideale Datenbasis mit maximal möglichem Informationsgehalt auf und trainierte drei Modelle für den Einsatz in der sogenannten flachen Produktklassifizierung. Durch die enge Zusammenarbeit der Experten und des Entwicklerteams und die damit verbundene Kopplung des Know-hows konnte priceintelligence zeitnah einen erfolgreichen und soliden Prozess für die automatische Produktklassifizierung implementieren.

Wie es weiter geht

Bereits während der Potenzialanalyse des SDSC-BW zeigte sich, wie interessant beispielsweise der Einsatz neuronaler Netze unter Verwendung von Gewichten ist, gerade wenn unbalancierte Daten in großen Mengen vorliegen. Nach Abschluss der Potenzialanalyse übermittelten die Spezialisten des SDSC-BW die Ergebnisse nebst weiterführenden Empfehlungen an die Datenexperten von priceintelligence. Aus letzteren gipfelte ein gemeinsamer Projektantrag, um eine Produktentwicklung anzustoßen, die den automatischen Klassifizierungsprozess um die Erkennung von Bildern erweitert und die Verarbeitung von unbalancierten sowie unvollständigen Daten optimiert. Darüber hinaus sollen gemeinsam ermittelte wissenschaftliche Leistungskennzahlen zukünftig im Rahmen von Folgeprojekten genutzt werden.