Optimierte Werkzeuge für die Big Data-Profis
Wie das SDSC-BW die richtigen Algorithmen für erfolgreiche Big Data-Analysen aufspürt
Der Kunde
Echobot Media Technologies GmbH analysiert für ihre Kunden täglich Millionen Texte von Websites, sozialen Medien und Nachrichtenseiten. Die Analysen helfen zum Beispiel bei Marketing, Vertrieb oder der Optimierung der Pressearbeit. Im Jahr 2011 als Start-Up mit nur wenigen Mitarbeitern gegründet, hat sich Echobot nach sechs Jahren zu einem erfolgreichen Unternehmen entwickelt. Heute ist das Unternehmen eine Business Information Intelligence Plattform, die Milliarden digitaler Inhalte analysiert und ihre Kunden in Echtzeit mit geschäftsrelevanten Daten und Informationen versorgt.
www.echobot.de
Die Daten
Um digitale Inhalte im Netz zu analysieren, muss Echobot im ersten Schritt eine automatische Klassifikation der erfassten Texte vornehmen. Das im Projekt untersuchte Klassifikationsproblem zeichnet sich durch die große Anzahl möglicher Text-Klassen aus (mehr als 90). Für jede Klasse konnte Echobot eine unterschiedliche Menge an Beispieldokumenten bereitstellen.
Die Herausforderung
Ein Unternehmen, das sich wie Echobot auf Big Data- und Smart Data-Projekte spezialisiert hat, steht immer wieder vor der Herausforderung, geeignete Methoden und Algorithmen auszuwählen und bei den Analysen einzusetzen. Die Auswahl und optimale Konfiguration dieser Werkzeuge ist dabei entscheidend und beeinflusst die Qualität der späteren Ergebnisse nachhaltig. Ziel des Projekts mit dem SDSC-BW war es, sowohl hardware- als auch softwareseitige Optimierungspotentiale zu ermitteln und Empfehlungen für die zur Anwendung kommenden Analyseverfahren abzuleiten. Die besondere Herausforderung im durchgeführten Projekt lag in der großen Anzahl unterschiedlicher Text-Klassen bzw. Kategorien und der daraus resultierenden großen Anzahl an Trainingsdaten („Beispiel-Texte“). Die hohen Anforderungen machten u. a. Spezial-Hardware er-forderlich, die Echobot selbst nicht zur Verfügung stand.
Die Potentialanalyse
In der kostenlos durchgeführten Potentialanalyse untersuchten die Experten des SDSC-BW die bereitgestellten Daten. Die Erstanalyse konzentrierte sich darauf, die hohe Anzahl an Attributen auf die relevantesten zu reduzieren und eine Modell- bildung zur Klassifikation der Inhalte vorzunehmen. Die Analyse wurde durch das Ministerium für Wissenschaft, Forschung und Kunst Baden-Württemberg gefördert.
Das Resultat
Auf Basis von Smart Data-Methoden untersuchte das Expertenteam verschiedene Ansätze zur Klassifikation der Texte und führte für das beste Verfahren eine Parametersuche durch. In einer weiteren Analyse mit einer durch Echobot erweiterten Datenbasis konnte es nachweisen, dass sich die Rate für eine korrekte Klassifikation im Vergleich mit den ursprünglichen Daten erhöhen ließ.
Wie es weiter geht
Die Analyse des SDSC-BW hat Echobot gezeigt, welche unterschiedlichen Algorithmen und Tools für den Praxiseinsatz erfolgsversprechend sind und welche nicht. Mit den Erkenntnissen aus dem Projekt werden sich die Profis nun auf die richtigen Werkzeuge konzentrieren, um noch bessere Ergebnisse aus den eigenen Lösungen herauszuholen.