Case Studies

Skaylink analysiert mit KI große Datenmengen für IMWF

Mining for Meaning mit KI

Das Institut für Management- und Wirtschaftsforschung (IMWF) bietet seinen Kunden seit 2013 umfassende Medien-, Markt- und Reputationsanalysen an. Dazu sammelt das Institut weltweit Daten von mehr als 438 Millionen Webseiten zu zehntausenden von Unternehmen und Marken. In einer Nacht analysiert das IMWF mehr Daten, als es 1.000 Menschen in einem Jahr tun könnten. Zur Verarbeitung dieser extrem großen Datenmengen suchte das Institut einen kompetenten IT-Partner.

„Die Zusammenarbeit mit Skaylink ist entscheidend für unseren Unternehmenserfolg. Die Expert*innen von Skaylink verstehen unser Geschäftsmodell. Sie bereiten die Daten schnell und preisgünstig für unsere Auswertungen vor.“

Dazu ist es wichtig, dass der IT-Partner die Anforderungen an die Analyse genau erfasst.

Natürliche Sprache als Herausforderung

Um Kunden aufschlussreiche Insights zu ihren Unternehmen und Produkten zu liefern, begnügt sich IMWF nicht mit numerischen Analysen. Aus Webquellen wie Social Media Posts, Kundenbewertungen und Presseberichten zieht das Institut tiefe Erkenntnisse zu individuellen Fragestellungen.

Die Analyse natürlicher Sprache ist mit vielfältigen Anforderungen verbunden. Dazu gehören:

  • Sentiment: Wird eher positiv, neutral oder negativ über die Firma berichtet?
    Das Wort „Cyber-Incident“ ist für betroffene Unternehmen negativ zu interpretieren. Für eine Cyberversicherung ist es ein neutrales Wort.
  • Aktueller Anlass: Haben sich durch aktuelle Ereignisse die Bewertungen von Wörtern geändert?
    Während der Coronakrise hat sich beispielsweise die Beurteilung des Wortes „Kurzarbeit“ geändert. Außerdem sind Wörter wie „Infektionsfälle“ im Kontext von Unternehmen neutraler zu bewerten als noch vor der Pandemie.
  • Kontext: Enthält ein Text beispielsweise Ironie?
    In einem Tweet wird Sprache anders verwendet als in einer Bilanz-Pressemeldung.

Zudem bietet IMWF seinen Kunden Analysen an, die beispielsweise alle europäischen Kernsprachen einschließen können. Um diese und viele weitere Herausforderungen bei der automatisierten Analyse großer Datenmengen zu meistern, hat Skaylink für IMWF einen umfassenden automatisierten Prozess entwickelt.

Projekt in Kürze

Unternehmen:

IMWF GmbH

Herausforderung:

Schnelle und preisgünstige Analyse großer Datenmengen in natürlicher Sprache

Lösung:

Kombination regel- und KI-basierter Analyse-Methoden

Eingesetzte Technologien:

Terraform, Docker, AWS ECS, EC2 Spot Instances, AWS Glue, Lambda, Athena, StepFunctions, State-of-the-Art-Modelle wie BERT, Claude (Anthropic), GPT (OpenAI)

Regelbasierte Datenbereinigung

Skaylink erhält die Rohdaten des Website-Crawlings von einem IMWF-Partner und reichert sie mit selbst gecrawlten Daten an. Auf Basis von AWS-Technologien verarbeitet Skaylink jede Nacht innerhalb kurzer Zeit etwa 2,5 Millionen Artikel in verschiedensten Sprachen, erkennt relevante Texte und filtert sie nach Unternehmen, Marken, Themenkomplexen und besonderen Ereignissen, damit sie morgens bereitstehen. Die Daten durchlaufen einen ausgefeilten automatisierten Prozess – eine Kombination von regelbasierten Modellen und KI-Methoden.

Über eine interne Datenbank mit Web-Oberfläche (die sogenannte „Entity App“) verwaltet Skaylink die mehr als 30.000 relevanten Unternehmen, Marken und Themen, die beobachtet werden sollen.

Die Cloud-Infrastruktur, die täglich zum Einsatz kommt, ist über Terraform als Infrastructure-as-Code (IaC) definiert. Sie steht in Verbindung mit Docker-Containern, deren Code über eine GitHub-Verbindung zu AWS-Services wie CodePipeline und CodeBuild in die AWS Cloud übertragen wird. So ist eine schnelle Anpassung des bestehenden Systems und eine entsprechende Skalierung möglich. Innerhalb der Cloud bieten AWS-Lösungen wie Elastic Container Service (ECS), EC2 Spot Instances, SQS, AWS Lambda, StepFunctions, S3, Kinesis, Glue, Athena und weitere den Rahmen für die gesamte Pipeline.

Schnelle Anpassungen von Analysen dank KI

Skaylink nutzt KI zur Datenanalyse: Mit regelbasierten KI-Methoden erkennen die Expert*innen die grammatischen Strukturen und klassifizieren Texte auf Grundlage von Wortlisten und komplexen Abfolgemustern. Zudem setzen sie Large Language Models (LLMs) ein. Dazu gehören LLM-Basismodelle wie BERT, die Skaylink mit annotierten Daten von IMWF verfeinert und auf den Anwendungskontext zuschneidet. Besondere Analysen werden vereinzelt mit neuesten Modellen wie Claude 3 von Anthropic, das über AWS Bedrock nutzbar ist, angereichert. Diese Kombination aus regelbasierten und modellbasierten Ansätzen ermöglicht es, individuelle Stärken und Schwächen der jeweiligen Technologien auszubalancieren. Zusätzlich bietet sie mehr Optionen, um im Einzelfall einzugreifen. Besonders die Möglichkeit, neueste LLMs anzupassen und auch branchenspezifische Informationen einfließen zu lassen, gibt IMWF die nötige Präzision und Individualisierbarkeit, die für seine Studien unerlässlich sind.

Bei Änderungen können die Expert*innen die BERT-KI-Modelle innerhalb eines halben Tages nachtrainieren. Je mehr Daten vorliegen, desto besser ist das Ergebnis. Bei einem kompletten Neuentwurf eines Modells würde dies mehrere Wochen dauern. Die Skaylink-Expert*innen überprüfen die KI-Ergebnisse regelmäßig stichprobenartig, um eine bestmögliche Qualität sicherzustellen. Falls nötig, können sie weiter optimiert werden. Dieser menschliche Faktor, auch als „Human-in-the-Loop“ bekannt, stellt einerseits sicher, dass die bestehenden Klassifikationen korrekt sind, andererseits wird dafür gesorgt, dass neue Themen frühzeitig erkannt und Bedeutungsänderungen entsprechend berücksichtigt werden.

Am Ende des Verarbeitungsprozesses übergibt Skaylink nur noch die für die Auswertung relevanten Daten an IMWF. So kann IMWF zeitnah Berichte für Kunden erstellen.

Neben Qualität der Analyse und Schnelligkeit achten die Skaylink-Expert*innen auf die Kosten der AWS-Infrastruktur und schöpfen auch hier Optimierungspotentiale aus.

Kontinuierliche Weiterentwicklung

Die Analyse-Expert*innen von IMWF und Skaylink stehen im regelmäßigen Austausch, um die Modelle weiter zu optimieren. Ein Grund hierfür können neue IMWF-Kundenprojekte oder aktuelle Ergebnisse sein. Kleinere Anpassungen können die Expert*innen von Skaylink aufgrund ihrer umfassenden Erfahrung oft innerhalb weniger Stunden vornehmen, z. B. um einen aktuellen Skandal näher zu betrachten.

Zudem bieten neue technische Entwicklungen zusätzliches Optimierungspotential. „Wir haben das Vertrauen von IMWF, um Experimente durchzuführen. So können wir immer wieder prüfen, ob neue Technologien einen Mehrwert für IMWF bieten“, freut sich Agatha Dabrowski, Senior Consultant AWS Analytics, Skaylink. „So lernen wir gemeinsam mit dem IMWF.“

Fazit

„Zusammen mit den Expert*innen von Skaylink werden wir unsere Analyse-Methoden konstant weiterentwickeln“, erklärt Carola Klaus. „Ich freue mich auf die Fortsetzung unserer langjährigen vertrauensvollen und erfolgreichen Zusammenarbeit.“

Erfolgsprojekte von Skaylink