Saubere Datensätze als Erfolgsfaktor für KI-Anwendungen

Veröffentlichung: 31.07.2023, 15:07 Uhr - Lesezeit 5 Minuten

Unternehmen reden viel über die möglichen Auswirkungen von KI- und ML-Lösungen, aber zu wenig über deren Qualität. Und die hängt in erster Linie vom Dateninput ab. APARAVI erklärt, warum die Diskussion vom Kopf auf die Füße gestellt werden muss, und wieso ein hochwertiges Dateninventar die Voraussetzung für eine sinn- und wertvolle KI- oder ML-Lösung ist.

(PDF)

Businesswoman works in office with a laptop with internet effects. Concept of internet sharing and company startupalphaspirit – stock.adobe.com

Der Hype rund um generative AI konzentriert sich in erster Linie auf ethisch-moralische und sicherheitstechnische Aspekte. Doch das greift viel zu kurz. Beide drehen sich um Probleme der richtigen Anwendung von KI- und ML-Apps, unterschlagen dabei aber die alles entscheidende Frage ihrer Qualität. Und die wiederum hängt in erster Linie von der Qualität der Daten ab, mit denen die Algorithmen gefüttert und trainiert werden.

Doch genau daran hapert es viel zu oft, weil üblicherweise bis zu 80 Prozent der dafür in Frage kommenden Daten unstrukturiert sind. Dort verstecken sich nicht nur veraltete Dokumente oder risikobehaftete Daten, sondern eben auch wichtige, hochwertige Informationen. Daher ist es sinnvoll und notwendig, diese Datenbestände vorab zu klassifizieren, zu bereinigen und zu strukturieren.

APARAVI, Anbieter von Lösungen zur Verwaltung unstrukturierter Daten, erklärt, warum eine saubere Data Collection (Clean & Lean Data) für die Entwicklung von KI-Apps essenziell ist:

Schlechter Input, schlechter Output

Die Qualität des Outputs hängt, wie so oft, auch bei der KI-Entwicklung von der Qualität des Inputs ab. Je gepflegter also die Trainingsdaten, desto höher der Anwendungsnutzen. Ideal sind transparente, klassifizierte, strukturierte und priorisierte Daten (und auch Metadaten!), frei von Dubletten.

Ausgefilterte Risiken, weniger Fallstricke

In jedem Datenbestand lauern kritische Daten und Dokumente, die aus diversen rechtlichen Gründen nicht verwendet werden dürfen. Das können beispielsweise personenbezogene Daten oder Inhalte sein, die vor dem Stichtag einer Änderung rechtlich relevanter Vorgaben datieren. Diese müssen vorab unbedingt herausgefiltert werden, um Verfälschungen, Risiken und Strafzahlungen von vorneherein zu vermeiden.

Synthetische Daten versus echte Daten

Wie groß die Unzufriedenheit der Data Scientists mit dem Datenmaterial oft ist, zeigt sich an der wachsenden Nutzung synthetischer Daten. Dumm ist nur: Mit Originaldaten können Algorithmen und Anwendungen in der Praxis schneller und effizienter entwickelt werden.

Lange Entwicklungszeiten und hohe Kosten

KI-Entwicklung ist ein iterativer Prozess mit hohem Ressourcenbedarf – und damit ein teures Geschäft. Je schlechter der Dateninput ist, desto länger und kostenintensiver ist die Entwicklungszeit. Ein sauberer Datenbestand dagegen ist auf die relevanten, sinnvollen Daten kondensiert. Das beschleunigt die Anwendungsentwicklung, reduziert so die Kosten und ermöglicht zudem eine kürzere Time-to-Market. Und die kann für Erfolg oder Misserfolg entscheidend sein.

„Clean and Lean Data spielen bei der Entwicklung von KI- und ML-Apps eine überragende Rolle“, erklärt Adrian Knapp, CEO bei APARAVI. „Du bist, was Du isst: Der erste Schritt muss es daher sein, die wirklich relevanten Daten herauszufiltern und zu strukturieren, die Datenqualität zu steigern und so das perfekte Futter für das Training der Algorithmen zu liefern. An dieser Stelle entscheidet sich, ob eine KI-Anwendung erfolgreich wird.“

Dieses Listicle kann auch hier abgerufen werden.

Themen:

[..]

Dateninventar

Anwendungsentwicklung

Synthetische Daten

(PDF)

LESEN SIE AUCH

Caucasian stressful business woman with laptop frelancer girl frustrated shocked reading bad online news email failed test exam results reads unexpected terrible information upset problem notificationYuliia – stock.adobe.com

09.06.2023

Digitalisierung

Unsere Themen im Überblick

Informieren Sie sich über aktuelle Entwicklungen und Hintergründe aus zentralen Bereichen der Branche.

Themenwelt

Praxisnahe Beiträge zu zentralen Themen rund um Vorsorge, Sicherheit und Alltag.

Wirtschaft

Analysen, Meldungen und Hintergründe zu nationalen und internationalen Wirtschaftsthemen.

Management

Strategien, Tools und Trends für erfolgreiche Unternehmensführung.

Recht

Wichtige Urteile, Gesetzesänderungen und rechtliche Hintergründe im Überblick.

Finanzen

Neuigkeiten zu Märkten, Unternehmen und Produkten aus der Finanzwelt.

Assekuranz

Aktuelle Entwicklungen, Produkte und Unternehmensnews aus der Versicherungsbranche.

Mehr zum Thema

Dr. Johann Sell von der mip Consult GmbHmip Consult GmbH

10.03.2026

Digitalisierung

Low-Code, KI und Schatten-IT: Wie Unternehmen die Kontrolle behalten

Low-Code-Plattformen und KI-gestützte Tools ermöglichen es Fachabteilungen, schnell eigene Anwendungen zu entwickeln. Gleichzeitig wächst damit das Risiko neuer Formen von Schatten-IT. Dr. Johann Sell von der mip Consult GmbH erläutert, warum Transparenz, klare Governance-Strukturen und eine enge Zusammenarbeit zwischen IT und Fachbereichen entscheidend sind, um Innovation und Sicherheit miteinander zu verbinden.

Die Leistungsprüfung in der Berufsunfähigkeitsversicherung basiert häufig auf umfangreichen medizinischen Unterlagen und digitalen Dokumentationsprozessen.Redaktion experten.de / KI-generiert

10.03.2026

Digitalisierung

BU-Leistungsprüfung wird digital: Credit Life und Proventem starten neuen Service für Versicherer

Die Leistungsprüfung in der Berufsunfähigkeitsversicherung gilt als komplex und zeitaufwendig. Ein neuer Service von Credit Life und Proventem soll den gesamten Prozess digitalisieren – von der Schadenmeldung bis zur Entscheidung.

Wie steht es um die Kundenzufriedenheit bei Online-Abschlüssen mit Versicherern? Das zeigt eine aktuelle Untersuchung (Symbolbild).DALL-E

03.03.2026

Digitalisierung

Reform trifft Realität: Wie zufrieden sind Kunden mit Online-Abschlüssen?

Der Gesetzgeber plant mit dem „Standarddepot Altersvorsorge“ ein einfaches, kostengedeckeltes und standardisiertes Vorsorgeprodukt. Ziel ist mehr Transparenz und geringere Komplexität. Doch wie zufrieden sind Kunden heute mit digitalen Vertragsabschlüssen bei Versicherern?

DALL-E

25.02.2026

Digitalisierung

KI im Versicherungsmarkt: Innovationstreiber und Haftungsrisiko

Künstliche Intelligenz gilt als Effizienzbooster der Branche – von automatisiertem Underwriting bis zur Schadenregulierung per Bildanalyse. Doch die Aon-Marktprognose 2026 zeigt: KI ist längst nicht nur Innovationsmotor, sondern eines der größten Unternehmensrisiken weltweit. Für Versicherer, Makler und ihre Kunden verschiebt sich damit das Risikoverständnis grundlegend.

DALL-E

17.02.2026

Digitalisierung

KI-Verordnung: Schlanke Aufsicht und Warnung vor Flickenteppich

Die europäische KI-Verordnung gilt bereits – doch wie sie in Deutschland konkret überwacht wird, war bislang offen. Nun hat das Bundeskabinett eine „schlanke“ Aufsichtsstruktur beschlossen. Für Vermittler bleibt es dennoch komplex: Denn neben der KI-Verordnung prüft weiterhin auch die Datenschutzaufsicht.

Die neue Ausgabe kostenlos im Kiosk

Werfen Sie einen Blick in die aktuelle Ausgabe und überzeugen Sie sich selbst vom ExpertenReport. Spannende Titelstories, fundierte Analysen und hochwertige Gestaltung – unser Magazin gibt es auch digital im Kiosk.

Ausgabe 03/26

"Ein kurzfristiges Strohfeuer machen wir nicht mit."

Frank Kettnaker und Christian Pape - Vorstand ALH Gruppe

JETZT LESEN

Ausgabe 10/25

"Viele Eltern unterschätzen die finanziellen Folgen, wenn ihr Kind berufsunfähig wird."

Jens Göhner, Leiter Produktmanagement der Stuttgarter

JETZT LESEN

Ausgabe 07/25

"Unabhängigkeit hat viele Gesichter"

Was bedeutet Unabhängigkeit im Versicherungsvertrieb wirklich?

JETZT LESEN

Ausgabe 05/25

"Das Gesamtpaket muss stimmen"

Bernd Einmold & Sascha Bassir

JETZT LESEN

Kostenlos

Alle Ausgaben entdecken

Blättern Sie durch unser digitales Archiv im Kiosk und lesen Sie alle bisherigen Ausgaben des ExpertenReports. Zur Kiosk-Übersicht

Mit unserem Experten-Kiosk immer bestens informiert:

Saubere Datensätze als Erfolgsfaktor für KI-Anwendungen

Schlechter Input, schlechter Output

Ausgefilterte Risiken, weniger Fallstricke

Synthetische Daten versus echte Daten

Lange Entwicklungszeiten und hohe Kosten

Themen:

LESEN SIE AUCH

Die vier beliebtesten Ausreden, den Datenschutz zu verschlafen

Never Change a Winning Team? Absoluter Unsinn?

Datenverluste entstehen meist aus Fahrlässigkeit

Anti-Trend 2023: Dark Data sollte nicht fortgeschrieben werden

Einsatz von KI erfordert Update für das Arbeitsrecht

Unsere Themen im Überblick

Themenwelt

Wirtschaft

Management

Recht

Finanzen

Assekuranz

Mehr zum Thema

Low-Code, KI und Schatten-IT: Wie Unternehmen die Kontrolle behalten

BU-Leistungsprüfung wird digital: Credit Life und Proventem starten neuen Service für Versicherer

Reform trifft Realität: Wie zufrieden sind Kunden mit Online-Abschlüssen?

KI im Versicherungsmarkt: Innovationstreiber und Haftungsrisiko

KI-Verordnung: Schlanke Aufsicht und Warnung vor Flickenteppich

Die neue Ausgabe kostenlos im Kiosk

"Ein kurzfristiges Strohfeuer machen wir nicht mit."

"Viele Eltern unterschätzen die finanziellen Folgen, wenn ihr Kind berufsunfähig wird."

"Unabhängigkeit hat viele Gesichter"

"Das Gesamtpaket muss stimmen"

Alle Ausgaben entdecken

Kontakt

Rubriken

Experten

Aktuelle Mediadaten

Redaktion

Rechtliches

Abo

Mit unserem Experten-Kiosk immer bestens informiert: