Saubere Datensätze als Erfolgsfaktor für KI-Anwendungen

Unternehmen reden viel über die möglichen Auswirkungen von KI- und ML-Lösungen, aber zu wenig über deren Qualität. Und die hängt in erster Linie vom Dateninput ab. APARAVI erklärt, warum die Diskussion vom Kopf auf die Füße gestellt werden muss, und wieso ein hochwertiges Dateninventar die Voraussetzung für eine sinn- und wertvolle KI- oder ML-Lösung ist.

Businesswoman works in office with a laptop with internet effects. Concept of internet sharing and company startupBusinesswoman works in office with a laptop with internet effects. Concept of internet sharing and company startupalphaspirit – stock.adobe.com

Der Hype rund um generative AI konzentriert sich in erster Linie auf ethisch-moralische und sicherheitstechnische Aspekte. Doch das greift viel zu kurz. Beide drehen sich um Probleme der richtigen Anwendung von KI- und ML-Apps, unterschlagen dabei aber die alles entscheidende Frage ihrer Qualität. Und die wiederum hängt in erster Linie von der Qualität der Daten ab, mit denen die Algorithmen gefüttert und trainiert werden.

Doch genau daran hapert es viel zu oft, weil üblicherweise bis zu 80 Prozent der dafür in Frage kommenden Daten unstrukturiert sind. Dort verstecken sich nicht nur veraltete Dokumente oder risikobehaftete Daten, sondern eben auch wichtige, hochwertige Informationen. Daher ist es sinnvoll und notwendig, diese Datenbestände vorab zu klassifizieren, zu bereinigen und zu strukturieren.

APARAVI, Anbieter von Lösungen zur Verwaltung unstrukturierter Daten, erklärt, warum eine saubere Data Collection (Clean & Lean Data) für die Entwicklung von KI-Apps essenziell ist:

Schlechter Input, schlechter Output

Die Qualität des Outputs hängt, wie so oft, auch bei der KI-Entwicklung von der Qualität des Inputs ab. Je gepflegter also die Trainingsdaten, desto höher der Anwendungsnutzen. Ideal sind transparente, klassifizierte, strukturierte und priorisierte Daten (und auch Metadaten!), frei von Dubletten.

Ausgefilterte Risiken, weniger Fallstricke

In jedem Datenbestand lauern kritische Daten und Dokumente, die aus diversen rechtlichen Gründen nicht verwendet werden dürfen. Das können beispielsweise personenbezogene Daten oder Inhalte sein, die vor dem Stichtag einer Änderung rechtlich relevanter Vorgaben datieren. Diese müssen vorab unbedingt herausgefiltert werden, um Verfälschungen, Risiken und Strafzahlungen von vorneherein zu vermeiden.

Synthetische Daten versus echte Daten

Wie groß die Unzufriedenheit der Data Scientists mit dem Datenmaterial oft ist, zeigt sich an der wachsenden Nutzung synthetischer Daten. Dumm ist nur: Mit Originaldaten können Algorithmen und Anwendungen in der Praxis schneller und effizienter entwickelt werden. 

Lange Entwicklungszeiten und hohe Kosten

KI-Entwicklung ist ein iterativer Prozess mit hohem Ressourcenbedarf – und damit ein teures Geschäft. Je schlechter der Dateninput ist, desto länger und kostenintensiver ist die Entwicklungszeit. Ein sauberer Datenbestand dagegen ist auf die relevanten, sinnvollen Daten kondensiert. Das beschleunigt die Anwendungsentwicklung, reduziert so die Kosten und ermöglicht zudem eine kürzere Time-to-Market. Und die kann für Erfolg oder Misserfolg entscheidend sein.

„Clean and Lean Data spielen bei der Entwicklung von KI- und ML-Apps eine überragende Rolle“, erklärt Adrian Knapp, CEO bei APARAVI. „Du bist, was Du isst: Der erste Schritt muss es daher sein, die wirklich relevanten Daten herauszufiltern und zu strukturieren, die Datenqualität zu steigern und so das perfekte Futter für das Training der Algorithmen zu liefern. An dieser Stelle entscheidet sich, ob eine KI-Anwendung erfolgreich wird.“

LESEN SIE AUCH

Caucasian stressful business woman with laptop frelancer girl frustrated shocked reading bad online news email failed test exam results reads unexpected terrible information upset problem notificationCaucasian stressful business woman with laptop frelancer girl frustrated shocked reading bad online news email failed test exam results reads unexpected terrible information upset problem notificationYuliia – stock.adobe.comCaucasian stressful business woman with laptop frelancer girl frustrated shocked reading bad online news email failed test exam results reads unexpected terrible information upset problem notificationYuliia – stock.adobe.com
Digitalisierung

Die vier beliebtesten Ausreden, den Datenschutz zu verschlafen

Die Prävention gegen Datenverluste braucht viel Sorgfalt und Know-how, wird aber häufig als überflüssig und lästig empfunden. Wer als Daten-Verantwortlicher sicher schlafen will, sollte sich aber nicht selbst täuschen. Die beliebtesten Ausreden gegen notwendige Schutzmaßnahmen.

AI background business technology, digital transformationAI background business technology, digital transformationAI background business technology, digital transformation
Digitalisierung

Never Change a Winning Team? Absoluter Unsinn?

Für Unternehmen wird es zunehmend unabdingbar, Prozesse zu schaffen, die sich allein mit der gesamtunternehmerischen „Changeability“ befassen. Denn diese wird eine entscheidende Zukunftsdeterminante sein für Markterfolg oder -ausstieg, Gewinn oder Pleite, Jobmaschine oder Arbeitsplatzabbau.

Programmers and cyber security technologies design websites andProgrammers and cyber security technologies design websites andThapana_Studio – stock.adobe.comProgrammers and cyber security technologies design websites andThapana_Studio – stock.adobe.com
Digitalisierung

Datenverluste entstehen meist aus Fahrlässigkeit

Datenverluste sind kein bösartiges Schicksal und das Muster erfolgreicher Data Breaches ist bekannt: unzureichend gesicherte Netzwerke dienen als Einfallstor zur leichten Beute der unstrukturierten Datenbestände. Wer diese Missstände nicht behebt, darf sich nicht wundern, das nächste Opfer zu sein.

Haende-Tablet-Binaer-Code-230131517-AS-denisismagilovHaende-Tablet-Binaer-Code-230131517-AS-denisismagilovdenisismagilov – stock.adobe.comHaende-Tablet-Binaer-Code-230131517-AS-denisismagilovdenisismagilov – stock.adobe.com
Digitalisierung

Anti-Trend 2023: Dark Data sollte nicht fortgeschrieben werden

Die Kombination aus gedankenloser Verschwendung von Daten und mangelndem Risiko- und Problembewusstsein der Unternehmen ist ein gefährliches Spiel auf Zeit. Warum es einen ökonomisch sinnvollen und ökologisch verantwortungsbewussten Umgang mit Daten braucht.

Mann steht vor künstlicher IntelligenzMann steht vor künstlicher Intelligenzlassedesignen – stock.adobe.comMann steht vor künstlicher Intelligenzlassedesignen – stock.adobe.com
Digitalisierung

Einsatz von KI erfordert Update für das Arbeitsrecht

Der zunehmende Einsatz künstlicher Intelligenz stellt das Arbeitsrecht vor vielfältige Herausforderungen, unter anderem beim Daten- und Diskriminierungsschutz oder in Haftungsfragen. Wo liegen die Aufgaben für die Gesetzgebung und was Bedarf es für ihre Lösung?

Alexandra_Koch / pixabayAlexandra_Koch / pixabay
Digitalisierung

Künstliche Intelligenz treibt den Finanzsektor voran

Wie verändert Künstliche Intelligenz die Finanzbranche? Eine neue Studie zeigt, dass 2023 weltweit 87 Milliarden US-Dollar in KI-Technologien für Banken und Versicherungen flossen. Was dabei im besonders im Fokus steht.

Mehr zum Thema

pixabaypixabay
Digitalisierung

Vier Trends für 2025: KI-Agenten und Hyper-Automation

Mindbreeze, ein führender Anbieter von KI-basierten Wissensmanagement-Lösungen, identifiziert vier Trends für das Jahr 2025 und skizziert die bedeutendsten Unternehmensbereiche, in denen künstliche Intelligenz die Transformation vorantreiben wird.

DALL-EDALL-E
Digitalisierung

Digitale Transformation setzt Ausschließlichkeitsvertrieb unter Druck

Die Digitalisierung setzt den klassischen Ausschließlichkeitsvertrieb unter Druck. Ulla Dörfler von der vfm-Gruppe erklärt, wie das AOplus-Modell Exklusivvermittlern eine erweiterte Produktpalette und damit neue Perspektiven bietet – eine Lösung, die bereits Zurich und ALH erfolgreich nutzen.

stock.adbobe.com @ kelifamilystock.adbobe.com @ kelifamily
Digitalisierung

Die Evolution der Digitalbanken: Auswirkungen auf traditionelle Banking-Modelle

Klassisches Banking mit Filialen, Vor-Ort-Berater:innen und einem meist sehr großen „Apparat“ im Hintergrund verliert immer mehr Kund:innen. Ein Grund dafür sind Digital- bzw. Neobanken – ähnliches Geschäftsmodell, völlig andere Herangehensweise.

Alexander Retsch, Prokurist der vfm-Gruppevfm-GruppeAlexander Retsch, Prokurist der vfm-Gruppevfm-Gruppe
Digitalisierung

„Der Ausschließlichkeits-Vertrieb hat nur Zukunft, wenn er sich wandelt“

Soll der Exklusiv-Vertrieb von Versicherern weiter bestehen, muss er sich wandeln, ist Alexander Retsch, Prokurist der vfm-Gruppe überzeugt. Wie das AOplus-Modell bei dieser Wandlung helfen und die Kundenbindung stärken soll, erklärt Retsch im Exklusiv-Interview.

Bazoom AIBazoom AI
Digitalisierung

Digitale Wallets: Ein Leitfaden für sicheres und effizientes Finanzmanagement

Digitale Wallets revolutionieren die Art und Weise, wie wir mit Geld umgehen. Sie bieten nicht nur Bequemlichkeit, sondern auch Sicherheit in der digitalen Welt. Doch was müssen Sie wissen, um Ihr digitales Finanzmanagement optimal zu gestalten?

Stephen Voss, CEO der Neodigital Versicherung AGNeodigital Versicherung AGStephen Voss, CEO der Neodigital Versicherung AGNeodigital Versicherung AG
Digitalisierung

„Wer jetzt nicht investiert und modernisiert, wird langfristig auf der Strecke bleiben“

Die Versicherungsbranche steht vor der Herausforderung, ihre Kostenstrukturen effizienter zu gestalten, ohne dabei den technologischen Fortschritt zu vernachlässigen. In einem Gastbeitrag für Versicherungsbote warnt Stephan Voss, CEO von Neodigital, davor, Investitionen zu unterlassen.