Systematischer Fehler in Daten oder Modellen, der dazu führt, dass bestimmte Gruppen oder Ergebnisse vorhersehbar benachteiligt oder bevorzugt werden.

Eigenschaft eines Modells, bei der keine Gruppe systematisch schlechter oder besser behandelt wird, insbesondere keine schützenswerten Gruppen (z. B. Geschlecht, Herkunft).

ML-Anwendung, die vorhersagt, welche Inhalte (Filme, Produkte, Posts) für eine Person interessant sein könnten, basierend auf ihrem Verhalten und dem Verhalten ähnlicher Nutzer:innen.

Datenschutz-Grundverordnung der EU (seit 2018 in Kraft). Regelt den Umgang mit personenbezogenen Daten, inklusive Rechten der Betroffenen und Pflichten von Unternehmen/Organisationen.

ML-Modell, dessen innere Funktionsweise für Menschen schwer nachzuvollziehen ist. Es ist oft unklar, warum eine bestimmte Entscheidung getroffen wurde.

Systematische Verzerrung in Daten oder Modellen, die zu unfairen oder einseitigen Ergebnissen führen kann.

Datenschutz-Grundverordnung der EU (seit 2018), die den Umgang mit personenbezogenen Daten regelt.

Ziel, dass ein ML-System keine Personengruppe systematisch benachteiligt oder bevorzugt, insbesondere keine schützenswerten Gruppen.

Geplante EU-Verordnung zur Regulierung von KI-Systemen nach Risikostufen, mit Anforderungen an Sicherheit, Transparenz und Grundrechtsschutz.

Machine Learning in der Praxis: Anwendungen, Chancen und Risiken — Einstieg in Machine Learning: Grundlagen verständlich erklärt

1. Einstieg: Was heißt „Machine Learning in der Praxis“?

In den vorherigen Modulen hast du einfache Modelltypen (lineare Modelle, Entscheidungsbäume) und Begriffe wie Overfitting kennengelernt. In diesem Modul geht es darum, wo solche Modelle heute wirklich eingesetzt werden – und welche Chancen und Risiken das mit sich bringt.

Ziele dieses Moduls (in ~15 Minuten):

Du lernst konkrete Anwendungsfelder von Machine Learning (ML) kennen.
Du verstehst, wie verzerrte Daten (Bias) zu unfairen Modellen führen können.
Du kannst wichtige ethische Fragen rund um ML benennen: Datenschutz, Diskriminierung, Nachvollziehbarkeit.

Merke dir:

ML ist kein rein technisches Thema. Es betrifft Gesellschaft, Recht und Ethik.
Viele Beispiele in diesem Modul basieren auf Entwicklungen der letzten Jahre (bis Anfang 2026), z. B. große Sprachmodelle, Bildmodelle und Empfehlungssysteme.

2. Überblick: Wichtige Anwendungsfelder von ML heute

Machine Learning steckt heute in vielen Alltagsanwendungen. Ein grober Überblick:

Computer Vision (Bild- und Videoverarbeitung)

Gesichtserkennung (z. B. zum Entsperren von Smartphones)
Objekterkennung in Bildern (z. B. Auto vs. Fahrrad vs. Fußgänger)
Medizinische Bildanalyse (Erkennung von Tumoren in MRT-Aufnahmen)

Sprache und Text (Natural Language Processing, NLP)

Sprachassistenten (z. B. Spracherkennung, Sprachsteuerung)
Übersetzungssysteme (Text von Sprache A in B)
Chatbots und große Sprachmodelle (wie dieses System)

Empfehlungssysteme

Streaming-Plattformen: Film-/Serienempfehlungen
Online-Shops: „Kund:innen kauften auch …“
Social Media: Sortierung deines Feeds

Medizin und Gesundheitswesen

Vorhersage von Krankheitsrisiken (z. B. Diabetes-Risiko)
Unterstützung bei Diagnosen (z. B. Hautkrebs-Erkennung aus Fotos)
Analyse von Gesundheitsdaten (Wearables, elektronische Patientenakten)

Finanzbereich

Kreditwürdigkeitsprüfung (Scoring)
Betrugserkennung bei Kreditkartenzahlungen
Algorithmischer Handel

Mobilität und Verkehr

Fahrerassistenzsysteme und autonome Fahrzeuge
Routenplanung und Stauvorhersage

Im Folgenden schauen wir uns einige dieser Bereiche genauer an – mit Chancen und Risiken.

3. Praxisbeispiel 1: Empfehlungssysteme (Streaming & Online-Shops)

Stell dir vor, du öffnest eine Streaming-Plattform.

Auf dem Bildschirm siehst du:

Oben eine große Leiste: „Für dich empfohlen“
Darunter mehrere Reihen: „Weil du X geschaut hast“, „Top-Trends“, „Ähnliche Titel wie Y“

Was macht das ML-Modell hier?

Es analysiert dein Verhalten: Was hast du geschaut, abgebrochen, geliked?
Es vergleicht dich mit anderen Nutzer:innen mit ähnlichem Verhalten.
Es sagt vorher, welche Inhalte dir wahrscheinlich gefallen.

Chancen:

Du findest schneller passende Inhalte.
Die Plattform kann dir Nischen-Inhalte zeigen, die du sonst nie entdeckt hättest.

Risiken:

Filterblase: Du siehst immer mehr vom Gleichen und immer weniger Vielfalt.
Manipulation: Die Plattform kann dich länger „festhalten“, auch mit Inhalten, die dich eher aufregen als informieren.

Verbindung zu früheren Modulen:

Das System wird auf historischen Daten trainiert. Wenn das Modell zu stark auf die Trainingsdaten passt (Overfitting), kann es auf neue Nutzer:innen schlecht reagieren.
Gute Evaluation ist wichtig: z. B. nicht nur „Wie oft wird geklickt?“, sondern auch „Sind die Empfehlungen vielfältig und fair?“

4. Praxisbeispiel 2: ML in der Medizin – Chancen und Stolpersteine

In der Medizin wird ML immer häufiger eingesetzt, z. B. bei der Auswertung von Bildern.

Konkretes Szenario:

Ein Krankenhaus nutzt ein ML-System, das auf Röntgen- und CT-Bildern Lungenentzündungen erkennen soll.
Das System wurde mit zehntausenden Bildern trainiert.

Chancen:

Schnellere Auswertung: Ärzt:innen bekommen Hinweise, welche Bilder sie sich genauer ansehen sollten.
Sensitivität: Das System kann kleine Auffälligkeiten entdecken, die Menschen leicht übersehen.

Risiken und praktische Probleme:

Bias in den Trainingsdaten

Wenn die Trainingsbilder hauptsächlich von bestimmten Patient:innengruppen stammen (z. B. überwiegend jüngere Menschen aus einem bestimmten Land), kann das Modell bei anderen Gruppen schlechter funktionieren.

Vertrauen und Haftung

Wer ist verantwortlich, wenn das System eine schwere Krankheit übersieht? Ärzt:in? Krankenhaus? Herstellerfirma?

Datenschutz

Medizinische Daten sind in der EU besonders schützenswert. Sie gelten als „besondere Kategorien personenbezogener Daten“ nach der Datenschutz-Grundverordnung (DSGVO, seit 2018 in Kraft).
Für die Nutzung solcher Daten braucht es strenge rechtliche Grundlagen, Anonymisierung oder Pseudonymisierung und klare Zweckbindung.

Merke: ML kann in der Medizin Leben retten, ist aber nur so gut wie die Daten, mit denen es trainiert wird – und muss immer in einen klar geregelten, verantwortlichen Kontext eingebettet sein.

5. Bias und Fairness: Wie aus Daten Diskriminierung werden kann

Jetzt zum Kern: Bias und Fairness.

Was ist Bias?

Bias bedeutet hier: systematische Verzerrung.
Ein Modell trifft vorhersehbar schlechtere Entscheidungen für bestimmte Gruppen.

Beispiele:

Ein Bewerbungs-Algorithmus bewertet Frauen systematisch schlechter als Männer.
Ein Gesichtserkennungs-System erkennt Personen mit dunkler Hautfarbe deutlich schlechter als Personen mit heller Hautfarbe.

Woher kommt Bias?

Verzerrte Daten (Data Bias)

Bestimmte Gruppen sind unterrepräsentiert (z. B. wenig Daten von älteren Menschen).
Historische Daten enthalten Diskriminierung (z. B. frühere Personalentscheidungen, die Frauen benachteiligt haben).

Messfehler oder unpassende Merkmale

Ein Score für „Kreditwürdigkeit“ nutzt Merkmale, die indirekt mit Herkunft oder Geschlecht zusammenhängen (z. B. Postleitzahl, Branche).

Zielgröße ist unfair

Wenn das Modell z. B. „Wird jemand verhaftet?“ vorhersagt, spiegelt es auch ungleiche Polizeikontrollen wider.

Fairness

Fairness bedeutet: Das Modell soll keine Gruppen systematisch benachteiligen.
Es gibt verschiedene Fairness-Konzepte (z. B. gleiche Fehlerraten für Gruppen), aber in diesem Modul reicht: Kein struktureller Nachteil für schützenswerte Gruppen (z. B. Geschlecht, Herkunft, Religion, Behinderung).

Wichtig: Bias ist kein reines Technikproblem – es hat mit Gesellschaft, Geschichte und Machtverhältnissen zu tun.

6. Gedankenexperiment: Bewerbungsalgorithmus

Stell dir vor, ein Unternehmen nutzt ein ML-System, um Bewerbungen für Praktika zu sortieren. Das System soll vorhersagen: „Wie wahrscheinlich ist es, dass diese Person später im Job gut performt?“

Gegeben:

Trainingsdaten der letzten 10 Jahre.
In diesen Daten wurden Frauen und Menschen mit Migrationshintergrund historisch seltener eingestellt.

> Aufgabe 1 (Reflexion):

> Notiere dir (mental oder schriftlich) zwei Gründe, warum ein auf diesen Daten trainiertes Modell unfair werden könnte.

> Aufgabe 2 (Lösungsansätze):

> Überlege dir mindestens eine Maßnahme, wie man versuchen könnte, das System fairer zu machen.

Mögliche Antworten (zum Vergleichen):

Grund 1: Das Modell lernt aus den historischen Daten, dass Männer oder Personen ohne Migrationshintergrund häufiger eingestellt wurden – und reproduziert diese Diskriminierung.
Grund 2: Bestimmte Merkmale (z. B. bestimmte Universitäten, bestimmte Hobbys) sind indirekt mit sozioökonomischem Hintergrund oder Herkunft verknüpft.

Maßnahme:
Daten bereinigen oder neu erheben, sodass alle Gruppen angemessen vertreten sind.
Sensible Merkmale (z. B. Geschlecht) explizit berücksichtigen, um Fairness-Kriterien zu prüfen (nicht einfach „wegwerfen“).
Fairness-Tests durchführen: Sind Fehlerraten für verschiedene Gruppen ähnlich? Falls nicht, Modell oder Daten anpassen.

7. Datenschutz, Transparenz und neue Regulierung (DSGVO & EU AI Act)

In Europa spielen Datenschutz und Regulierung von KI/ML eine immer größere Rolle.

Datenschutz (DSGVO)

Die Datenschutz-Grundverordnung (DSGVO) gilt seit 2018 in der EU.
Wichtige Prinzipien für ML-Anwendungen:
Datenminimierung: Nur so viele personenbezogene Daten wie nötig.
Zweckbindung: Daten nur für klar definierte Zwecke nutzen.
Rechte der Betroffenen: Auskunft, Berichtigung, Löschung, Widerspruch.
Besondere Kategorien (z. B. Gesundheitsdaten, biometrische Daten) sind besonders geschützt.

Transparenz und Erklärbarkeit

Viele ML-Modelle (z. B. tiefe neuronale Netze) gelten als „Black Box“: schwer nachvollziehbar, warum sie eine Entscheidung treffen.
In sensiblen Bereichen (z. B. Kreditvergabe, Medizin, Justiz) wird zunehmend gefordert:
Nachvollziehbare Entscheidungen
Erklärbare Modelle oder zusätzliche Erklärungswerkzeuge (z. B. Feature-Importances, lokale Erklärungen)

EU AI Act (Stand Anfang 2026)

Die EU arbeitet seit 2021 an einem Gesetz für Künstliche Intelligenz, meist EU AI Act genannt.
Der AI Act ist als Verordnung angelegt (direkt in allen Mitgliedstaaten gültig, ohne nationale Umsetzungsgesetze).
Bis Anfang 2026 haben sich die politischen Verhandlungen stark konkretisiert; Ziel ist eine risikobasierte Regulierung:
Unvertretbares Risiko: Bestimmte KI-Praktiken sollen verboten werden (z. B. bestimmte Formen von Social Scoring).
Hohes Risiko: Strenge Anforderungen (z. B. Dokumentation, Qualität der Daten, menschliche Aufsicht) für KI-Systeme in Bereichen wie Medizin, kritische Infrastruktur, Bildung, Arbeitsvermittlung.
Geringes/Minimalrisiko: Weniger strenge Anforderungen, aber oft Transparenzpflichten.

Für dich wichtig: ML-Systeme in sensiblen Bereichen (Medizin, Polizei, Bildung, Arbeit) sind in der EU nicht nur technische Produkte, sondern unterliegen immer stärker rechtlichen und ethischen Anforderungen.

8. Quiz: Bias und Fairness verstehen

Beantworte die Frage, um dein Verständnis zu prüfen.

Ein Kredit-Scoring-Modell wurde mit historischen Daten trainiert, in denen Personen aus bestimmten Stadtvierteln seltener Kredite bekommen haben – unabhängig von ihrer tatsächlichen Rückzahlungsfähigkeit. Was ist die wahrscheinlichste Folge?

Das Modell ist fair, weil es nur Daten nutzt und keine Menschen beurteilt.
Das Modell übernimmt die historische Benachteiligung und bewertet Personen aus diesen Vierteln systematisch schlechter.
Das Modell ist automatisch neutral, weil es keine sensiblen Merkmale wie Herkunft direkt als Eingabe nutzt.

Show Answer

Answer: B) Das Modell übernimmt die historische Benachteiligung und bewertet Personen aus diesen Vierteln systematisch schlechter.

Historische Daten enthalten bereits gesellschaftliche Ungleichheiten. Wenn das Modell daraus lernt, kann es diese **reproduzieren** oder sogar verstärken. Auch wenn Herkunft nicht direkt als Merkmal genutzt wird, können andere Merkmale (z. B. Postleitzahl) als **Proxy** wirken. Deshalb ist Antwort 2 korrekt.

9. Mini-Demo in Python: Einfaches Empfehlungssystem (vereinfachtes Beispiel)

Der folgende Python-Code zeigt ganz vereinfacht, wie ein kleines „Empfehlungssystem“ funktionieren könnte. Du brauchst dafür `pandas` und `scikit-learn` (z. B. in einer Jupyter-Notebook-Umgebung). Lies vor allem die Kommentare.

10. Wichtige Begriffe wiederholen

Nutze die Karteikarten, um zentrale Begriffe aus diesem Modul zu wiederholen.

Bias (Verzerrung): Systematischer Fehler in Daten oder Modellen, der dazu führt, dass bestimmte Gruppen oder Ergebnisse vorhersehbar benachteiligt oder bevorzugt werden.
Fairness (in ML): Eigenschaft eines Modells, bei der keine Gruppe systematisch schlechter oder besser behandelt wird, insbesondere keine schützenswerten Gruppen (z. B. Geschlecht, Herkunft).
Empfehlungssystem: ML-Anwendung, die vorhersagt, welche Inhalte (Filme, Produkte, Posts) für eine Person interessant sein könnten, basierend auf ihrem Verhalten und dem Verhalten ähnlicher Nutzer:innen.
DSGVO: Datenschutz-Grundverordnung der EU (seit 2018 in Kraft). Regelt den Umgang mit personenbezogenen Daten, inklusive Rechten der Betroffenen und Pflichten von Unternehmen/Organisationen.
Black-Box-Modell: ML-Modell, dessen innere Funktionsweise für Menschen schwer nachzuvollziehen ist. Es ist oft unklar, warum eine bestimmte Entscheidung getroffen wurde.
EU AI Act (KI-Verordnung): Geplante EU-Verordnung zur Regulierung von KI-Systemen nach Risikostufen (z. B. hohes Risiko in Medizin, Bildung, Arbeit). Ziel ist u. a. mehr Sicherheit, Transparenz und Grundrechtsschutz.

11. Transfer: Anwendungen, Chancen und Risiken in deinem Umfeld

Zum Abschluss überträgst du das Gelernte auf deine eigene Lebenswelt.

> Aufgabe 1:

> Liste (im Kopf oder schriftlich) mindestens zwei ML-Anwendungen, die du in deinem Alltag nutzt (z. B. auf dem Smartphone, an der Uni, beim Online-Shopping).

> Aufgabe 2:

> Wähle eine dieser Anwendungen und notiere:

> - Eine Chance (Was ist positiv daran, dass ML hier eingesetzt wird?)

> - Ein Risiko (Was könnte problematisch sein – z. B. Bias, Datenschutz, Transparenz?)

> Aufgabe 3 (optional, für mehr Tiefe):

> Überlege, welche Daten diese Anwendung vermutlich nutzt und ob diese Daten personenbezogen sind. Welche Rolle spielt hier die DSGVO bzw. Datenschutz allgemein?

Wenn du magst, kannst du deine Antworten später mit Kommiliton:innen oder Lehrenden diskutieren – oft merkt man erst im Gespräch, wie unterschiedlich Chancen und Risiken wahrgenommen werden.

Key Terms

Bias: Systematische Verzerrung in Daten oder Modellen, die zu unfairen oder einseitigen Ergebnissen führen kann.
DSGVO: Datenschutz-Grundverordnung der EU (seit 2018), die den Umgang mit personenbezogenen Daten regelt.
Fairness: Ziel, dass ein ML-System keine Personengruppe systematisch benachteiligt oder bevorzugt, insbesondere keine schützenswerten Gruppen.
EU AI Act: Geplante EU-Verordnung zur Regulierung von KI-Systemen nach Risikostufen, mit Anforderungen an Sicherheit, Transparenz und Grundrechtsschutz.
Overfitting: Situation, in der ein Modell die Trainingsdaten zu genau „auswendig lernt“ und auf neuen Daten schlechtere Leistung zeigt.
Computer Vision: Bereich des ML, der sich mit der automatischen Verarbeitung und Interpretation von Bildern und Videos beschäftigt.
Black-Box-Modell: ML-Modell, dessen interne Entscheidungslogik für Menschen schwer verständlich oder nicht transparent ist.
Empfehlungssystem: ML-System, das vorhersagt, welche Inhalte oder Produkte für eine Person interessant sein könnten.
Personenbezogene Daten: Alle Informationen, die sich auf eine identifizierte oder identifizierbare natürliche Person beziehen (z. B. Name, Adresse, IP-Adresse, Gesundheitsdaten).
NLP (Natural Language Processing): Bereich des ML, der sich mit der Verarbeitung und Analyse natürlicher Sprache (Text, Sprache) beschäftigt.