Chapter 2 of 7
Arten von Machine Learning: Überwacht, unüberwacht, bestärkend
In diesem Modul lernst du die drei grundlegenden Paradigmen des Machine Learning kennen und verstehst, welche Art sich für welche Aufgabe eignet.
1. Überblick: Drei Grundarten von Machine Learning
In früheren Modulen hast du gelernt, was Machine Learning (ML) ist und wie es sich von klassischer Programmierung unterscheidet.
Jetzt schauen wir auf die drei wichtigsten Lernarten im ML:
- Überwachtes Lernen (Supervised Learning)
- Unüberwachtes Lernen (Unsupervised Learning)
- Bestärkendes Lernen (Reinforcement Learning)
Eine hilfreiche Eselsbrücke:
- Überwacht: Lernen mit Vorgabe von richtigen Antworten (Labels).
- Unüberwacht: Lernen ohne richtige Antworten, das Modell sucht Strukturen in den Daten.
- Bestärkend: Lernen durch Ausprobieren und Belohnung/Bestrafung (Rewards).
In diesem Modul lernst du:
- wie sich diese drei Arten unterscheiden,
- welche typischen Aufgaben zu welcher Lernart passen,
- welche Rolle Labels und Rewards spielen.
> Merke: Diese Einteilung ist auch 2026 noch der Standard in Lehrbüchern, Online-Kursen und in der Praxis. Viele moderne Verfahren (z. B. große Sprachmodelle) kombinieren diese Lernarten, aber die Grundidee bleibt gleich.
2. Überwachtes Lernen: Lernen mit Lösungen (Labels)
Beim überwachten Lernen bekommt das Modell Beispiele mit korrekter Antwort.
- Eingabe: Daten (z. B. Bild eines Tieres)
- Ausgabe (Label): richtige Antwort (z. B. „Hund“ oder „Katze“)
Das Modell lernt: „Wenn die Eingabe so aussieht, sollte die Ausgabe so sein.“
Typische Aufgaben:
- Klassifikation
- Ziel: Eine Kategorie vorhersagen.
- Beispiele:
- E-Mails als „Spam“ oder „Nicht-Spam“ erkennen.
- Diagnose: „Tumor gutartig“ vs. „bösartig“ aus einem Bild.
- Sentiment-Analyse: Text als „positiv“, „neutral“, „negativ“ einstufen.
- Regression
- Ziel: Einen numerischen Wert vorhersagen.
- Beispiele:
- Vorhersage des Mietpreises einer Wohnung (in Euro) aus Größe, Lage, Baujahr.
- Vorhersage des Stromverbrauchs für den nächsten Tag.
Wichtig:
- Für überwachtes Lernen brauchst du viele gelabelte Daten.
- Das Labeln ist oft teuer und zeitaufwendig (z. B. Ärzt:innen müssen Bilder annotieren).
3. Beispiel: E-Mail-Spamfilter (überwachtes Lernen)
Stell dir vor, du willst einen Spamfilter trainieren.
Daten:
- Jede E-Mail wird als Eingabe betrachtet (Text, Absender, Betreff, Links, …).
- Du hast ein Label: `spam = 1` oder `spam = 0`.
Trainingsprozess (vereinfacht):
- Du sammelst z. B. 100.000 E-Mails, die schon von Nutzer:innen als Spam/Nicht-Spam markiert wurden.
- Jede E-Mail wird in Zahlen umgewandelt (z. B. Häufigkeit bestimmter Wörter, Länge, Anzahl Links).
- Das Modell versucht, eine Funktion zu lernen:
\( f(\text{E-Mail}) \rightarrow \text{"Spam" oder "Nicht-Spam"} \)
- Während des Trainings vergleicht das Modell seine Vorhersage mit dem Label und passt seine Parameter an.
Nach dem Training kann das Modell für neue E-Mails vorhersagen, ob sie Spam sind – ohne, dass jemand sie vorher manuell markiert.
> Kernidee: Überwachtes Lernen ist wie lernen mit einem Lösungsheft – zu jeder Übungsaufgabe kennst du die richtige Antwort.
4. Denkübung: Finde Beispiele für überwachtes Lernen
Überlege dir für jede der folgenden Situationen, ob sie typisch für überwachtes Lernen ist. Schreibe dir deine Antworten kurz auf (oder denke sie im Kopf durch), bevor du weiterklickst.
- Ein Online-Shop möchte vorhersagen, wie hoch der Umsatz eines bestimmten Produkts nächste Woche sein wird. Vergangene Umsätze sind bekannt.
- Ein Krankenhaus hat tausende Röntgenbilder, aber keine Diagnosen dazu. Es möchte Strukturen in den Bildern finden.
- Eine Bank möchte einschätzen, ob eine Person einen Kredit wahrscheinlich zurückzahlt oder nicht. Sie hat historische Daten, in denen steht, welche Kund:innen zurückgezahlt haben.
Auflösung (vergleiche mit deinen Gedanken):
- Situation 1: Überwachtes Lernen (Regression) – Ziel ist ein Zahlenwert (Umsatz) und historische Werte sind bekannt.
- Situation 2: Kein überwachtes Lernen, eher ein Fall für unüberwachtes Lernen, weil Labels fehlen.
- Situation 3: Überwachtes Lernen (Klassifikation) – Ziel ist eine Kategorie (kreditwürdig / nicht kreditwürdig) mit historischen Labels.
5. Unüberwachtes Lernen: Muster ohne Lösungen finden
Beim unüberwachten Lernen gibt es keine Labels. Das Modell bekommt nur die rohen Daten und soll Strukturen darin erkennen.
- Eingabe: Daten (z. B. Kund:innenprofile).
- Keine vorgegebenen Ausgaben (keine Kategorien, keine Zielwerte).
Typische Aufgaben:
- Clustering (Gruppierung)
- Ziel: Datenpunkte in Gruppen einteilen, sodass Punkte in einer Gruppe sich ähnlich sind.
- Beispiele:
- Kund:innen in einem Online-Shop nach Kaufverhalten gruppieren (z. B. „Schnäppchenjäger:innen“, „Markentreue“, „Gelegenheitskäufer:innen“).
- Nachrichtenartikel in Themenclustern anordnen (Politik, Sport, Wirtschaft …), ohne diese Themen vorher explizit zu definieren.
- Dimensionsreduktion
- Ziel: Viele Merkmale auf wenige, aussagekräftige Dimensionen reduzieren.
- Beispiele:
- Visualisierung hochdimensionaler Daten auf 2D/3D-Plots.
- Vorverarbeitung für andere ML-Verfahren, um Rechenaufwand zu reduzieren.
Wichtig:
- Beim unüberwachten Lernen gibt es keine „richtige“ Antwort, an der man sich orientieren kann.
- Die Bewertung ist oft subjektiver: „Sind diese Cluster sinnvoll?“ hängt von der Anwendung ab.
6. Beispiel: Kundensegmentierung (unüberwachtes Lernen)
Ein Online-Shop möchte seine Kund:innen besser verstehen, um gezielter Werbung zu schalten. Es liegen folgende Daten vor:
- Anzahl Käufe pro Monat
- Durchschnittlicher Warenkorbwert
- Kategorien, in denen häufig gekauft wird (z. B. Elektronik, Kleidung, Bücher)
- Nutzung von Rabattaktionen
Es gibt keine Labels wie „Stammkunde“ oder „Gelegenheitskäuferin“.
Mit einem Clustering-Verfahren (z. B. k-Means) kann der Shop:
- Die Kund:innen in z. B. 3–5 Gruppen einteilen.
- Danach analysieren, wie sich die Gruppen unterscheiden, z. B.:
- Cluster 1: Wenige, aber sehr teure Käufe → „Premium-Kund:innen“
- Cluster 2: Viele kleine Käufe, hohe Rabattnutzung → „Schnäppchenjäger:innen“
- Cluster 3: Seltene Käufe, mittlerer Warenkorb → „Gelegenheitskäufer:innen“
Diese Cluster können dann für Marketing-Entscheidungen genutzt werden, z. B. personalisierte Newsletter.
> Kernidee: Unüberwachtes Lernen ist wie Schubladen sortieren, ohne dass dir jemand vorher sagt, welche Schubladen es geben soll.
7. Bestärkendes Lernen: Lernen durch Belohnung und Bestrafung
Beim bestärkenden Lernen (Reinforcement Learning, RL) lernt ein Agent durch Interaktion mit einer Umgebung.
Zentrale Begriffe:
- Agent: Das lernende System (z. B. ein Programm, das ein Spiel spielt).
- Umgebung (Environment): Die Welt, in der der Agent handelt (z. B. Schachbrett, Simulationsumgebung, Roboterumfeld).
- Aktion (Action): Eine Handlung des Agents (z. B. eine Figur ziehen, nach links fahren).
- Zustand (State): Die aktuelle Situation (z. B. Stellung der Figuren).
- Reward (Belohnung): Rückmeldung aus der Umgebung (z. B. +1 für Gewinn, −1 für Verlust).
Ablauf (vereinfacht):
- Agent beobachtet den Zustand der Umgebung.
- Agent wählt eine Aktion.
- Die Umgebung reagiert: neuer Zustand + Reward.
- Agent passt seine Strategie an, um in Zukunft mehr Gesamt-Reward zu bekommen.
Typische Anwendungen (Stand 2026):
- Spiele: z. B. Go, Schach, Atari-Spiele, komplexe Videospiele.
- Robotik: Roboter lernen zu greifen, zu laufen, zu balancieren.
- Empfehlungssysteme: Anpassung von Empfehlungen über Zeit (z. B. welche Videos angezeigt werden).
- Ressourcenoptimierung: z. B. Energie- oder Verkehrssteuerung.
Wichtig:
- Anders als beim überwachten Lernen gibt es keine direkten „richtigen Antworten“ für jede Situation.
- Der Agent lernt durch Trial-and-Error (Versuch und Irrtum).
8. Beispiel: RL-Agent lernt ein Spiel zu spielen
Stell dir ein einfaches Videospiel vor: Eine Figur muss Hindernissen ausweichen.
- Zustand: Position der Figur, Position der Hindernisse.
- Aktionen: `links`, `rechts`, `springen`, `nichts tun`.
- Reward:
- +1 für jeden überstandenen Zeitschritt ohne Kollision.
- −10 bei Kollision (Spiel vorbei).
Lernprozess:
- Am Anfang handelt der Agent zufällig – er kollidiert oft.
- Er merkt sich, welche Aktionen in welchen Zuständen zu hohen Rewards führen.
- Mit der Zeit verbessert er seine Strategie (Policy) und wird besser im Ausweichen.
> Kernidee: Bestärkendes Lernen ist wie ein Kind, das Fahrradfahren lernt: Es bekommt keine exakte Anleitung für jeden einzelnen Bewegungsablauf, sondern lernt durch Ausprobieren und Rückmeldung (hinfallen, wieder aufstehen, besser das Gleichgewicht halten).
9. Quiz: Welche Lernart passt?
Ordne das passende Lernparadigma zu.
Du hast ein großes Datenset mit Bildern von Hunden und Katzen, und jedes Bild ist bereits als „Hund“ oder „Katze“ beschriftet. Du möchtest ein Modell trainieren, das neue Bilder automatisch als Hund oder Katze erkennt. Welche Lernart ist das?
- Überwachtes Lernen
- Unüberwachtes Lernen
- Bestärkendes Lernen
Show Answer
Answer: A) Überwachtes Lernen
Das ist **überwachtes Lernen**, weil zu jedem Bild ein **Label** („Hund“ oder „Katze“) vorliegt und das Modell genau diese Zuordnung lernen soll. Unüberwachtes Lernen hätte **keine Labels**, bestärkendes Lernen arbeitet mit **Rewards** für Aktionen in einer Umgebung.
10. Quiz: Labels, Strukturen oder Rewards?
Überprüfe dein Verständnis über Labels und Rewards.
Welche Aussage beschreibt **bestärkendes Lernen** am besten?
- Das Modell findet Gruppen in den Daten, ohne dass Kategorien vorgegeben sind.
- Das Modell lernt aus Beispielen mit richtigen Antworten (Labels).
- Ein Agent lernt durch Ausprobieren und bekommt Belohnungen oder Strafen aus der Umgebung.
Show Answer
Answer: C) Ein Agent lernt durch Ausprobieren und bekommt Belohnungen oder Strafen aus der Umgebung.
Antwort 3 ist korrekt: Beim **bestärkenden Lernen** lernt ein Agent durch Interaktion mit einer Umgebung und erhält **Rewards** (Belohnungen/Bestrafungen). Antwort 1 beschreibt **unüberwachtes Lernen**, Antwort 2 beschreibt **überwachtes Lernen**.
11. Mini-Projekt: Ordne Aufgaben den Lernarten zu
Ordne jede der folgenden Aufgaben einer Lernart zu. Notiere dir deine Zuordnung (z. B. auf Papier) und vergleiche dann mit der Lösung.
Aufgaben:
- Ein System soll ähnliche Songs gruppieren, damit Nutzer:innen automatisch Playlists mit ähnlicher Musik bekommen. Es gibt keine Genres oder Bewertungen als Labels.
- Ein Modell soll aus historischen Daten vorhersagen, ob ein:e Patient:in innerhalb von 30 Tagen nach Entlassung wieder ins Krankenhaus kommt (Ja/Nein). Die historischen Fälle sind entsprechend markiert.
- Ein Programm soll lernen, einen Roboterarm so zu steuern, dass er einen Ball in einen Korb wirft. Es bekommt +1, wenn der Ball im Korb landet, und 0 sonst.
Überlege zuerst selbst. Dann vergleiche:
- Aufgabe 1 → Unüberwachtes Lernen (Clustering von Songs ohne Labels).
- Aufgabe 2 → Überwachtes Lernen (Klassifikation mit Ja/Nein-Label).
- Aufgabe 3 → Bestärkendes Lernen (Agent lernt durch Reward +1 für Erfolg).
12. Wiederholung: Zentrale Begriffe
Nutze die Karteikarten, um die wichtigsten Begriffe zu wiederholen.
- Überwachtes Lernen (Supervised Learning)
- Lernart, bei der das Modell aus **Eingaben mit bekannten Ausgaben (Labels)** lernt. Typische Aufgaben: **Klassifikation** (Kategorien vorhersagen) und **Regression** (numerische Werte vorhersagen).
- Unüberwachtes Lernen (Unsupervised Learning)
- Lernart, bei der das Modell **keine Labels** bekommt und selbst **Strukturen oder Muster** in den Daten finden soll. Typische Aufgaben: **Clustering**, **Dimensionsreduktion**.
- Bestärkendes Lernen (Reinforcement Learning)
- Lernart, bei der ein **Agent** durch Interaktion mit einer **Umgebung** lernt und **Rewards** (Belohnungen/Bestrafungen) erhält. Ziel ist, eine Strategie zu lernen, die den **Gesamt-Reward** maximiert.
- Label
- Die **Zielinformation** in überwachten Lernproblemen (z. B. „Hund“ vs. „Katze“, Preis in Euro). Labels dienen als **richtige Antworten** beim Training.
- Reward
- Numerische **Rückmeldung** im bestärkenden Lernen, die anzeigt, wie gut eine Aktion in einem bestimmten Zustand war (z. B. +1 für Sieg, −1 für Niederlage).
- Klassifikation
- Aufgabe im überwachten Lernen, bei der eine Eingabe einer von mehreren **Kategorien** zugeordnet wird (z. B. Spam/Nicht-Spam, positiv/neutral/negativ).
- Clustering
- Aufgabe im unüberwachten Lernen, bei der Datenpunkte in **Gruppen** eingeteilt werden, sodass Punkte in derselben Gruppe sich **ähnlich** sind.
Key Terms
- Agent
- Im bestärkenden Lernen das lernende System, das Aktionen in einer Umgebung ausführt, um Rewards zu maximieren.
- Label
- Die Zielvariable in überwachten Lernaufgaben, also die bekannte „richtige Antwort“, die dem Modell während des Trainings vorgegeben wird.
- Reward
- Numerische Rückmeldung im bestärkenden Lernen, die angibt, wie gut eine Aktion war; Grundlage für das Anpassen der Strategie des Agents.
- Clustering
- Unüberwachte Lernaufgabe, bei der ähnliche Datenpunkte zu Gruppen (Clustern) zusammengefasst werden, ohne vorgegebene Labels.
- Regression
- Überwachte Lernaufgabe, bei der ein kontinuierlicher, numerischer Wert vorhergesagt wird (z. B. Preis, Temperatur).
- Klassifikation
- Überwachte Lernaufgabe, bei der Eingaben in diskrete Kategorien eingeteilt werden (z. B. Krank/gesund, Spam/Nicht-Spam).
- Umgebung (Environment)
- Die Welt, mit der ein Agent im bestärkenden Lernen interagiert; sie liefert Zustände und Rewards als Reaktion auf Aktionen.
- Überwachtes Lernen (Supervised Learning)
- Machine-Learning-Paradigma, bei dem das Modell aus Beispielen mit bekannten Ausgaben (Labels) lernt, um neue Eingaben korrekt vorherzusagen.
- Bestärkendes Lernen (Reinforcement Learning)
- Machine-Learning-Paradigma, bei dem ein Agent durch Interaktion mit einer Umgebung und durch Belohnungen/Bestrafungen (Rewards) eine Strategie erlernt.
- Unüberwachtes Lernen (Unsupervised Learning)
- Machine-Learning-Paradigma, bei dem das Modell ohne Labels Strukturen, Muster oder Gruppen in den Daten entdecken soll.