Get the App

Chapter 3 of 7

Daten als Treibstoff: Features, Labels und Datensätze

Dieses Modul behandelt die Rolle von Daten im Machine Learning: Welche Arten von Daten gibt es, was sind Features und Labels, und wie werden Datensätze aufgeteilt?

15 min readde

1. Warum Daten der Treibstoff für Machine Learning sind

Stell dir Machine Learning (ML) wie das Lernen für eine Prüfung vor:

  • Das Modell ist wie dein Gehirn.
  • Der Lernalgorithmus ist wie deine Lernmethode.
  • Die Daten sind wie deine Übungsaufgaben.

Ohne Daten kann ein ML‑Modell nichts lernen – egal wie gut der Algorithmus ist. Deshalb spricht man oft von Daten als Treibstoff für ML.

In diesem Modul lernst du Schritt für Schritt:

  1. Welche Arten von Daten es gibt (Rohdaten, Features, Labels)
  2. Wie man aus Rohdaten sinnvolle Features baut
  3. Was Labels bzw. Zielvariablen sind
  4. Wie man einen Datensatz in Training, Validierung und Test aufteilt
  5. Warum Datenqualität (Vollständigkeit, Rauschen, Verzerrung) so wichtig ist

Wir bleiben bei einfachen, alltagsnahen Beispielen, vor allem bei der Vorhersage von Hauspreisen.

2. Rohdaten vs. Features: Vom Chaos zur Struktur

In der Praxis sind Daten zuerst oft Rohdaten:

  • Tabellen aus Excel oder CSV
  • Log‑Dateien (z. B. Klicks auf einer Website)
  • Texte (z. B. Produktbewertungen)
  • Bilder, Audio, Sensordaten usw.

Diese Rohdaten sind meistens nicht direkt für ein ML‑Modell geeignet. Du brauchst Features:

  • Rohdaten: Unverarbeitete Daten, so wie sie anfallen.
  • Features (Merkmale): Aufbereitete, strukturierte Größen, die ein Modell verstehen kann (typisch: Zahlen oder klar definierte Kategorien).

Beispiel Hauspreisvorhersage

Stell dir eine Tabelle vor, in der jede Zeile ein Haus ist:

| Haus-ID | Beschreibung | Wohnfläche | Baujahr | Stadtteil | Verkaufspreis |

|--------:|---------------------------------------------------|-----------:|--------:|--------------|--------------:|

| 1 | "Charmantes Haus mit Garten, nahe Uni" | 80 | 1995 | Nordstadt | 320000 |

| 2 | "Sanierte Altbauwohnung, ruhige Lage" | 60 | 1950 | Innenstadt | 290000 |

  • Die Beschreibung ist eher Rohdaten (freier Text).
  • Wohnfläche, Baujahr, Stadtteil sind schon sehr nah an Features.

Features könnten hier z. B. sein:

  • Wohnfläche (in m², als Zahl)
  • Alter des Hauses (z. B. `aktuelles Jahr − Baujahr`)
  • Stadtteil als Kategorie (z. B. Nordstadt, Innenstadt, …)

Das Ziel ist: Rohdaten in sinnvolle, bereinigte Features verwandeln, die wichtige Informationen enthalten und für ein Modell nutzbar sind.

3. Features und Labels am Hauspreis-Beispiel erkennen

Wir schauen uns ein Mini‑Beispiel an. Stell dir vor, du hast diese Tabelle:

| Wohnfläche (m²) | Zimmer | Stadtteil | Balkon (Ja/Nein) | Verkaufspreis (€) |

|----------------:|-------:|------------|------------------|------------------:|

| 50 | 2 | Innenstadt | Ja | 250000 |

| 80 | 3 | Nordstadt | Nein | 260000 |

| 100 | 4 | Südstadt | Ja | 340000 |

Du möchtest ein Modell bauen, das den Verkaufspreis vorhersagt.

  • Features (Eingaben): Wohnfläche, Zimmer, Stadtteil, Balkon
  • Label / Zielvariable (Ausgabe): Verkaufspreis

Merke:

  • Features = Alles, was du dem Modell gibst, um eine Vorhersage zu treffen.
  • Label = Das, was du vorhersagen möchtest.

Im überwachten Lernen (das ist aktuell die häufigste Form im Alltag) brauchst du fast immer Feature‑Label‑Paare: Für jede Zeile im Trainingsdatensatz kennst du sowohl die Eingaben (Features) als auch die korrekte Ausgabe (Label).

4. Interaktiv: Was ist Feature, was ist Label?

Überlege dir zu den folgenden Szenarien jeweils:

  1. Was könnten sinnvolle Features sein?
  2. Was wäre das Label?

Szenario A: Spam‑Erkennung in E‑Mails

Du möchtest automatisch erkennen, ob eine E‑Mail Spam ist oder nicht.

  • Deine Aufgabe: Schreibe dir (gedanklich oder auf Papier) auf:
  • 3 mögliche Features
  • 1 Label

Beispiel-Lösungsidee (nicht spicken, erst selbst überlegen!)

  • Mögliche Features könnten sein: Anzahl Links in der E‑Mail, bestimmte Schlagwörter (z. B. "Gewinn"), Absender‑Domain.
  • Label: `Spam` oder `Nicht-Spam`.

Szenario B: Vorhersage der Studienabbruch‑Wahrscheinlichkeit

Eine Hochschule möchte abschätzen, wie wahrscheinlich es ist, dass Studierende ihr Studium abbrechen.

  • Deine Aufgabe: Überlege wieder:
  • 3 mögliche Features
  • 1 Label

Hinweis: In der Praxis ist dieses Szenario sensibel (Datenschutz, Fairness, Bias). Später in deinem Studium wirst du vermutlich auch über rechtliche Rahmen wie die EU‑Datenschutz‑Grundverordnung (DSGVO, seit 2018 in Kraft) und aktuelle KI‑Regulierung (z. B. der EU AI Act, politisch beschlossen 2024) stolpern. Schon jetzt wichtig: Nur Daten nutzen, die du rechtlich und ethisch verantworten kannst.

5. Datensätze aufteilen: Training, Validierung, Test

Damit ein Modell nicht nur deine Trainingsdaten "auswendig lernt", sondern verallgemeinern kann, teilst du deinen Datensatz in verschiedene Teile auf.

Typische Aufteilung (Daumenregel, nicht starr):

  • Trainingsdaten: ca. 60–80 %
  • Validierungsdaten: ca. 10–20 %
  • Testdaten: ca. 10–20 %

1. Trainingsdaten

  • Mit diesen Daten lernt das Modell.
  • Es passt seine internen Parameter so an, dass die Fehler auf diesen Daten kleiner werden.

2. Validierungsdaten

  • Mit diesen Daten stimmst du das Modell ab.
  • Du wählst z. B.:
  • Modelltyp (z. B. Entscheidungsbaum vs. lineare Regression)
  • Hyperparameter (z. B. Baumtiefe, Lernrate)
  • Wichtig: Das Modell sieht diese Daten nicht beim Lernen, sondern nur beim Ausprobieren verschiedener Einstellungen.

3. Testdaten

  • Diese Daten sind wie eine Abschlussprüfung.
  • Du nutzt sie ganz am Ende, um einzuschätzen, wie gut dein final gewähltes Modell auf neuen, unbekannten Daten funktioniert.
  • Wichtige Regel: Testdaten niemals zum Modell-Tuning verwenden, sonst schätzt du die echte Leistung zu optimistisch ein.

In der Praxis (z. B. bei Wettbewerben oder in Unternehmen) wird oft auch Cross‑Validation verwendet, aber für den Einstieg reicht die Grundidee: Daten in mindestens Training und Test aufteilen, besser noch Training–Validierung–Test.

6. Mini-Codebeispiel: Datensatz aufteilen (Python / scikit-learn)

Ein kurzer Blick, wie so eine Aufteilung in Python aussehen kann. Du musst den Code noch nicht im Detail verstehen – er soll nur die Idee illustrieren.

```python

from sklearn.modelselection import traintest_split

import pandas as pd

Beispiel-Daten (in der Praxis: aus CSV, Datenbank, etc.)

data = pd.DataFrame({

'wohnflaeche': [50, 80, 100, 120, 60, 90],

'zimmer': [2, 3, 4, 5, 2, 3],

'preis': [250000, 260000, 340000, 400000, 230000, 300000]

})

Features (X) und Label (y) trennen

X = data[['wohnflaeche', 'zimmer']] # Features

y = data['preis'] # Label

1. Schritt: in Training + Test aufteilen

Xtrain, Xtest, ytrain, ytest = traintestsplit(

X, y, testsize=0.2, randomstate=42

)

Optional: Trainingsdaten nochmal in Training + Validierung aufteilen

Xtrain, Xval, ytrain, yval = traintestsplit(

Xtrain, ytrain, testsize=0.25, randomstate=42

)

print("Trainingspunkte:", len(X_train))

print("Validierungspunkte:", len(X_val))

print("Testpunkte:", len(X_test))

```

Wichtige Idee:

  • `X` = Features
  • `y` = Label
  • `traintestsplit` erledigt die zufällige Aufteilung für dich.

7. Datenqualität: Vollständigkeit, Rauschen, Verzerrung

Gute Modelle brauchen gute Daten. Drei zentrale Aspekte der Datenqualität:

1. Vollständigkeit

  • Gibt es fehlende Werte? (z. B. Wohnfläche unbekannt)
  • Sind alle wichtigen Merkmale vorhanden?

Fehlende oder unvollständige Daten können zu falschen Mustern führen. Manchmal kann man fehlende Werte sinnvoll schätzen (Imputation), manchmal muss man Datenpunkte entfernen.

2. Rauschen

  • Rauschen = Zufällige Fehler oder Schwankungen in den Daten.
  • Beispiele:
  • Tippfehler in Eingaben (z. B. 1000 m² statt 100 m²)
  • Messfehler bei Sensoren

Zu viel Rauschen erschwert es dem Modell, echte Zusammenhänge zu erkennen.

3. Verzerrung (Bias) in den Daten

  • Verzerrung heißt: Die Daten repräsentieren die Realität nicht fair oder nicht vollständig.
  • Beispiele:
  • Ein Gesichtserkennungsmodell wurde hauptsächlich mit Bildern junger Menschen trainiert → Es funktioniert schlechter bei älteren Personen.
  • Ein Kredit‑Scoring‑Modell hat fast nur Daten aus einer bestimmten Region → In anderen Regionen ist es unzuverlässig.

In Europa sind seit der DSGVO (seit 2018) und mit der neuen EU‑KI‑Regulierung (EU AI Act, politisch 2024 beschlossen) Themen wie Fairness, Transparenz und Nicht‑Diskriminierung besonders wichtig. Für dich als angehende Fachkraft heißt das:

> Nicht nur ob dein Modell gut vorhersagt ist wichtig, sondern auch für wen und auf welcher Datenbasis es das tut.

8. Interaktiv: Erkenne Probleme in einem Datensatz

Stell dir vor, du hast Daten zur Vorhersage von Hauspreisen:

| Wohnfläche | Zimmer | Stadtteil | Baujahr | Preis |

|-----------:|-------:|------------|--------:|--------:|

| 80 | 3 | Innenstadt | 1990 | 300000 |

| 0 | 2 | Innenstadt | 2010 | 310000 |

| 70 | 3 | Nordstadt | NaN | 260000 |

| 200 | 10 | Innenstadt | 1980 | 50000 |

| 60 | 2 | leer | 2000 | 240000 |

Überlege dir:

  1. Wo siehst du Vollständigkeitsprobleme?
  2. Wo könnte Rauschen oder ein Fehler vorliegen?
  3. Welche Zeile würdest du genauer untersuchen oder evtl. entfernen?

Beispielhafte Überlegungen (erst selbst nachdenken!):

  • `Baujahr = NaN` → fehlender Wert → Vollständigkeitsproblem.
  • `Wohnfläche = 0` → vermutlich fehlerhaft (Rauschen oder Eingabefehler).
  • 200 m², 10 Zimmer, aber nur 50.000 € → ungewöhnliche Kombination → genauer prüfen.
  • Stadtteil = leer → fehlende Kategorie.

So eine kritische Sicht auf Daten ist für gute ML‑Projekte mindestens so wichtig wie das eigentliche Modell.

9. Quiz: Features, Labels und Datensplits

Teste dein Verständnis mit einer kurzen Frage.

Du baust ein Modell, das vorhersagen soll, ob Studierende den nächsten Kurs bestehen (Ja/Nein). Welche Aussage ist am BESTEN?

  1. Die Noten der bisherigen Prüfungen sind Features, das Bestehen (Ja/Nein) ist das Label.
  2. Das Bestehen (Ja/Nein) ist ein Feature, die Matrikelnummer ist das Label.
  3. Trainingsdaten und Testdaten sollten möglichst identisch sein, damit das Modell besser lernt.
Show Answer

Answer: A) Die Noten der bisherigen Prüfungen sind Features, das Bestehen (Ja/Nein) ist das Label.

Richtig ist: Frühere Noten sind sinnvolle Features (sie beschreiben den bisherigen Leistungsstand), und das Bestehen (Ja/Nein) ist die Zielvariable bzw. das Label. Die Matrikelnummer ist inhaltlich kein sinnvolles Label, und Trainings- und Testdaten dürfen NICHT identisch sein, sonst kannst du die echte Generalisierungsfähigkeit nicht prüfen.

10. Wichtige Begriffe wiederholen

Nutze diese Karteikarten, um die Kernbegriffe zu festigen.

Rohdaten
Unverarbeitete, ursprüngliche Daten, so wie sie anfallen (z. B. Log-Dateien, Freitext, Sensordaten), noch nicht in eine Form gebracht, die ein ML-Modell direkt nutzen kann.
Feature (Merkmal)
Eine aufbereitete, strukturierte Eingabegröße für ein ML-Modell (oft Zahl oder klar definierte Kategorie), die wichtige Informationen über ein Objekt oder Beispiel enthält.
Label / Zielvariable
Die Größe, die ein überwacht lernendes Modell vorhersagen soll, z. B. Hauspreis, Spam/Nicht-Spam, Wird der Kurs bestanden (Ja/Nein).
Trainingsdaten
Datenteil, mit dem das Modell seine Parameter anpasst und lernt. Das Modell sieht diese Beispiele während des Lernprozesses immer wieder.
Validierungsdaten
Datenteil, mit dem Modellvarianten und Hyperparameter ausgewählt werden. Das Modell lernt nicht direkt daran, sondern wird damit verglichen und abgestimmt.
Testdaten
Datenteil, der erst ganz am Ende verwendet wird, um die echte Leistungsfähigkeit des finalen Modells auf bisher ungesehenen Beispielen zu messen.
Rauschen
Zufällige Fehler oder Schwankungen in den Daten, die nicht den eigentlichen, systematischen Zusammenhängen entsprechen (z. B. Tippfehler, Messfehler).
Verzerrung (Bias) in Daten
Systematische Schieflage in den Daten, bei der bestimmte Gruppen oder Situationen über- oder unterrepräsentiert sind und dadurch ungerechte oder ungenaue Modelle entstehen können.

Key Terms

Rauschen
Zufällige Abweichungen oder Fehler in Daten, die nicht den wahren Zusammenhängen entsprechen.
Rohdaten
Unverarbeitete Daten, so wie sie gesammelt werden, z. B. Log-Dateien, Texte, Bilder, ohne Bereinigung oder Strukturierung.
Testdaten
Zurückgehaltener Teil des Datensatzes, der erst am Ende genutzt wird, um die Generalisierungsfähigkeit des finalen Modells zu bewerten.
Datenqualität
Gesamtheit der Eigenschaften von Daten (z. B. Vollständigkeit, Genauigkeit, Repräsentativität), die beeinflussen, wie gut ein ML-Modell daraus lernen kann.
Trainingsdaten
Teil des Datensatzes, mit dem das Modell seine Parameter anpasst und Muster lernt.
Feature (Merkmal)
Aufbereitete, strukturierte Eingabegröße für ein ML-Modell, die relevante Information über ein Beispiel enthält.
Validierungsdaten
Teil des Datensatzes, der zur Auswahl von Modellvarianten und Hyperparametern genutzt wird, ohne direkt zum Lernen der Parameter zu dienen.
Label / Zielvariable
Die vorherzusagende Größe im überwachten Lernen, z. B. Preis, Klasse (Spam/Nicht-Spam), Wahrscheinlichkeit für ein Ereignis.
Verzerrung (Bias) in Daten
Systematische Schieflage in Daten, die dazu führen kann, dass ein Modell bestimmte Gruppen oder Situationen unfair oder ungenau behandelt.