Lineares Modell (intuitive Definition)

Ein Modell, das eine Vorhersage als gewichtete Summe von Features plus einem Grundwert berechnet. Jedes Feature hat ein Gewicht, das den Einfluss auf die Vorhersage beschreibt.

Gewicht (Koeffizient)

Eine Zahl in einem linearen Modell, die angibt, wie stark ein Feature die Vorhersage erhöht oder senkt. Positives Gewicht: erhöht die Vorhersage, negatives Gewicht: senkt sie.

Bias / Achsenabschnitt

Der Grundwert in einem linearen Modell – die Vorhersage, wenn alle Features den Wert 0 hätten.

Ein Modell, das Vorhersagen trifft, indem es eine Folge von Ja/Nein-Fragen (auf Basis von Features und Schwellenwerten) stellt und am Ende eine Entscheidung in einem Blattknoten ausgibt.

Overfitting (Überanpassung) bei Bäumen

Wenn ein Entscheidungsbaum die Trainingsdaten zu genau auswendig lernt und dadurch auf neuen Daten schlechtere Vorhersagen macht.

Zielgröße, die ein Modell vorhersagen soll, z. B. Preis, Klasse oder Risiko‑Score.

Messbare Eingangsgröße eines Modells, z. B. Alter, Einkommen oder Wohnfläche.

What is Lineares Modell?

Modellfamilie, bei der die Vorhersage als gewichtete Summe der Eingabefeatures plus einem Grundwert berechnet wird. Beispiele sind lineare Regression und logistische Regression.

What is Entscheidungsbaum?

Baumstruktur aus aufeinanderfolgenden Entscheidungen (Knoten mit Fragen und Schwellenwerten), die zu Vorhersagen in Blattknoten führen.

Einfache Modelltypen: Lineare Modelle und Entscheidungsbäume — Einstieg in Machine Learning: Grundlagen verständlich erklärt

Q: Du findest ein Modell, das aus vielen "Wenn‑dann"‑Regeln mit Schwellenwerten besteht, z. B. "Wenn Alter > 30 und Einkommen > 2.000 €, dann ...". Um welchen Modelltyp handelt es sich typischerweise?

Entscheidungsbaum. Beschreibungen mit vielen Wenn‑dann‑Regeln und Schwellenwerten sind typisch für Entscheidungsbäume. Lineare Modelle arbeiten mit gewichteten Summen von Features, ohne explizite Wenn‑dann‑Regeln. Neuronale Netze können komplexes Verhalten zeigen, werden aber nicht einfach als Sammlung von Wenn‑dann‑Regeln beschrieben.

1. Rückblick: Vom Problem zum Modell

Du hast in den vorherigen Modulen gelernt:

Features = Eingabedaten (z. B. Alter, Einkommen)
Label = Zielgröße, die wir vorhersagen wollen (z. B. Kredit bewilligt: ja/nein)
Datensatz = viele Beispiele mit Features und Label
ML‑Workflow = Problem formulieren → Daten vorbereiten → Modell wählen → Modell bewerten

In diesem Modul geht es um zwei sehr wichtige, einfache Modelltypen:

Lineare Modelle (z. B. lineare Regression)
Entscheidungsbäume

Ziel ist nicht, alle Formeln zu kennen, sondern:

in Worten erklären zu können, wie diese Modelle Vorhersagen treffen,
zu verstehen, wann sie sinnvoll sind und wo ihre Grenzen liegen.

2. Grundidee linearer Modelle – eine gewichtete Summe

Stell dir vor, du möchtest den Mietpreis einer Wohnung schätzen. Du kennst:

Wohnfläche in m²
Entfernung zur Innenstadt in km
Baujahr

Ein lineares Modell sagt im Kern:

> „Jedes Feature bekommt ein Gewicht. Ich multipliziere Feature × Gewicht, addiere alles und bekomme so meine Vorhersage.“

In Worten:

Wenn die Wohnfläche größer ist, steigt der Preis (positives Gewicht).
Wenn die Entfernung zur Innenstadt größer ist, sinkt der Preis (negatives Gewicht).
Es gibt oft noch einen Grundwert (man nennt ihn Bias oder Achsenabschnitt): das ist der Preis, selbst wenn alle Features 0 wären.

Wichtig:

Das Modell ist linear, weil sich der Effekt eines Features gleichmäßig ändert: +10 m² erhöhen den Preis immer um denselben Betrag – egal ob von 40→50 oder 90→100 m².
Das Modell „lernt“ die Gewichte aus den Trainingsdaten, z. B.: Wohnfläche ist sehr wichtig → hohes Gewicht; Baujahr weniger wichtig → kleineres Gewicht.

3. Beispiel: Lineares Modell für Mietpreis (ohne Formeln)

Nehmen wir ein fiktives lineares Modell für den Mietpreis in € pro Monat.

Features:

Wohnfläche (m²)
Entfernung zur Innenstadt (km)

Das trainierte Modell hat (vereinfacht) gelernt:

+12 € für jeden zusätzlichen m²
−20 € für jeden zusätzlichen km Entfernung
+300 € Grundwert

In Worten:

> Mietpreis = Grundwert + (12 € × Wohnfläche) − (20 € × Entfernung)

Beispielwohnung A:

40 m²
2 km zur Innenstadt

Das Modell rechnet (in Worten):

Grundwert: 300 €
plus: 12 € × 40 m² = 480 €
minus: 20 € × 2 km = 40 €

Vorhersage ≈ 300 + 480 − 40 = 740 €

Du musst die Formel nicht auswendig können. Wichtig ist die Idee:

Jedes Feature schiebt die Vorhersage nach oben oder unten.
Wie stark, hängt vom gelernten Gewicht ab.

4. Denkübung: Richtung der Gewichte

Überlege dir, ob das Gewicht eines Features eher positiv oder negativ sein sollte. Begründe kurz für dich.

Stell dir ein lineares Modell für den Risiko‑Score einer Kreditvergabe vor (je höher der Score, desto riskanter der Kredit):

Features:

Höhe bestehender Schulden (in €)
Monatliches Einkommen (in €)
Anzahl verpasster Zahlungen in den letzten 12 Monaten

Aufgabe:

Notiere für jedes Feature, ob du ein positives oder negatives Gewicht erwartest, wenn das Modell Risiko vorhersagt.
Schreibe dir in 1–2 Sätzen auf, warum.

Lösungsvorschlag (zum Vergleichen):

Mehr Schulden → Risiko steigt → Gewicht eher positiv
Höheres Einkommen → Risiko sinkt → Gewicht eher negativ
Mehr verpasste Zahlungen → Risiko steigt → Gewicht eher positiv

So kannst du schnell prüfen, ob ein gelerntes lineares Modell intuitiv sinnvoll wirkt.

5. Grundidee von Entscheidungsbäumen – Fragen stellen

Ein Entscheidungsbaum arbeitet ganz anders als ein lineares Modell.

Stell dir einen Baum aus Ja/Nein‑Fragen vor, ähnlich wie ein Entscheidungsdiagramm:

Oben steht eine Frage: z. B. „Einkommen ≥ 2.000 €?“
Je nachdem, ob die Antwort Ja oder Nein ist, gehst du links oder rechts weiter.
An jedem Knoten kommt eine neue Frage, z. B. „Schulden > 10.000 €?“
Am Ende landest du in einem Blatt (Endknoten) mit einer Entscheidung, z. B. „Kredit bewilligt“ oder „Kredit abgelehnt“.

Wichtig:

Ein Entscheidungsbaum nutzt Schwellenwerte (z. B. Einkommen ≥ 2.000 €) und trennt damit die Daten in Gruppen.
Jede Person „wandert“ durch den Baum, je nach ihren Feature‑Werten.
Am Ende sagt der Baum: „Für alle in dieser Gruppe war im Training das Label meist X – also sage ich auch jetzt X voraus.“

6. Beispiel: Entscheidungsbaum für Kreditbewilligung

Stell dir einen sehr einfachen Entscheidungsbaum für Kreditbewilligung vor. Wir nutzen nur drei Features:

Monatliches Einkommen (in €)
Anzahl verpasster Zahlungen im letzten Jahr
Höhe bestehender Schulden (in €)

Textueller Baum (visuelle Beschreibung):

Frage 1 (Wurzel): Einkommen ≥ 2.000 €?
Wenn NEIN:
→ Entscheidung: Kredit ablehnen
Wenn JA:
Frage 2: Verpasste Zahlungen ≥ 2?
Wenn JA:
→ Entscheidung: Kredit ablehnen
Wenn NEIN:
Frage 3: Schulden > 15.000 €?
Wenn JA:
→ Entscheidung: Kredit ablehnen
Wenn NEIN:
→ Entscheidung: Kredit bewilligen

Beispielperson A:

Einkommen: 2.500 €
Verpasste Zahlungen: 0
Schulden: 8.000 €

Weg durch den Baum:

Einkommen ≥ 2.000 €? → Ja → weiter zu Frage 2
Verpasste Zahlungen ≥ 2? → Nein → weiter zu Frage 3
Schulden > 15.000 €? → Nein → Kredit bewilligen

Du siehst: Ein Entscheidungsbaum ist wie ein klarer Regelkatalog, der aus Daten gelernt wurde.

7. Quiz: Lineares Modell oder Entscheidungsbaum?

Wähle das Modell, das besser zur Beschreibung passt.

Du findest ein Modell, das aus vielen "Wenn‑dann"‑Regeln mit Schwellenwerten besteht, z. B. "Wenn Alter > 30 und Einkommen > 2.000 €, dann ...". Um welchen Modelltyp handelt es sich typischerweise?

Lineares Modell
Entscheidungsbaum
Keines von beiden, das ist immer ein neuronales Netz

Show Answer

Answer: B) Entscheidungsbaum

Beschreibungen mit vielen Wenn‑dann‑Regeln und Schwellenwerten sind typisch für Entscheidungsbäume. Lineare Modelle arbeiten mit gewichteten Summen von Features, ohne explizite Wenn‑dann‑Regeln. Neuronale Netze können komplexes Verhalten zeigen, werden aber nicht einfach als Sammlung von Wenn‑dann‑Regeln beschrieben.

8. Stärken und Schwächen: Lineare Modelle vs. Entscheidungsbäume

Beide Modelltypen sind einfach, aber haben unterschiedliche Vor‑ und Nachteile.

Lineare Modelle

Stärken:

Einfach und schnell zu trainieren, auch auf großen Datensätzen.
Gut interpretierbar: An den Gewichten siehst du, ob ein Feature die Vorhersage eher erhöht oder senkt.
Funktionieren gut, wenn der Zusammenhang ungefähr linear ist.

Schwächen:

Können komplexe, nichtlineare Zusammenhänge schlecht abbilden (z. B. Effekte, die nur in bestimmten Bereichen auftreten).
Brauchen oft Feature‑Engineering (z. B. zusätzliche abgeleitete Features), um besser zu werden.

Entscheidungsbäume

Stärken:

Sehr anschaulich: Man kann den Baum oft als Grafik zeichnen und Entscheidungen Schritt für Schritt erklären.
Können nichtlineare Zusammenhänge und Interaktionen zwischen Features gut darstellen (z. B. Regeln, die nur gelten, wenn mehrere Bedingungen erfüllt sind).

Schwächen:

Einzelne Bäume können leicht überanpassen (Overfitting): Sie lernen das Training zu genau und generalisieren schlechter.
Kleine Änderungen in den Daten können zu anderen Bäumen führen (sie sind empfindlich gegenüber Datenänderungen).

In der Praxis (Stand Anfang 2026) nutzt man oft Erweiterungen von Entscheidungsbäumen:

z. B. Random Forests oder Gradient Boosting (wie XGBoost, LightGBM, CatBoost), die aus vielen Bäumen bestehen und deutlich leistungsfähiger sind.

Für dieses Modul bleiben wir aber bewusst bei einfachen, einzelnen Bäumen und einfachen linearen Modellen, weil sie die Grundideen sehr gut zeigen.

9. Mini‑Codebeispiel: Lineares Modell vs. Entscheidungsbaum in Python

Der folgende Code zeigt dir konzeptionell, wie man mit `scikit-learn` ein lineares Modell und einen Entscheidungsbaum trainiert. Du musst ihn nicht im Detail verstehen, aber er verbindet die Theorie mit der Praxis.

```python

Dieses Beispiel setzt voraus, dass du Python und scikit-learn installiert hast.

Stand Anfang 2026 ist scikit-learn weiterhin eine der Standardbibliotheken für ML in Python.

from sklearn.linear_model import LinearRegression

from sklearn.tree import DecisionTreeRegressor

from sklearn.modelselection import traintest_split

from sklearn.metrics import meansquarederror

Beispiel: Wir wollen Mietpreise vorhersagen

X = Features (z.B. Wohnfläche, Entfernung zur Innenstadt)

y = Zielvariable (Mietpreis)

Fiktive Daten (normalerweise würdest du echte Daten laden)

import numpy as np

X = np.array([

[40, 2], # 40 m², 2 km

[60, 1], # 60 m², 1 km

[80, 5], # 80 m², 5 km

[30, 0.5], # 30 m², 0.5 km

[100, 3] # 100 m², 3 km

])

y = np.array([700, 950, 900, 650, 1200]) # fiktive Mietpreise

Xtrain, Xtest, ytrain, ytest = traintestsplit(X, y, testsize=0.4, randomstate=42)

1) Lineares Modell

lin_model = LinearRegression()

linmodel.fit(Xtrain, y_train)

linpred = linmodel.predict(X_test)

print("Lineares Modell MSE:", meansquarederror(ytest, linpred))

print("Gewichte (Koeffizienten):", linmodel.coef)

2) Entscheidungsbaum

Treemodel = DecisionTreeRegressor(maxdepth=3, random_state=42)

Treemodel.fit(Xtrain, y_train)

treepred = Treemodel.predict(X_test)

print("Entscheidungsbaum MSE:", meansquarederror(ytest, treepred))

```

Achte darauf:

Beim linearen Modell kannst du dir die Gewichte (`coef_`) anschauen.
Beim Entscheidungsbaum kannst du dir den Baum z. B. mit `sklearn.tree.plot_tree` visualisieren (in einem Notebook).

10. Wiederholung: Zentrale Begriffe

Nutze die Karteikarten, um die wichtigsten Begriffe aus diesem Modul zu wiederholen.

Lineares Modell (intuitive Definition): Ein Modell, das eine Vorhersage als gewichtete Summe von Features plus einem Grundwert berechnet. Jedes Feature hat ein Gewicht, das den Einfluss auf die Vorhersage beschreibt.
Gewicht (Koeffizient): Eine Zahl in einem linearen Modell, die angibt, wie stark ein Feature die Vorhersage erhöht oder senkt. Positives Gewicht: erhöht die Vorhersage, negatives Gewicht: senkt sie.
Bias / Achsenabschnitt: Der Grundwert in einem linearen Modell – die Vorhersage, wenn alle Features den Wert 0 hätten.
Entscheidungsbaum: Ein Modell, das Vorhersagen trifft, indem es eine Folge von Ja/Nein-Fragen (auf Basis von Features und Schwellenwerten) stellt und am Ende eine Entscheidung in einem Blattknoten ausgibt.
Overfitting (Überanpassung) bei Bäumen: Wenn ein Entscheidungsbaum die Trainingsdaten zu genau auswendig lernt und dadurch auf neuen Daten schlechtere Vorhersagen macht.
Interpretierbarkeit: Wie gut Menschen nachvollziehen können, warum ein Modell eine bestimmte Vorhersage trifft. Lineare Modelle und einfache Entscheidungsbäume gelten als gut interpretierbar.

Key Terms

Label: Zielgröße, die ein Modell vorhersagen soll, z. B. Preis, Klasse oder Risiko‑Score.
Feature: Messbare Eingangsgröße eines Modells, z. B. Alter, Einkommen oder Wohnfläche.
Lineares Modell: Modellfamilie, bei der die Vorhersage als gewichtete Summe der Eingabefeatures plus einem Grundwert berechnet wird. Beispiele sind lineare Regression und logistische Regression.
Entscheidungsbaum: Baumstruktur aus aufeinanderfolgenden Entscheidungen (Knoten mit Fragen und Schwellenwerten), die zu Vorhersagen in Blattknoten führen.
Interpretierbarkeit: Eigenschaft eines Modells, die beschreibt, wie gut Menschen seine Entscheidungen verstehen und erklären können.
Gewicht (Koeffizient): Parameter in einem linearen Modell, der die Stärke und Richtung des Einflusses eines Features auf die Vorhersage angibt.
Bias / Achsenabschnitt: Konstanter Grundwert in einem linearen Modell, der zur gewichteten Summe der Features addiert wird.
Overfitting (Überanpassung): Situation, in der ein Modell die Trainingsdaten sehr gut, neue Daten aber schlecht vorhersagt, weil es auch Zufallsmuster im Training gelernt hat.