🎯 Klassifizierer-Werkstatt

Vier Klassifizierungsverfahren des maschinellen Lernens — interaktiv erkunden, eigene Modelle bauen, Funktionsweise verstehen

k-Nächste Nachbarn

🔨 Modell-Aufbau · Schritt 1 / 1
Tempo: 1.0×
3
3
Klasse:
📚 Lernen & Forschen: Aufträge, Ziele & Hintergrund

🎯 Was sollst du am Ende können?

  • Erklären, wie der k-Nächste-Nachbarn-Algorithmus (k-NN) einen neuen Punkt klassifiziert
  • Beschreiben, was sich ändert, wenn man k kleiner oder größer macht
  • Beurteilen, in welchen Situationen k-NN gut oder schlecht funktioniert
  • Erkennen, dass dieses Verfahren keine wirkliche „Lernphase" braucht

📝 Arbeitsaufträge

🟢 Einstieg — beobachten und beschreiben 🔵 Vertiefung — eigene Schlüsse ziehen 🟠 Forderung — selbst untersuchen
🟢 Einstieg Aufgabe 1: Lade das Szenario „Drei klare Cluster" über den Knopf „📋 Szenario laden". Bewege die Maus über die Fläche. Was siehst du am Cursor? Was passiert in der Tabelle rechts?
🟢 Einstieg Aufgabe 2: Klicke auf „🔨 Modell aufbauen" und schau dir die Erklär-Schritte an. Schreibe in zwei Sätzen auf, wie der Algorithmus eine neue Vorhersage trifft.
🟢 Einstieg Aufgabe 3: Lade „Insel im Meer". Schiebe den Regler „Anzahl Nachbarn k" auf 1, dann auf 9. Zeichne (oder beschreibe), wie sich die farbige Vorhersage-Karte verändert.
🔵 Vertiefung Aufgabe 4: Lösche alle Punkte. Setze 5 rote Punkte in eine Ecke und 5 blaue Punkte in die gegenüberliegende Ecke. Setze nun einen einzelnen blauen Punkt mitten zwischen die roten. Was passiert bei k=1, was bei k=5? Erkläre den Unterschied mit eigenen Worten.
🔵 Vertiefung Aufgabe 5: Stell dir vor, ein Streaming-Dienst möchte dir Filme empfehlen. Er kennt für jeden Film deiner Freunde, ob er ihnen gefallen hat. Wie könnte k-NN bei der Empfehlung helfen? Was wären in diesem Fall die „Nachbarn"?
🔵 Vertiefung Aufgabe 6: Berechne die Distanz zwischen den Punkten P(2|3) und Q(5|7) mit der Formel aus dem Hintergrundwissen unten. Vergleiche dein Ergebnis mit dem Wert, der im Tool angezeigt wird, wenn du diese Punkte setzt.
🟠 Forderung Aufgabe 7: Stelle einen Vergleichsversuch auf: Lade nacheinander drei verschiedene Szenarien und teste jeweils k=1, k=5 und k=11. Halte deine Ergebnisse in einer Tabelle fest. Bei welcher Datenform ist welches k am besten? Formuliere eine Empfehlung in drei Sätzen.
🟠 Forderung Aufgabe 8: Was passiert bei k = Gesamtzahl der Punkte? Probiere es aus und erkläre dein Ergebnis. Welcher Nachteil ergibt sich daraus für die praktische Nutzung?

🔍 Beobachtungsfragen beim „Modell aufbauen"

  • An welchen Stellen in der Fläche ist die Vorhersage besonders unsicher? Was haben diese Stellen gemeinsam?
  • Wann ändert sich die Vorhersage, wenn du den Cursor nur ein bisschen bewegst?
  • Schaue dir die Stimmen-Auszählung rechts an: Gibt es Stellen, an denen die Stimmen knapp sind?
💡 Hintergrundwissen (für Wissbegierige)

Was bedeutet „Distanz"? Die Entfernung zwischen zwei Punkten P(x₁|y₁) und Q(x₂|y₂) berechnen wir mit dem Satz des Pythagoras:

d = √((x₂−x₁)² + (y₂−y₁)²)

Das nennt man Euklidische Distanz — die ganz normale Entfernung, wie man sie mit einem Lineal messen würde. Im Tool benutzen wir genau diese Formel.

Warum gerade k? Die Wahl von k ist ein Kompromiss:

Sehr kleines k (z. B. k=1): Reagiert sehr empfindlich auf einzelne Ausreißer. Die Grenzen werden „zackig".
Sehr großes k: Die lokalen Eigenschaften gehen verloren, die Vorhersage wird zu „verwaschen".

In der Praxis probiert man verschiedene Werte aus und nimmt den, der am besten funktioniert.

Warum nennt man k-NN „faul"? Die meisten Lernverfahren bauen vor der Anwendung ein Modell auf (z. B. eine Geradengleichung). k-NN macht das nicht — es speichert nur die Trainingsdaten und rechnet erst bei jeder neuen Anfrage los. Das ist einfach, kann aber bei großen Datensätzen langsam werden.

Wo wird k-NN in der Praxis eingesetzt?

  • Empfehlungssysteme: „Andere Nutzer, die dir ähnlich sind, mochten auch …"
  • Handschrifterkennung: Ein Buchstabe wird mit ähnlichen, bekannten Buchstaben verglichen.
  • Medizinische Diagnose: Symptome eines neuen Patienten mit bekannten Fällen vergleichen.

Live-Berechnung

Bewege die Maus über die Fläche…

Distanztabelle (Top 8)

Stimmen-Auszählung

Linearer Klassifizierer

🔨 Modell-Aufbau · Schritt 1 / 1
Tempo: 1.0×
0.10
500
3
Klasse:
📚 Lernen & Forschen: Aufträge, Ziele & Hintergrund

🎯 Was sollst du am Ende können?

  • Erklären, wie ein Linearer Klassifizierer mit Geradengleichungen Klassen unterscheidet
  • Beschreiben, was beim Training Schritt für Schritt passiert
  • Erkennen, welche Probleme dieses Verfahren nicht lösen kann
  • Den Bezug zwischen linearen Funktionen aus dem Matheunterricht und KI-Modellen erklären

📝 Arbeitsaufträge

🟢 Einstieg — beobachten und beschreiben 🔵 Vertiefung — eigene Schlüsse ziehen 🟠 Forderung — selbst untersuchen
🟢 Einstieg Aufgabe 1: Lade das Szenario „Linear trennbar (3 Klassen)". Klicke einmal auf „1 Schritt". Was siehst du im Diagramm? Klicke jetzt mehrfach auf „+10 Schritte" und beobachte, wie sich die Trennlinien verändern.
🟢 Einstieg Aufgabe 2: Klicke nach jedem Trainingsschritt auf das Panel „Genauigkeit" rechts. Wie verändert sich der Prozentwert? Notiere drei Werte (z. B. nach 10, 100, 500 Schritten).
🟢 Einstieg Aufgabe 3: Bewege die Maus über die Fläche und schau dir rechts den „Score" für jede Klasse an. Welche Klasse hat den höchsten Wert? Was bedeutet das für die Vorhersage?
🔵 Vertiefung Aufgabe 4: Klicke auf „🔨 Modell aufbauen". Verfolge im Banner, wie der Algorithmus die Gewichte verändert. Im Mathematikunterricht hast du die Funktionsgleichung f(x) = m·x + b kennengelernt. Was bedeuten dort m und b — und wo findest du diese Größen hier wieder?
🔵 Vertiefung Aufgabe 5: Lade das Szenario „XOR (linear unmöglich)". Trainiere komplett. Bei wie viel Prozent Genauigkeit bleibt das Modell hängen? Erkläre an einer Skizze, warum eine einzelne Gerade die zwei diagonal verteilten Klassen nicht trennen kann.
🔵 Vertiefung Aufgabe 6: Verändere die Lernrate η auf 0,01 und dann auf 0,5. Trainiere jeweils komplett. Welche Lernrate führt schneller zum Ziel? Welche kann zu Problemen führen? Begründe mit deinen Beobachtungen.
🟠 Forderung Aufgabe 7: Lies aus dem Panel „Aktuelle Gewichte" für Klasse A die Werte für w₁, w₂ und b ab. Schreibe die Geradengleichung w₁·x + w₂·y + b = 0 mit diesen Werten auf. Skizziere die Gerade in einem Koordinatensystem. Stimmt sie mit dem Bild im Tool überein?
🟠 Forderung Aufgabe 8: Stelle eine Hypothese auf: Welche Art von Datensätzen kann ein linearer Klassifizierer „immer" lösen, welche „nie"? Teste deine Hypothese mit mindestens drei Szenarien und protokolliere die Ergebnisse.
🟠 Forderung Aufgabe 9 (Forschen): Recherchiere, was ein neuronales Netz ist und wie es das XOR-Problem löst, das der einzelne lineare Klassifizierer nicht lösen kann. Stelle eine kurze Erklärung in der Klasse vor.

🔍 Beobachtungsfragen beim „Modell aufbauen"

  • Welche Gewichte verändern sich beim ersten Schritt? Schaue im Panel „Letzte Lernschritte" nach.
  • Wann „beruhigen sich" die Gewichte und ändern sich nur noch wenig?
  • Klicke mehrmals auf „Reset Gewichte" und „Komplett trainieren". Sehen die Trennlinien immer gleich aus?
💡 Hintergrundwissen (für Wissbegierige)

Bezug zu linearen Funktionen aus der Mathematik: Im Matheunterricht kennst du y = m·x + b. Genau diese Form wird hier verwendet, nur etwas anders geschrieben: w₁·x + w₂·y + b = 0. Das ist die Gleichung der Trennlinie zwischen zwei Klassen.

Was sind „Gewichte"? Jede Klasse hat ihre eigene Geradengleichung mit drei Zahlen: w₁, w₂, b. Diese Zahlen heißen Gewichte, weil sie bestimmen, wie stark die Position eines Punktes (x|y) in die Entscheidung „einfließt".

Wie funktioniert das Training (Perceptron-Regel)? Bei jedem Lernschritt prüft der Algorithmus einen zufällig ausgewählten Trainingspunkt:

  • Wenn die Vorhersage richtig war: nichts ändern.
  • Wenn die Vorhersage falsch war: die Gewichte der richtigen Klasse erhöhen und die der falsch vorhergesagten Klasse verringern.

Auf diese Weise „lernt" das Modell aus seinen Fehlern.

Die Lernrate η (eta): Diese Zahl steuert, wie stark eine einzelne Korrektur ist. Klein = vorsichtig, aber langsam. Groß = schnell, aber kann „überschießen".

Warum scheitert das Modell bei XOR? Beim XOR-Problem liegen die Klassen diagonal verteilt. Egal wie du eine einzelne Gerade legst — eine der beiden Klassen wird immer geteilt. Das ist mathematisch beweisbar. Erst mehrere Geraden in Kombination (das ist das Prinzip neuronaler Netze) können XOR lösen.

Geschichte: Der lineare Klassifizierer („Perceptron") wurde 1957 von Frank Rosenblatt erfunden. Die Erkenntnis, dass er XOR nicht lösen kann (1969), führte zu einer jahrzehntelangen Pause in der KI-Forschung — dem sogenannten „KI-Winter".

Wo wird das heute genutzt?

  • Spam-Filter: E-Mails werden anhand von Wortauftretens-Mustern in „Spam" oder „kein Spam" eingeordnet.
  • Bonitätsprüfung: Banken schätzen auf Grundlage von Daten (Einkommen, Alter, …) ein, ob ein Kredit zurückgezahlt wird.
  • Lineare Klassifizierer sind Bausteine in jedem modernen neuronalen Netz (z. B. ChatGPT, Bildgeneratoren).

Trainingsverlauf

Aktuelle Gewichte

Genauigkeit

Noch nicht trainiert.

Letzte Lernschritte

Live: Vorhersage für Mauspunkt

Bewege die Maus über die Fläche…

Entscheidungsbaum

🔨 Modell-Aufbau · Schritt 1 / 1
Tempo: 1.0×
4
3
Klasse:
📚 Lernen & Forschen: Aufträge, Ziele & Hintergrund

🎯 Was sollst du am Ende können?

  • Erklären, wie ein Entscheidungsbaum durch eine Folge von Ja/Nein-Fragen klassifiziert
  • Beschreiben, wonach der Algorithmus die Schnittstellen auswählt
  • Den Begriff der Reinheit einer Punktmenge anhand eines einfachen Beispiels berechnen
  • Erkennen, dass tiefe Bäume zwar perfekt auf den Trainingsdaten passen, aber nicht immer gut verallgemeinern

📝 Arbeitsaufträge

🟢 Einstieg — beobachten und beschreiben 🔵 Vertiefung — eigene Schlüsse ziehen 🟠 Forderung — selbst untersuchen
🟢 Einstieg Aufgabe 1: Lade „Vier Quadranten". Klicke einmal auf „1 Split mehr". Welche Linie wird ins Diagramm gezeichnet — waagerecht oder senkrecht? Wo? Schau dir auch den Baum rechts an.
🟢 Einstieg Aufgabe 2: Klicke immer wieder auf „1 Split mehr", bis der Baum nicht mehr wächst. Schau dir die Baumstruktur rechts an. Was bedeuten die runden farbigen Kreise am Ende?
🟢 Einstieg Aufgabe 3: Bewege die Maus über die Fläche und beobachte rechts den „Pfad für Mauspunkt". Stell dir vor, du wärst der Algorithmus. Welche Fragen stellst du, um den Mauspunkt einer Klasse zuzuordnen?
🔵 Vertiefung Aufgabe 4: Erkläre einer Mitschülerin oder einem Mitschüler in eigenen Worten, was passiert, wenn du auf „🔨 Modell aufbauen" klickst. Verwende die Begriffe Knoten, Blatt, Split, Reinheit.
🔵 Vertiefung Aufgabe 5: Stelle die maximale Baumtiefe nacheinander auf 1, 2, 4 und 10. Baue jedes Mal den Baum komplett auf. Was passiert mit der Anzahl der Blätter? Was mit der Trainings-Genauigkeit?
🔵 Vertiefung Aufgabe 6 — Reinheit berechnen: In einer Klasse sitzen 6 Mädchen und 4 Jungen. Wie „rein" ist diese Klasse bezüglich des Geschlechts? Rechne mit der Formel: G = 1 − (Anteil₁)² − (Anteil₂)². Ergebnis prüfen: 1 − 0,6² − 0,4² = 1 − 0,36 − 0,16 = 0,48. Was bedeutet das?
🟠 Forderung Aufgabe 7: Lade XOR. Trainiere den Baum komplett. Mit wie vielen Schnitten löst der Baum dieses Problem? Klicke zum Vergleich in den Tab „Linearer Klassifizierer" und teste dort dasselbe Szenario. Welcher Klassifizierer löst es besser? Begründe mit einer mathematischen Argumentation.
🟠 Forderung Aufgabe 8: Lade „Verrauschte 3 Klassen". Baue den Baum bei Tiefe 10 auf. Die Trainings-Genauigkeit ist hoch — aber stell dir vor, neue Daten kommen hinzu. Diskutiere: Wäre das Modell für neue Daten gut geeignet? Schlage Wege vor, das zu verbessern.
🟠 Forderung Aufgabe 9 — Eigener Datensatz: Lösche alle Punkte. Konstruiere mit eigenen Punkten einen Datensatz, bei dem der Baum genau 3 Splits braucht. Beschreibe deine Konstruktion und überprüfe sie mit dem Tool.

🔍 Beobachtungsfragen beim „Modell aufbauen"

  • Schaue dir den Baum rechts an. Halte den Mauszeiger über einen Knoten. Welche Informationen werden eingeblendet?
  • Wo macht der Algorithmus den ersten Schnitt? Warum gerade dort?
  • Welche Form haben die Entscheidungsgrenzen im großen Diagramm? Warum kann der Baum keine schrägen Linien zeichnen?
💡 Hintergrundwissen (für Wissbegierige)

Was ist „Reinheit"? Ein Knoten im Baum enthält eine Menge Punkte. Wenn alle Punkte zur selben Klasse gehören, ist der Knoten rein. Wenn die Punkte gemischt sind, ist er unrein. Der Algorithmus möchte die Knoten möglichst rein machen.

Die Gini-Formel: Wir messen Unreinheit mit:

G = 1 − (Anteil₁)² − (Anteil₂)² − …

Beispiel: 10 Punkte, davon 6 rot und 4 blau. Anteile: 0,6 und 0,4. Daraus: G = 1 − 0,36 − 0,16 = 0,48. Maximaler Wert bei 2 Klassen ist 0,5 (50/50-Mischung), Minimum ist 0 (nur eine Klasse).

Wie wählt der Algorithmus einen Schnitt? An jedem Knoten probiert er alle möglichen Schwellenwerte für x und für y aus. Er wählt den Schnitt, der die Unreinheit am stärksten verringert.

Warum sind die Schnitte immer waagerecht oder senkrecht? Weil der Baum nur Fragen der Art „Ist x kleiner als 7?" oder „Ist y kleiner als 12?" stellt. Mit solchen Fragen können nur Linien parallel zu den Achsen entstehen.

Was ist „Overfitting"? Wenn man den Baum sehr tief wachsen lässt, kann er die Trainingsdaten perfekt einsortieren. Aber er hat dann „auswendig gelernt" und macht bei neuen Daten oft Fehler. Das nennt man Überanpassung. Lösung: die Tiefe begrenzen oder Knoten mit zu wenigen Punkten nicht weiter teilen.

Wo wird das in der Praxis genutzt?

  • Medizinische Diagnose: Entscheidungsbäume helfen Ärzten, Krankheiten anhand von Symptomen einzuordnen. Sie sind besonders nützlich, weil sie nachvollziehbar sind („Wenn Fieber > 38,5 °C und Husten ja, dann …").
  • Bonitätsprüfung: Banken nutzen Bäume, um zu entscheiden, ob ein Kunde einen Kredit bekommt.
  • Random Forests: In der Praxis kombiniert man oft viele Bäume. Jeder sieht nur einen Teil der Daten — das Endergebnis ist meist viel besser als ein einzelner Baum.

Vorteil gegenüber neuronalen Netzen: Bei einem Entscheidungsbaum kann man jede einzelne Entscheidung erklären. Bei einem neuronalen Netz ist das oft nicht möglich — daher werden Bäume in sensiblen Bereichen (Medizin, Recht) bevorzugt.

Baumstruktur

Noch kein Baum gebaut.

Aufbau-Protokoll

Live: Pfad für Mauspunkt

Bewege die Maus über die Fläche…

k-Means (Clustering)

🔨 Modell-Aufbau · Schritt 1 / 1
Tempo: 1.0×
3
Unüberwachtes Verfahren: einfach Punkte setzen — k-Means findet die Cluster selbst
📚 Lernen & Forschen: Aufträge, Ziele & Hintergrund

🎯 Was sollst du am Ende können?

  • Den Unterschied zwischen Klassifikation (mit Labels) und Clustering (ohne Labels) erklären
  • Die zwei Schritte des k-Means-Algorithmus (Zuordnen und Verschieben) beschreiben
  • Erkennen, dass das Ergebnis von der zufälligen Startposition der Zentren abhängt
  • Beurteilen, wann k-Means gut und wann er schlecht funktioniert

📝 Arbeitsaufträge

🟢 Einstieg — beobachten und beschreiben 🔵 Vertiefung — eigene Schlüsse ziehen 🟠 Forderung — selbst untersuchen
🟢 Einstieg Aufgabe 1: Lade „Drei klare Cluster". Was fällt dir im Vergleich zu den anderen Verfahren auf? Tipp: Sind die Punkte hier eingefärbt?
🟢 Einstieg Aufgabe 2: Klicke „Init Zentren". Was passiert? Klicke nun einmal „Schritt", dann noch einmal „Schritt". Beschreibe in eigenen Worten, was nacheinander passiert.
🟢 Einstieg Aufgabe 3: Klicke auf „🔨 Modell aufbauen". Wie viele Schritte braucht der Algorithmus, bis er fertig ist?
🔵 Vertiefung Aufgabe 4 — Mehrere Versuche: Lade dasselbe Szenario fünfmal hintereinander und drücke jeweils „Init Zentren" und „Bis Konvergenz". Sind die Endergebnisse immer gleich? Erkläre dein Beobachtungsergebnis.
🔵 Vertiefung Aufgabe 5: Lade „Falsches k (Daten: 2, k: 3)". Es gibt nur zwei echte Cluster in den Daten, aber wir bitten den Algorithmus, drei zu finden. Beschreibe das Ergebnis und erkläre, warum k-Means das nicht „bemerken" kann.
🔵 Vertiefung Aufgabe 6 — Überwacht vs. unüberwacht: Beim k-Means setzen wir keine Farben (Klassen) für die Punkte. Bei den anderen drei Verfahren schon. Erkläre, warum dieser Unterschied so wichtig ist. Was kann k-Means anderen Verfahren voraus haben?
🟠 Forderung Aufgabe 7: Lade „Langgestreckte Cluster". Probiere k=2, dann k=3, dann k=4 aus. Bei welchem k findet der Algorithmus die zwei diagonalen Linien? Wenn er sie nicht findet — warum nicht?
🟠 Forderung Aufgabe 8 — Anwendung finden: Sammle drei reale Beispiele, in denen man Daten ohne Klassen-Labels in Gruppen einteilen möchte. Tipp: denke an Streaming-Dienste, Online-Shops oder soziale Netzwerke.
🟠 Forderung Aufgabe 9 — Recherche: Recherchiere, wie viele Cluster es bei der Farbquantisierung eines Bildes typischerweise gibt (z. B. wenn man ein Foto auf eine GIF-Datei reduziert). Wie könnte k-Means dabei eingesetzt werden?

🔍 Beobachtungsfragen beim „Modell aufbauen"

  • Wann verschieben sich die Zentren am weitesten — am Anfang oder am Ende?
  • Wie erkennt das Programm, dass es fertig ist (Konvergenz)?
  • Schau dir das Schritt-Protokoll rechts an: Wie viele Punkte wechseln in den späteren Schritten noch die Gruppe?
💡 Hintergrundwissen (für Wissbegierige)

Überwachtes vs. unüberwachtes Lernen:

  • Überwachtes Lernen: Wir geben dem Algorithmus Beispiele mit der „richtigen Antwort" (z. B. Bild + „Hund"). Er lernt daraus. So funktionieren k-NN, lineare Klassifizierer und Entscheidungsbäume.
  • Unüberwachtes Lernen: Wir geben dem Algorithmus nur die Daten ohne richtige Antworten. Er soll selbst Strukturen finden. So funktioniert k-Means.

Die beiden Schritte von k-Means:

  • Zuordnen (E-Schritt): Jeder Punkt wird dem Zentrum zugeordnet, das am nächsten ist (Distanz mit dem Satz des Pythagoras).
  • Verschieben (M-Schritt): Jedes Zentrum wird auf den Mittelpunkt (Schwerpunkt) seiner zugeordneten Punkte verschoben.

Beide Schritte werden abwechselnd wiederholt, bis sich nichts mehr ändert.

Warum kann das Ergebnis schwanken? Die Startpositionen der Zentren werden zufällig ausgewählt. Manchmal ist die Startwahl ungünstig, dann findet der Algorithmus nur eine „ganz okay"-Lösung statt der besten. Das nennt man lokales Optimum. In der Praxis lässt man k-Means deshalb oft mehrfach laufen.

Wann k-Means gut funktioniert:

  • Wenn die Cluster ungefähr kreisförmig sind
  • Wenn sie ungefähr gleich groß sind
  • Wenn man weiß, wie viele Cluster man sucht (k)

Wann k-Means versagt: Bei langgestreckten, ringförmigen oder ineinander verschachtelten Strukturen. Dort braucht es andere Verfahren (z. B. DBSCAN, das auch komplizierte Formen erkennt).

Praktische Anwendungen:

  • Marketing: Kunden in Gruppen einteilen („junge Familien", „Single-Studierende"), um gezielt zu werben.
  • Bildverarbeitung: Anzahl der verwendeten Farben reduzieren (z. B. für GIFs).
  • Sortierung: Ähnliche Artikel in einem Online-Shop gruppieren.
  • Biologie: Gene oder Zelltypen anhand ihrer Eigenschaften gruppieren.

Algorithmus-Status

Setze Punkte in die Fläche oder lade ein Szenario.

Schritt-Protokoll

Cluster-Größen

Live: Zuweisung für Mauspunkt

Bewege die Maus über die Fläche…