Was bedeutet „Distanz"? Die Entfernung zwischen zwei Punkten P(x₁|y₁) und Q(x₂|y₂) berechnen wir mit dem Satz des Pythagoras:
d = √((x₂−x₁)² + (y₂−y₁)²)
Das nennt man Euklidische Distanz — die ganz normale Entfernung, wie man sie mit einem Lineal messen würde. Im Tool benutzen wir genau diese Formel.
Warum gerade k? Die Wahl von k ist ein Kompromiss:
• Sehr kleines k (z. B. k=1): Reagiert sehr empfindlich auf einzelne Ausreißer. Die Grenzen werden „zackig".
• Sehr großes k: Die lokalen Eigenschaften gehen verloren, die Vorhersage wird zu „verwaschen".
In der Praxis probiert man verschiedene Werte aus und nimmt den, der am besten funktioniert.
Warum nennt man k-NN „faul"? Die meisten Lernverfahren bauen vor der Anwendung ein Modell auf (z. B. eine Geradengleichung). k-NN macht das nicht — es speichert nur die Trainingsdaten und rechnet erst bei jeder neuen Anfrage los. Das ist einfach, kann aber bei großen Datensätzen langsam werden.
Wo wird k-NN in der Praxis eingesetzt?
f(x) = m·x + b kennengelernt. Was bedeuten dort m und b — und wo findest du diese Größen hier wieder?
w₁, w₂ und b ab. Schreibe die Geradengleichung w₁·x + w₂·y + b = 0 mit diesen Werten auf. Skizziere die Gerade in einem Koordinatensystem. Stimmt sie mit dem Bild im Tool überein?
Bezug zu linearen Funktionen aus der Mathematik: Im Matheunterricht kennst du y = m·x + b. Genau diese Form wird hier verwendet, nur etwas anders geschrieben: w₁·x + w₂·y + b = 0. Das ist die Gleichung der Trennlinie zwischen zwei Klassen.
Was sind „Gewichte"? Jede Klasse hat ihre eigene Geradengleichung mit drei Zahlen: w₁, w₂, b. Diese Zahlen heißen Gewichte, weil sie bestimmen, wie stark die Position eines Punktes (x|y) in die Entscheidung „einfließt".
Wie funktioniert das Training (Perceptron-Regel)? Bei jedem Lernschritt prüft der Algorithmus einen zufällig ausgewählten Trainingspunkt:
Auf diese Weise „lernt" das Modell aus seinen Fehlern.
Die Lernrate η (eta): Diese Zahl steuert, wie stark eine einzelne Korrektur ist. Klein = vorsichtig, aber langsam. Groß = schnell, aber kann „überschießen".
Warum scheitert das Modell bei XOR? Beim XOR-Problem liegen die Klassen diagonal verteilt. Egal wie du eine einzelne Gerade legst — eine der beiden Klassen wird immer geteilt. Das ist mathematisch beweisbar. Erst mehrere Geraden in Kombination (das ist das Prinzip neuronaler Netze) können XOR lösen.
Geschichte: Der lineare Klassifizierer („Perceptron") wurde 1957 von Frank Rosenblatt erfunden. Die Erkenntnis, dass er XOR nicht lösen kann (1969), führte zu einer jahrzehntelangen Pause in der KI-Forschung — dem sogenannten „KI-Winter".
Wo wird das heute genutzt?
1 − 0,6² − 0,4² = 1 − 0,36 − 0,16 = 0,48. Was bedeutet das?
Was ist „Reinheit"? Ein Knoten im Baum enthält eine Menge Punkte. Wenn alle Punkte zur selben Klasse gehören, ist der Knoten rein. Wenn die Punkte gemischt sind, ist er unrein. Der Algorithmus möchte die Knoten möglichst rein machen.
Die Gini-Formel: Wir messen Unreinheit mit:
G = 1 − (Anteil₁)² − (Anteil₂)² − …
Beispiel: 10 Punkte, davon 6 rot und 4 blau. Anteile: 0,6 und 0,4. Daraus: G = 1 − 0,36 − 0,16 = 0,48. Maximaler Wert bei 2 Klassen ist 0,5 (50/50-Mischung), Minimum ist 0 (nur eine Klasse).
Wie wählt der Algorithmus einen Schnitt? An jedem Knoten probiert er alle möglichen Schwellenwerte für x und für y aus. Er wählt den Schnitt, der die Unreinheit am stärksten verringert.
Warum sind die Schnitte immer waagerecht oder senkrecht? Weil der Baum nur Fragen der Art „Ist x kleiner als 7?" oder „Ist y kleiner als 12?" stellt. Mit solchen Fragen können nur Linien parallel zu den Achsen entstehen.
Was ist „Overfitting"? Wenn man den Baum sehr tief wachsen lässt, kann er die Trainingsdaten perfekt einsortieren. Aber er hat dann „auswendig gelernt" und macht bei neuen Daten oft Fehler. Das nennt man Überanpassung. Lösung: die Tiefe begrenzen oder Knoten mit zu wenigen Punkten nicht weiter teilen.
Wo wird das in der Praxis genutzt?
Vorteil gegenüber neuronalen Netzen: Bei einem Entscheidungsbaum kann man jede einzelne Entscheidung erklären. Bei einem neuronalen Netz ist das oft nicht möglich — daher werden Bäume in sensiblen Bereichen (Medizin, Recht) bevorzugt.
Überwachtes vs. unüberwachtes Lernen:
Die beiden Schritte von k-Means:
Beide Schritte werden abwechselnd wiederholt, bis sich nichts mehr ändert.
Warum kann das Ergebnis schwanken? Die Startpositionen der Zentren werden zufällig ausgewählt. Manchmal ist die Startwahl ungünstig, dann findet der Algorithmus nur eine „ganz okay"-Lösung statt der besten. Das nennt man lokales Optimum. In der Praxis lässt man k-Means deshalb oft mehrfach laufen.
Wann k-Means gut funktioniert:
Wann k-Means versagt: Bei langgestreckten, ringförmigen oder ineinander verschachtelten Strukturen. Dort braucht es andere Verfahren (z. B. DBSCAN, das auch komplizierte Formen erkennt).
Praktische Anwendungen: