4.1 Einführung

Bei der Klassifikation werden neue Datensätze aufgrund ihrer Attributwerte in vorhandene Klassen eingeordnet. Dies geschieht mithilfe von Trainingsdaten, also bereits vorhandenen Datensätzen und deren Klassen. Es können zwei Ansätze unterschieden werden:

  • Instanzenbasierte Verfahren: Die Klassifizierung erfolgt, indem ein neuer Datensatz mit vorhandenen Beispieldatensätzen, eben den Instanzen, und deren Klassen verglichen wird. Der neue Datensatz wird in die Klasse einsortiert, deren vorhandene Datensätze am ähnlichsten sind.
  • Modellbasierte Verfahren: Mit diesem Ansatz wird mithilfe der vorhandenen Datensätze und deren Klassen ein Modell erstellt. Neue Datensätze werden aufgrund dieses Modells klassifiziert. Die für den Modellaufbau genutzten Datensätze werden dabei nicht mehr betrachtet.

Typische Beispiele für die Klassifizierung sind:

  • die Überprüfung der Kreditwürdigkeit neuer Kunden
  • Identifizierung von Kunden, die kündigen wollen
  • die Einordnung von Bildern in Kategorien

Die Klassifizierung von Bildern wird in diesem Kapitel nicht weiter betrachtet. Dies erfolgt im Kapitel Deep Learning.

Die Klassifikation ist eines der wichtigsten Teilgebiete des Machine Learning, denn in der Praxis wird ständig klassifiziert - Kunden, Produkte, Ereignisse, Maschinenteile, Texte, Fehler, usw. Und in allen Bereichen sind Verbesserungen möglich, wenn man die vorhandenen Daten besser versteht. Unabhängig davon, welche Art von Daten klassifiziert werden sollen, immer sind drei Schritte durchzuführen: Training, Test und Einsatz.

Arbeitsschritte bei der Klassifikation

Abbildung 4.1: Arbeitsschritte bei der Klassifikation

Zunächst wird das Verfahren mit vorhandenen Datensätzen trainiert, deren Klasse bekannt ist. Anschließend wird mit weiteren Datensätzen getestet, deren Klasse ebenfalls bekannt ist, ob bzw. wie häufig das Verfahren die richtige Klasse voraussagt. Falls diese Häufigkeit den Ansprüchen genügt, kann von nun an mit dem trainierten Verfahren für neue Datensätze, deren Klasse nicht bekannt ist, die erwartete Klasse vorhergesagt werden. Man geht dabei davon aus, dass die Trainingsdaten auch für die zukünftigen Daten repräsentativ sind.

Sämtliche Verfahren, die im Weiteren vorgestellt werden, basieren auf diesen drei Schritten. Im Übrigen spricht man bei der Klassifikation von überwachtem Lernen (supervised Learning), weil beim Training und beim Test auf vorhandenen Daten mit bekannten Klassen aufgebaut wird.