Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Ablauf des Maschinellen Lernens | Konzepte des Maschinellen Lernens
ML-Einführung Mit Scikit-Learn

bookAblauf des Maschinellen Lernens

Betrachten wir den Workflow, den man durchläuft, um ein erfolgreiches Machine-Learning-Projekt zu erstellen.

Schritt 1. Datenbeschaffung

Zunächst Problemstellung definieren und festlegen, welche Daten benötigt werden. Eine Metrik zur Bewertung der Leistung auswählen und bestimmen, welches Ergebnis als zufriedenstellend gilt.

Anschließend die Daten sammeln, häufig aus mehreren Quellen wie Datenbanken, und in ein für die Verarbeitung in Python geeignetes Format bringen.

Sind die Daten bereits in einer .csv-Datei verfügbar, kann die Vorverarbeitung sofort beginnen und dieser Schritt ggf. übersprungen werden.

Beispiel

Ein Krankenhaus stellt historische Patientendaten aus seiner Datenbank sowie demografische Informationen aus einer nationalen Gesundheitsdatenbank zur Verfügung, zusammengefasst in einer CSV-Datei. Die Aufgabe besteht darin, Patientenwiedereinweisungen vorherzusagen, wobei eine Genauigkeit von über 80 % als Zielmetrik für eine zufriedenstellende Leistung definiert ist.

Schritt 2. Datenvorverarbeitung

Dieser Schritt umfasst:

  • Datenbereinigung: Umgang mit fehlenden Werten, nicht-numerischen Daten usw.;
  • Explorative Datenanalyse (EDA): Analyse und Visualisierung des Datensatzes, um Muster und Zusammenhänge zwischen Merkmalen zu erkennen und allgemein Erkenntnisse darüber zu gewinnen, wie das Trainingsset verbessert werden kann;
  • Feature Engineering: Auswahl, Transformation oder Erstellung neuer Merkmale basierend auf EDA-Erkenntnissen zur Verbesserung der Modellleistung.

Beispiel

Im Krankenhausdatensatz können fehlende Werte für wichtige Kennzahlen wie Blutdruck ergänzt und kategoriale Variablen wie Ethnie in numerische Codes für die Analyse umgewandelt werden.

Schritt 3. Modellierung

Dieser Schritt umfasst:

  • Modellauswahl: Auswahl eines oder mehrerer Modelle, die am besten für das Problem geeignet sind, basierend auf den Eigenschaften der Algorithmen und den experimentellen Ergebnissen;
  • Hyperparameter-Optimierung: Anpassung der Hyperparameter, um die bestmögliche Leistung zu erzielen.
Note
Mehr erfahren

Stellen Sie sich Hyperparameter als die Knöpfe und Regler einer Maschine vor, die Sie einstellen können, um deren Funktionsweise zu steuern. Im maschinellen Lernen sind diese "Knöpfe und Regler" Einstellungen (Werte), die ein Data Scientist vor dem Training des Modells anpasst. Beispielsweise können Hyperparameter festlegen, wie lange das Modell trainiert wird oder wie detailliert das Training sein soll.

  • Modellbewertung: Messung der Leistung auf unbekannten Daten.

Beispiel

Ein Klassifikationsmodell wird ausgewählt, um die Wiederaufnahme von Patienten vorherzusagen, was für binäre Ergebnisse (wiederaufgenommen oder nicht) geeignet ist. Die Hyperparameter werden zur Leistungsoptimierung angepasst. Abschließend erfolgt die Bewertung auf einem separaten Validierungs- oder Testdatensatz, um zu überprüfen, wie gut das Modell über die Trainingsdaten hinaus generalisiert.

Schritt 4. Bereitstellung

Nach dem Erhalt eines feinabgestimmten Modells mit zufriedenstellender Leistung folgt als nächster Schritt die Bereitstellung. Das bereitgestellte Modell muss kontinuierlich überwacht, bei Bedarf verbessert und mit neuen Daten aktualisiert werden, sobald diese verfügbar sind. Dieser Prozess führt häufig zurück zu Schritt 1.

Beispiel

Sobald das Modell Wiedereinweisungen präzise vorhersagt, wird es in das Datenbanksystem des Krankenhauses integriert, um das Personal bei der Aufnahme über Hochrisikopatienten zu informieren und so die Patientenversorgung zu verbessern.

Note
Hinweis

Einige der hier genannten Begriffe mögen ungewohnt erscheinen, aber wir werden sie später in diesem Kurs noch ausführlicher besprechen.

Datenvorverarbeitung und Modellierung können mit der Bibliothek scikit-learn (importiert als sklearn) durchgeführt werden. Die folgenden Kapitel konzentrieren sich auf grundlegende Vorverarbeitungsschritte und den Aufbau von Pipelines. Die Modellierungsphase wird anschließend anhand des k-nächste Nachbarn-Algorithmus (KNeighborsClassifier in sklearn) eingeführt. Dies umfasst den Aufbau des Modells, das Abstimmen von Hyperparametern und die Bewertung der Leistung.

1. Was ist der Hauptzweck des Schrittes „Daten beschaffen“ in einem Machine-Learning-Projekt?

2. Welche der folgenden Aussagen beschreibt am besten die Bedeutung des Schrittes „Datenvorverarbeitung“ im Workflow eines Machine-Learning-Projekts?

question mark

Was ist der Hauptzweck des Schrittes „Daten beschaffen“ in einem Machine-Learning-Projekt?

Select the correct answer

question mark

Welche der folgenden Aussagen beschreibt am besten die Bedeutung des Schrittes „Datenvorverarbeitung“ im Workflow eines Machine-Learning-Projekts?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 5

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Suggested prompts:

Can you explain more about the data preprocessing steps?

What is feature engineering and why is it important?

How does the k-nearest neighbors algorithm work in this context?

Awesome!

Completion rate improved to 3.13

bookAblauf des Maschinellen Lernens

Swipe um das Menü anzuzeigen

Betrachten wir den Workflow, den man durchläuft, um ein erfolgreiches Machine-Learning-Projekt zu erstellen.

Schritt 1. Datenbeschaffung

Zunächst Problemstellung definieren und festlegen, welche Daten benötigt werden. Eine Metrik zur Bewertung der Leistung auswählen und bestimmen, welches Ergebnis als zufriedenstellend gilt.

Anschließend die Daten sammeln, häufig aus mehreren Quellen wie Datenbanken, und in ein für die Verarbeitung in Python geeignetes Format bringen.

Sind die Daten bereits in einer .csv-Datei verfügbar, kann die Vorverarbeitung sofort beginnen und dieser Schritt ggf. übersprungen werden.

Beispiel

Ein Krankenhaus stellt historische Patientendaten aus seiner Datenbank sowie demografische Informationen aus einer nationalen Gesundheitsdatenbank zur Verfügung, zusammengefasst in einer CSV-Datei. Die Aufgabe besteht darin, Patientenwiedereinweisungen vorherzusagen, wobei eine Genauigkeit von über 80 % als Zielmetrik für eine zufriedenstellende Leistung definiert ist.

Schritt 2. Datenvorverarbeitung

Dieser Schritt umfasst:

  • Datenbereinigung: Umgang mit fehlenden Werten, nicht-numerischen Daten usw.;
  • Explorative Datenanalyse (EDA): Analyse und Visualisierung des Datensatzes, um Muster und Zusammenhänge zwischen Merkmalen zu erkennen und allgemein Erkenntnisse darüber zu gewinnen, wie das Trainingsset verbessert werden kann;
  • Feature Engineering: Auswahl, Transformation oder Erstellung neuer Merkmale basierend auf EDA-Erkenntnissen zur Verbesserung der Modellleistung.

Beispiel

Im Krankenhausdatensatz können fehlende Werte für wichtige Kennzahlen wie Blutdruck ergänzt und kategoriale Variablen wie Ethnie in numerische Codes für die Analyse umgewandelt werden.

Schritt 3. Modellierung

Dieser Schritt umfasst:

  • Modellauswahl: Auswahl eines oder mehrerer Modelle, die am besten für das Problem geeignet sind, basierend auf den Eigenschaften der Algorithmen und den experimentellen Ergebnissen;
  • Hyperparameter-Optimierung: Anpassung der Hyperparameter, um die bestmögliche Leistung zu erzielen.
Note
Mehr erfahren

Stellen Sie sich Hyperparameter als die Knöpfe und Regler einer Maschine vor, die Sie einstellen können, um deren Funktionsweise zu steuern. Im maschinellen Lernen sind diese "Knöpfe und Regler" Einstellungen (Werte), die ein Data Scientist vor dem Training des Modells anpasst. Beispielsweise können Hyperparameter festlegen, wie lange das Modell trainiert wird oder wie detailliert das Training sein soll.

  • Modellbewertung: Messung der Leistung auf unbekannten Daten.

Beispiel

Ein Klassifikationsmodell wird ausgewählt, um die Wiederaufnahme von Patienten vorherzusagen, was für binäre Ergebnisse (wiederaufgenommen oder nicht) geeignet ist. Die Hyperparameter werden zur Leistungsoptimierung angepasst. Abschließend erfolgt die Bewertung auf einem separaten Validierungs- oder Testdatensatz, um zu überprüfen, wie gut das Modell über die Trainingsdaten hinaus generalisiert.

Schritt 4. Bereitstellung

Nach dem Erhalt eines feinabgestimmten Modells mit zufriedenstellender Leistung folgt als nächster Schritt die Bereitstellung. Das bereitgestellte Modell muss kontinuierlich überwacht, bei Bedarf verbessert und mit neuen Daten aktualisiert werden, sobald diese verfügbar sind. Dieser Prozess führt häufig zurück zu Schritt 1.

Beispiel

Sobald das Modell Wiedereinweisungen präzise vorhersagt, wird es in das Datenbanksystem des Krankenhauses integriert, um das Personal bei der Aufnahme über Hochrisikopatienten zu informieren und so die Patientenversorgung zu verbessern.

Note
Hinweis

Einige der hier genannten Begriffe mögen ungewohnt erscheinen, aber wir werden sie später in diesem Kurs noch ausführlicher besprechen.

Datenvorverarbeitung und Modellierung können mit der Bibliothek scikit-learn (importiert als sklearn) durchgeführt werden. Die folgenden Kapitel konzentrieren sich auf grundlegende Vorverarbeitungsschritte und den Aufbau von Pipelines. Die Modellierungsphase wird anschließend anhand des k-nächste Nachbarn-Algorithmus (KNeighborsClassifier in sklearn) eingeführt. Dies umfasst den Aufbau des Modells, das Abstimmen von Hyperparametern und die Bewertung der Leistung.

1. Was ist der Hauptzweck des Schrittes „Daten beschaffen“ in einem Machine-Learning-Projekt?

2. Welche der folgenden Aussagen beschreibt am besten die Bedeutung des Schrittes „Datenvorverarbeitung“ im Workflow eines Machine-Learning-Projekts?

question mark

Was ist der Hauptzweck des Schrittes „Daten beschaffen“ in einem Machine-Learning-Projekt?

Select the correct answer

question mark

Welche der folgenden Aussagen beschreibt am besten die Bedeutung des Schrittes „Datenvorverarbeitung“ im Workflow eines Machine-Learning-Projekts?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 5
some-alt