Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Ablauf des Maschinellen Lernens | Konzepte des Maschinellen Lernens
ML-Einführung Mit Scikit-Learn

bookAblauf des Maschinellen Lernens

Betrachten wir den Workflow, den Sie durchlaufen würden, um ein erfolgreiches Machine-Learning-Projekt zu erstellen.

Schritt 1. Datenbeschaffung

Beginnen Sie mit der Definition des Problems und der Identifikation der benötigten Daten. Wählen Sie eine Metrik zur Bewertung der Leistung und bestimmen Sie, welches Ergebnis als zufriedenstellend gilt.

Sammeln Sie anschließend die Daten, häufig aus mehreren Quellen wie Datenbanken, und bringen Sie diese in ein für die Verarbeitung in Python geeignetes Format.

Wenn die Daten bereits in einer .csv-Datei vorliegen, kann die Vorverarbeitung sofort beginnen und dieser Schritt kann übersprungen werden.

Beispiel

Ein Krankenhaus stellt historische Patientendaten aus seiner Datenbank sowie demografische Informationen aus einer nationalen Gesundheitsdatenbank zur Verfügung, die in einer CSV-Datei zusammengefasst sind. Die Aufgabe besteht darin, Patientenwiedereinweisungen vorherzusagen, wobei eine Genauigkeit von über 80 % als Zielmetrik für eine zufriedenstellende Leistung definiert ist.

Schritt 2. Datenvorverarbeitung

Dieser Schritt besteht aus:

  • Datenbereinigung: Umgang mit fehlenden Werten, nicht-numerischen Daten usw.;
  • Explorative Datenanalyse (EDA): Analyse und Visualisierung des Datensatzes, um Muster und Zusammenhänge zwischen Merkmalen zu erkennen und generell Erkenntnisse darüber zu gewinnen, wie das Trainingsset verbessert werden kann;
  • Feature Engineering: Auswahl, Transformation oder Erstellung neuer Merkmale basierend auf EDA-Erkenntnissen zur Verbesserung der Modellleistung.

Beispiel

Im Krankenhausdatensatz können fehlende Werte für wichtige Kennzahlen wie Blutdruck ergänzt und kategoriale Variablen wie Ethnie in numerische Codes für die Analyse umgewandelt werden.

Schritt 3. Modellierung

Dieser Schritt umfasst:

  • Modellauswahl: Auswahl eines oder mehrerer Modelle, die für das Problem am besten geeignet sind, basierend auf den Eigenschaften der Algorithmen und experimentellen Ergebnissen;
  • Hyperparameter-Optimierung: Anpassung der Hyperparameter, um die bestmögliche Leistung zu erzielen.
Note
Mehr erfahren

Stellen Sie sich Hyperparameter als die Knöpfe und Regler einer Maschine vor, die Sie einstellen können, um deren Funktionsweise zu steuern. Im maschinellen Lernen sind diese "Knöpfe und Regler" Einstellungen (Werte), die ein Data Scientist vor dem Training des Modells anpasst. Beispielsweise können Hyperparameter festlegen, wie lange das Modell trainiert wird oder wie detailliert das Training sein soll.

  • Modellbewertung: Messung der Leistung auf unbekannten Daten.

Beispiel

Ein Klassifikationsmodell wird ausgewählt, um die Wiederaufnahme von Patienten vorherzusagen, was für binäre Ergebnisse (wiederaufgenommen oder nicht) geeignet ist. Die Hyperparameter werden optimiert, um die Leistung zu maximieren. Abschließend erfolgt die Bewertung auf einem separaten Validierungs- oder Testdatensatz, um zu überprüfen, wie gut das Modell über die Trainingsdaten hinaus generalisiert.

Schritt 4. Bereitstellung

Nachdem ein feinabgestimmtes Modell mit zufriedenstellender Leistung erhalten wurde, folgt als nächster Schritt die Bereitstellung. Das bereitgestellte Modell muss kontinuierlich überwacht, bei Bedarf verbessert und mit neuen Daten aktualisiert werden, sobald diese verfügbar sind. Dieser Prozess führt häufig zurück zu Schritt 1.

Beispiel

Sobald das Modell Wiedereinweisungen genau vorhersagt, wird es in das Datenbanksystem des Krankenhauses integriert, um das Personal bei der Aufnahme über Hochrisikopatienten zu informieren und so die Patientenversorgung zu verbessern.

Note
Hinweis

Einige der hier erwähnten Begriffe mögen zunächst ungewohnt erscheinen, aber wir werden sie später in diesem Kurs noch ausführlicher besprechen.

Datenvorverarbeitung und Modellierung können mit der Bibliothek scikit-learn (importiert als sklearn) durchgeführt werden. Die folgenden Kapitel konzentrieren sich auf grundlegende Vorverarbeitungsschritte und den Aufbau von Pipelines. Die Modellierungsphase wird anschließend anhand des k-nächste Nachbarn-Algorithmus (KNeighborsClassifier in sklearn) eingeführt. Dies umfasst den Aufbau des Modells, das Abstimmen von Hyperparametern und die Bewertung der Leistung.

1. Was ist der Hauptzweck des Schrittes "Daten beschaffen" in einem Machine-Learning-Projekt?

2. Welche der folgenden Aussagen beschreibt am besten die Bedeutung des Schrittes "Datenvorverarbeitung" im Workflow eines Machine-Learning-Projekts?

question mark

Was ist der Hauptzweck des Schrittes "Daten beschaffen" in einem Machine-Learning-Projekt?

Select the correct answer

question mark

Welche der folgenden Aussagen beschreibt am besten die Bedeutung des Schrittes "Datenvorverarbeitung" im Workflow eines Machine-Learning-Projekts?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 5

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Awesome!

Completion rate improved to 3.13

bookAblauf des Maschinellen Lernens

Swipe um das Menü anzuzeigen

Betrachten wir den Workflow, den Sie durchlaufen würden, um ein erfolgreiches Machine-Learning-Projekt zu erstellen.

Schritt 1. Datenbeschaffung

Beginnen Sie mit der Definition des Problems und der Identifikation der benötigten Daten. Wählen Sie eine Metrik zur Bewertung der Leistung und bestimmen Sie, welches Ergebnis als zufriedenstellend gilt.

Sammeln Sie anschließend die Daten, häufig aus mehreren Quellen wie Datenbanken, und bringen Sie diese in ein für die Verarbeitung in Python geeignetes Format.

Wenn die Daten bereits in einer .csv-Datei vorliegen, kann die Vorverarbeitung sofort beginnen und dieser Schritt kann übersprungen werden.

Beispiel

Ein Krankenhaus stellt historische Patientendaten aus seiner Datenbank sowie demografische Informationen aus einer nationalen Gesundheitsdatenbank zur Verfügung, die in einer CSV-Datei zusammengefasst sind. Die Aufgabe besteht darin, Patientenwiedereinweisungen vorherzusagen, wobei eine Genauigkeit von über 80 % als Zielmetrik für eine zufriedenstellende Leistung definiert ist.

Schritt 2. Datenvorverarbeitung

Dieser Schritt besteht aus:

  • Datenbereinigung: Umgang mit fehlenden Werten, nicht-numerischen Daten usw.;
  • Explorative Datenanalyse (EDA): Analyse und Visualisierung des Datensatzes, um Muster und Zusammenhänge zwischen Merkmalen zu erkennen und generell Erkenntnisse darüber zu gewinnen, wie das Trainingsset verbessert werden kann;
  • Feature Engineering: Auswahl, Transformation oder Erstellung neuer Merkmale basierend auf EDA-Erkenntnissen zur Verbesserung der Modellleistung.

Beispiel

Im Krankenhausdatensatz können fehlende Werte für wichtige Kennzahlen wie Blutdruck ergänzt und kategoriale Variablen wie Ethnie in numerische Codes für die Analyse umgewandelt werden.

Schritt 3. Modellierung

Dieser Schritt umfasst:

  • Modellauswahl: Auswahl eines oder mehrerer Modelle, die für das Problem am besten geeignet sind, basierend auf den Eigenschaften der Algorithmen und experimentellen Ergebnissen;
  • Hyperparameter-Optimierung: Anpassung der Hyperparameter, um die bestmögliche Leistung zu erzielen.
Note
Mehr erfahren

Stellen Sie sich Hyperparameter als die Knöpfe und Regler einer Maschine vor, die Sie einstellen können, um deren Funktionsweise zu steuern. Im maschinellen Lernen sind diese "Knöpfe und Regler" Einstellungen (Werte), die ein Data Scientist vor dem Training des Modells anpasst. Beispielsweise können Hyperparameter festlegen, wie lange das Modell trainiert wird oder wie detailliert das Training sein soll.

  • Modellbewertung: Messung der Leistung auf unbekannten Daten.

Beispiel

Ein Klassifikationsmodell wird ausgewählt, um die Wiederaufnahme von Patienten vorherzusagen, was für binäre Ergebnisse (wiederaufgenommen oder nicht) geeignet ist. Die Hyperparameter werden optimiert, um die Leistung zu maximieren. Abschließend erfolgt die Bewertung auf einem separaten Validierungs- oder Testdatensatz, um zu überprüfen, wie gut das Modell über die Trainingsdaten hinaus generalisiert.

Schritt 4. Bereitstellung

Nachdem ein feinabgestimmtes Modell mit zufriedenstellender Leistung erhalten wurde, folgt als nächster Schritt die Bereitstellung. Das bereitgestellte Modell muss kontinuierlich überwacht, bei Bedarf verbessert und mit neuen Daten aktualisiert werden, sobald diese verfügbar sind. Dieser Prozess führt häufig zurück zu Schritt 1.

Beispiel

Sobald das Modell Wiedereinweisungen genau vorhersagt, wird es in das Datenbanksystem des Krankenhauses integriert, um das Personal bei der Aufnahme über Hochrisikopatienten zu informieren und so die Patientenversorgung zu verbessern.

Note
Hinweis

Einige der hier erwähnten Begriffe mögen zunächst ungewohnt erscheinen, aber wir werden sie später in diesem Kurs noch ausführlicher besprechen.

Datenvorverarbeitung und Modellierung können mit der Bibliothek scikit-learn (importiert als sklearn) durchgeführt werden. Die folgenden Kapitel konzentrieren sich auf grundlegende Vorverarbeitungsschritte und den Aufbau von Pipelines. Die Modellierungsphase wird anschließend anhand des k-nächste Nachbarn-Algorithmus (KNeighborsClassifier in sklearn) eingeführt. Dies umfasst den Aufbau des Modells, das Abstimmen von Hyperparametern und die Bewertung der Leistung.

1. Was ist der Hauptzweck des Schrittes "Daten beschaffen" in einem Machine-Learning-Projekt?

2. Welche der folgenden Aussagen beschreibt am besten die Bedeutung des Schrittes "Datenvorverarbeitung" im Workflow eines Machine-Learning-Projekts?

question mark

Was ist der Hauptzweck des Schrittes "Daten beschaffen" in einem Machine-Learning-Projekt?

Select the correct answer

question mark

Welche der folgenden Aussagen beschreibt am besten die Bedeutung des Schrittes "Datenvorverarbeitung" im Workflow eines Machine-Learning-Projekts?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 5
some-alt