Ablauf des Maschinellen Lernens
Betrachten wir den Workflow, den Sie durchlaufen würden, um ein erfolgreiches Machine-Learning-Projekt zu erstellen.
Schritt 1. Datenbeschaffung
Beginnen Sie mit der Definition des Problems und der Identifikation der benötigten Daten. Wählen Sie eine Metrik zur Bewertung der Leistung und bestimmen Sie, welches Ergebnis als zufriedenstellend gilt.
Sammeln Sie anschließend die Daten, häufig aus mehreren Quellen wie Datenbanken, und bringen Sie diese in ein für die Verarbeitung in Python geeignetes Format.
Wenn die Daten bereits in einer .csv
-Datei vorliegen, kann die Vorverarbeitung sofort beginnen und dieser Schritt kann übersprungen werden.
Beispiel
Ein Krankenhaus stellt historische Patientendaten aus seiner Datenbank sowie demografische Informationen aus einer nationalen Gesundheitsdatenbank zur Verfügung, die in einer CSV-Datei zusammengefasst sind. Die Aufgabe besteht darin, Patientenwiedereinweisungen vorherzusagen, wobei eine Genauigkeit von über 80 % als Zielmetrik für eine zufriedenstellende Leistung definiert ist.
Schritt 2. Datenvorverarbeitung
Dieser Schritt besteht aus:
- Datenbereinigung: Umgang mit fehlenden Werten, nicht-numerischen Daten usw.;
- Explorative Datenanalyse (EDA): Analyse und Visualisierung des Datensatzes, um Muster und Zusammenhänge zwischen Merkmalen zu erkennen und generell Erkenntnisse darüber zu gewinnen, wie das Trainingsset verbessert werden kann;
- Feature Engineering: Auswahl, Transformation oder Erstellung neuer Merkmale basierend auf EDA-Erkenntnissen zur Verbesserung der Modellleistung.
Beispiel
Im Krankenhausdatensatz können fehlende Werte für wichtige Kennzahlen wie Blutdruck ergänzt und kategoriale Variablen wie Ethnie in numerische Codes für die Analyse umgewandelt werden.
Schritt 3. Modellierung
Dieser Schritt umfasst:
- Modellauswahl: Auswahl eines oder mehrerer Modelle, die für das Problem am besten geeignet sind, basierend auf den Eigenschaften der Algorithmen und experimentellen Ergebnissen;
- Hyperparameter-Optimierung: Anpassung der Hyperparameter, um die bestmögliche Leistung zu erzielen.
Stellen Sie sich Hyperparameter als die Knöpfe und Regler einer Maschine vor, die Sie einstellen können, um deren Funktionsweise zu steuern. Im maschinellen Lernen sind diese "Knöpfe und Regler" Einstellungen (Werte), die ein Data Scientist vor dem Training des Modells anpasst. Beispielsweise können Hyperparameter festlegen, wie lange das Modell trainiert wird oder wie detailliert das Training sein soll.
- Modellbewertung: Messung der Leistung auf unbekannten Daten.
Beispiel
Ein Klassifikationsmodell wird ausgewählt, um die Wiederaufnahme von Patienten vorherzusagen, was für binäre Ergebnisse (wiederaufgenommen oder nicht) geeignet ist. Die Hyperparameter werden optimiert, um die Leistung zu maximieren. Abschließend erfolgt die Bewertung auf einem separaten Validierungs- oder Testdatensatz, um zu überprüfen, wie gut das Modell über die Trainingsdaten hinaus generalisiert.
Schritt 4. Bereitstellung
Nachdem ein feinabgestimmtes Modell mit zufriedenstellender Leistung erhalten wurde, folgt als nächster Schritt die Bereitstellung. Das bereitgestellte Modell muss kontinuierlich überwacht, bei Bedarf verbessert und mit neuen Daten aktualisiert werden, sobald diese verfügbar sind. Dieser Prozess führt häufig zurück zu Schritt 1.
Beispiel
Sobald das Modell Wiedereinweisungen genau vorhersagt, wird es in das Datenbanksystem des Krankenhauses integriert, um das Personal bei der Aufnahme über Hochrisikopatienten zu informieren und so die Patientenversorgung zu verbessern.
Einige der hier erwähnten Begriffe mögen zunächst ungewohnt erscheinen, aber wir werden sie später in diesem Kurs noch ausführlicher besprechen.
Datenvorverarbeitung und Modellierung können mit der Bibliothek scikit-learn
(importiert als sklearn
) durchgeführt werden. Die folgenden Kapitel konzentrieren sich auf grundlegende Vorverarbeitungsschritte und den Aufbau von Pipelines. Die Modellierungsphase wird anschließend anhand des k-nächste Nachbarn-Algorithmus (KNeighborsClassifier
in sklearn
) eingeführt. Dies umfasst den Aufbau des Modells, das Abstimmen von Hyperparametern und die Bewertung der Leistung.
1. Was ist der Hauptzweck des Schrittes "Daten beschaffen" in einem Machine-Learning-Projekt?
2. Welche der folgenden Aussagen beschreibt am besten die Bedeutung des Schrittes "Datenvorverarbeitung" im Workflow eines Machine-Learning-Projekts?
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen
Awesome!
Completion rate improved to 3.13
Ablauf des Maschinellen Lernens
Swipe um das Menü anzuzeigen
Betrachten wir den Workflow, den Sie durchlaufen würden, um ein erfolgreiches Machine-Learning-Projekt zu erstellen.
Schritt 1. Datenbeschaffung
Beginnen Sie mit der Definition des Problems und der Identifikation der benötigten Daten. Wählen Sie eine Metrik zur Bewertung der Leistung und bestimmen Sie, welches Ergebnis als zufriedenstellend gilt.
Sammeln Sie anschließend die Daten, häufig aus mehreren Quellen wie Datenbanken, und bringen Sie diese in ein für die Verarbeitung in Python geeignetes Format.
Wenn die Daten bereits in einer .csv
-Datei vorliegen, kann die Vorverarbeitung sofort beginnen und dieser Schritt kann übersprungen werden.
Beispiel
Ein Krankenhaus stellt historische Patientendaten aus seiner Datenbank sowie demografische Informationen aus einer nationalen Gesundheitsdatenbank zur Verfügung, die in einer CSV-Datei zusammengefasst sind. Die Aufgabe besteht darin, Patientenwiedereinweisungen vorherzusagen, wobei eine Genauigkeit von über 80 % als Zielmetrik für eine zufriedenstellende Leistung definiert ist.
Schritt 2. Datenvorverarbeitung
Dieser Schritt besteht aus:
- Datenbereinigung: Umgang mit fehlenden Werten, nicht-numerischen Daten usw.;
- Explorative Datenanalyse (EDA): Analyse und Visualisierung des Datensatzes, um Muster und Zusammenhänge zwischen Merkmalen zu erkennen und generell Erkenntnisse darüber zu gewinnen, wie das Trainingsset verbessert werden kann;
- Feature Engineering: Auswahl, Transformation oder Erstellung neuer Merkmale basierend auf EDA-Erkenntnissen zur Verbesserung der Modellleistung.
Beispiel
Im Krankenhausdatensatz können fehlende Werte für wichtige Kennzahlen wie Blutdruck ergänzt und kategoriale Variablen wie Ethnie in numerische Codes für die Analyse umgewandelt werden.
Schritt 3. Modellierung
Dieser Schritt umfasst:
- Modellauswahl: Auswahl eines oder mehrerer Modelle, die für das Problem am besten geeignet sind, basierend auf den Eigenschaften der Algorithmen und experimentellen Ergebnissen;
- Hyperparameter-Optimierung: Anpassung der Hyperparameter, um die bestmögliche Leistung zu erzielen.
Stellen Sie sich Hyperparameter als die Knöpfe und Regler einer Maschine vor, die Sie einstellen können, um deren Funktionsweise zu steuern. Im maschinellen Lernen sind diese "Knöpfe und Regler" Einstellungen (Werte), die ein Data Scientist vor dem Training des Modells anpasst. Beispielsweise können Hyperparameter festlegen, wie lange das Modell trainiert wird oder wie detailliert das Training sein soll.
- Modellbewertung: Messung der Leistung auf unbekannten Daten.
Beispiel
Ein Klassifikationsmodell wird ausgewählt, um die Wiederaufnahme von Patienten vorherzusagen, was für binäre Ergebnisse (wiederaufgenommen oder nicht) geeignet ist. Die Hyperparameter werden optimiert, um die Leistung zu maximieren. Abschließend erfolgt die Bewertung auf einem separaten Validierungs- oder Testdatensatz, um zu überprüfen, wie gut das Modell über die Trainingsdaten hinaus generalisiert.
Schritt 4. Bereitstellung
Nachdem ein feinabgestimmtes Modell mit zufriedenstellender Leistung erhalten wurde, folgt als nächster Schritt die Bereitstellung. Das bereitgestellte Modell muss kontinuierlich überwacht, bei Bedarf verbessert und mit neuen Daten aktualisiert werden, sobald diese verfügbar sind. Dieser Prozess führt häufig zurück zu Schritt 1.
Beispiel
Sobald das Modell Wiedereinweisungen genau vorhersagt, wird es in das Datenbanksystem des Krankenhauses integriert, um das Personal bei der Aufnahme über Hochrisikopatienten zu informieren und so die Patientenversorgung zu verbessern.
Einige der hier erwähnten Begriffe mögen zunächst ungewohnt erscheinen, aber wir werden sie später in diesem Kurs noch ausführlicher besprechen.
Datenvorverarbeitung und Modellierung können mit der Bibliothek scikit-learn
(importiert als sklearn
) durchgeführt werden. Die folgenden Kapitel konzentrieren sich auf grundlegende Vorverarbeitungsschritte und den Aufbau von Pipelines. Die Modellierungsphase wird anschließend anhand des k-nächste Nachbarn-Algorithmus (KNeighborsClassifier
in sklearn
) eingeführt. Dies umfasst den Aufbau des Modells, das Abstimmen von Hyperparametern und die Bewertung der Leistung.
1. Was ist der Hauptzweck des Schrittes "Daten beschaffen" in einem Machine-Learning-Projekt?
2. Welche der folgenden Aussagen beschreibt am besten die Bedeutung des Schrittes "Datenvorverarbeitung" im Workflow eines Machine-Learning-Projekts?
Danke für Ihr Feedback!