Ablauf des Maschinellen Lernens
Betrachten wir den Workflow, den man durchläuft, um ein erfolgreiches Machine-Learning-Projekt zu erstellen.
Schritt 1. Datenbeschaffung
Zunächst Problemstellung definieren und festlegen, welche Daten benötigt werden. Eine Metrik zur Bewertung der Leistung auswählen und bestimmen, welches Ergebnis als zufriedenstellend gilt.
Anschließend die Daten sammeln, häufig aus mehreren Quellen wie Datenbanken, und in ein für die Verarbeitung in Python geeignetes Format bringen.
Sind die Daten bereits in einer .csv-Datei verfügbar, kann die Vorverarbeitung sofort beginnen und dieser Schritt ggf. übersprungen werden.
Beispiel
Ein Krankenhaus stellt historische Patientendaten aus seiner Datenbank sowie demografische Informationen aus einer nationalen Gesundheitsdatenbank zur Verfügung, zusammengefasst in einer CSV-Datei. Die Aufgabe besteht darin, Patientenwiedereinweisungen vorherzusagen, wobei eine Genauigkeit von über 80 % als Zielmetrik für eine zufriedenstellende Leistung definiert ist.
Schritt 2. Datenvorverarbeitung
Dieser Schritt umfasst:
- Datenbereinigung: Umgang mit fehlenden Werten, nicht-numerischen Daten usw.;
- Explorative Datenanalyse (EDA): Analyse und Visualisierung des Datensatzes, um Muster und Zusammenhänge zwischen Merkmalen zu erkennen und allgemein Erkenntnisse darüber zu gewinnen, wie das Trainingsset verbessert werden kann;
- Feature Engineering: Auswahl, Transformation oder Erstellung neuer Merkmale basierend auf EDA-Erkenntnissen zur Verbesserung der Modellleistung.
Beispiel
Im Krankenhausdatensatz können fehlende Werte für wichtige Kennzahlen wie Blutdruck ergänzt und kategoriale Variablen wie Ethnie in numerische Codes für die Analyse umgewandelt werden.
Schritt 3. Modellierung
Dieser Schritt umfasst:
- Modellauswahl: Auswahl eines oder mehrerer Modelle, die am besten für das Problem geeignet sind, basierend auf den Eigenschaften der Algorithmen und den experimentellen Ergebnissen;
- Hyperparameter-Optimierung: Anpassung der Hyperparameter, um die bestmögliche Leistung zu erzielen.
Stellen Sie sich Hyperparameter als die Knöpfe und Regler einer Maschine vor, die Sie einstellen können, um deren Funktionsweise zu steuern. Im maschinellen Lernen sind diese "Knöpfe und Regler" Einstellungen (Werte), die ein Data Scientist vor dem Training des Modells anpasst. Beispielsweise können Hyperparameter festlegen, wie lange das Modell trainiert wird oder wie detailliert das Training sein soll.
- Modellbewertung: Messung der Leistung auf unbekannten Daten.
Beispiel
Ein Klassifikationsmodell wird ausgewählt, um die Wiederaufnahme von Patienten vorherzusagen, was für binäre Ergebnisse (wiederaufgenommen oder nicht) geeignet ist. Die Hyperparameter werden zur Leistungsoptimierung angepasst. Abschließend erfolgt die Bewertung auf einem separaten Validierungs- oder Testdatensatz, um zu überprüfen, wie gut das Modell über die Trainingsdaten hinaus generalisiert.
Schritt 4. Bereitstellung
Nach dem Erhalt eines feinabgestimmten Modells mit zufriedenstellender Leistung folgt als nächster Schritt die Bereitstellung. Das bereitgestellte Modell muss kontinuierlich überwacht, bei Bedarf verbessert und mit neuen Daten aktualisiert werden, sobald diese verfügbar sind. Dieser Prozess führt häufig zurück zu Schritt 1.
Beispiel
Sobald das Modell Wiedereinweisungen präzise vorhersagt, wird es in das Datenbanksystem des Krankenhauses integriert, um das Personal bei der Aufnahme über Hochrisikopatienten zu informieren und so die Patientenversorgung zu verbessern.
Einige der hier genannten Begriffe mögen ungewohnt erscheinen, aber wir werden sie später in diesem Kurs noch ausführlicher besprechen.
Datenvorverarbeitung und Modellierung können mit der Bibliothek scikit-learn (importiert als sklearn) durchgeführt werden. Die folgenden Kapitel konzentrieren sich auf grundlegende Vorverarbeitungsschritte und den Aufbau von Pipelines. Die Modellierungsphase wird anschließend anhand des k-nächste Nachbarn-Algorithmus (KNeighborsClassifier in sklearn) eingeführt. Dies umfasst den Aufbau des Modells, das Abstimmen von Hyperparametern und die Bewertung der Leistung.
1. Was ist der Hauptzweck des Schrittes „Daten beschaffen“ in einem Machine-Learning-Projekt?
2. Welche der folgenden Aussagen beschreibt am besten die Bedeutung des Schrittes „Datenvorverarbeitung“ im Workflow eines Machine-Learning-Projekts?
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen
Can you explain more about the data preprocessing steps?
What is feature engineering and why is it important?
How does the k-nearest neighbors algorithm work in this context?
Awesome!
Completion rate improved to 3.13
Ablauf des Maschinellen Lernens
Swipe um das Menü anzuzeigen
Betrachten wir den Workflow, den man durchläuft, um ein erfolgreiches Machine-Learning-Projekt zu erstellen.
Schritt 1. Datenbeschaffung
Zunächst Problemstellung definieren und festlegen, welche Daten benötigt werden. Eine Metrik zur Bewertung der Leistung auswählen und bestimmen, welches Ergebnis als zufriedenstellend gilt.
Anschließend die Daten sammeln, häufig aus mehreren Quellen wie Datenbanken, und in ein für die Verarbeitung in Python geeignetes Format bringen.
Sind die Daten bereits in einer .csv-Datei verfügbar, kann die Vorverarbeitung sofort beginnen und dieser Schritt ggf. übersprungen werden.
Beispiel
Ein Krankenhaus stellt historische Patientendaten aus seiner Datenbank sowie demografische Informationen aus einer nationalen Gesundheitsdatenbank zur Verfügung, zusammengefasst in einer CSV-Datei. Die Aufgabe besteht darin, Patientenwiedereinweisungen vorherzusagen, wobei eine Genauigkeit von über 80 % als Zielmetrik für eine zufriedenstellende Leistung definiert ist.
Schritt 2. Datenvorverarbeitung
Dieser Schritt umfasst:
- Datenbereinigung: Umgang mit fehlenden Werten, nicht-numerischen Daten usw.;
- Explorative Datenanalyse (EDA): Analyse und Visualisierung des Datensatzes, um Muster und Zusammenhänge zwischen Merkmalen zu erkennen und allgemein Erkenntnisse darüber zu gewinnen, wie das Trainingsset verbessert werden kann;
- Feature Engineering: Auswahl, Transformation oder Erstellung neuer Merkmale basierend auf EDA-Erkenntnissen zur Verbesserung der Modellleistung.
Beispiel
Im Krankenhausdatensatz können fehlende Werte für wichtige Kennzahlen wie Blutdruck ergänzt und kategoriale Variablen wie Ethnie in numerische Codes für die Analyse umgewandelt werden.
Schritt 3. Modellierung
Dieser Schritt umfasst:
- Modellauswahl: Auswahl eines oder mehrerer Modelle, die am besten für das Problem geeignet sind, basierend auf den Eigenschaften der Algorithmen und den experimentellen Ergebnissen;
- Hyperparameter-Optimierung: Anpassung der Hyperparameter, um die bestmögliche Leistung zu erzielen.
Stellen Sie sich Hyperparameter als die Knöpfe und Regler einer Maschine vor, die Sie einstellen können, um deren Funktionsweise zu steuern. Im maschinellen Lernen sind diese "Knöpfe und Regler" Einstellungen (Werte), die ein Data Scientist vor dem Training des Modells anpasst. Beispielsweise können Hyperparameter festlegen, wie lange das Modell trainiert wird oder wie detailliert das Training sein soll.
- Modellbewertung: Messung der Leistung auf unbekannten Daten.
Beispiel
Ein Klassifikationsmodell wird ausgewählt, um die Wiederaufnahme von Patienten vorherzusagen, was für binäre Ergebnisse (wiederaufgenommen oder nicht) geeignet ist. Die Hyperparameter werden zur Leistungsoptimierung angepasst. Abschließend erfolgt die Bewertung auf einem separaten Validierungs- oder Testdatensatz, um zu überprüfen, wie gut das Modell über die Trainingsdaten hinaus generalisiert.
Schritt 4. Bereitstellung
Nach dem Erhalt eines feinabgestimmten Modells mit zufriedenstellender Leistung folgt als nächster Schritt die Bereitstellung. Das bereitgestellte Modell muss kontinuierlich überwacht, bei Bedarf verbessert und mit neuen Daten aktualisiert werden, sobald diese verfügbar sind. Dieser Prozess führt häufig zurück zu Schritt 1.
Beispiel
Sobald das Modell Wiedereinweisungen präzise vorhersagt, wird es in das Datenbanksystem des Krankenhauses integriert, um das Personal bei der Aufnahme über Hochrisikopatienten zu informieren und so die Patientenversorgung zu verbessern.
Einige der hier genannten Begriffe mögen ungewohnt erscheinen, aber wir werden sie später in diesem Kurs noch ausführlicher besprechen.
Datenvorverarbeitung und Modellierung können mit der Bibliothek scikit-learn (importiert als sklearn) durchgeführt werden. Die folgenden Kapitel konzentrieren sich auf grundlegende Vorverarbeitungsschritte und den Aufbau von Pipelines. Die Modellierungsphase wird anschließend anhand des k-nächste Nachbarn-Algorithmus (KNeighborsClassifier in sklearn) eingeführt. Dies umfasst den Aufbau des Modells, das Abstimmen von Hyperparametern und die Bewertung der Leistung.
1. Was ist der Hauptzweck des Schrittes „Daten beschaffen“ in einem Machine-Learning-Projekt?
2. Welche der folgenden Aussagen beschreibt am besten die Bedeutung des Schrittes „Datenvorverarbeitung“ im Workflow eines Machine-Learning-Projekts?
Danke für Ihr Feedback!