Datentypen
Jede Spalte (Feature) in einem Trainingsdatensatz besitzt einen zugehörigen Datentyp. Diese Datentypen lassen sich in numerisch, kategorisch sowie Datum und/oder Zeit gruppieren.
Die meisten ML-Algorithmen funktionieren nur mit numerischen Daten gut, daher müssen kategoriale und Datums-/Zeitwerte in Zahlen umgewandelt werden.
Für Datum und Zeit können Merkmale wie 'year'
, 'month'
und ähnliche extrahiert werden, abhängig von der Aufgabenstellung. Diese sind bereits numerische Werte und können daher direkt verwendet werden.
Mit kategorialen Daten ist die Verarbeitung etwas anspruchsvoller.
Arten von kategorialen Daten
Kategoriale Daten werden in zwei Typen unterteilt:
-
Ordinale Daten sind eine Art von kategorialen Daten, bei denen die Kategorien einer natürlichen Reihenfolge folgen. Zum Beispiel Bildungsniveau (von Grundschule bis Promotion) oder Bewertungen (von sehr schlecht bis sehr gut) usw.;
-
Nominale Daten sind eine Art von kategorialen Daten, bei denen keine natürliche Reihenfolge vorliegt. Zum Beispiel Name, Geschlecht, Herkunftsland usw.
Die Umwandlung von ordinalen und nominalen Datentypen in numerische Werte erfordert unterschiedliche Ansätze, daher müssen sie getrennt behandelt werden.
Es gibt bessere Methoden, um Datumsangaben in numerische Werte umzuwandeln, die jedoch den Rahmen dieses Einführungskurses sprengen. Wenn beispielsweise nur das Merkmal 'month'
verwendet wird, wird nicht berücksichtigt, dass der 12. Monat tatsächlich näher am 1. als am 9. liegt.
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen
Can you explain how to convert ordinal data into numerical values?
What are the common methods for encoding nominal data?
Why do machine learning algorithms require numerical data?
Awesome!
Completion rate improved to 3.13
Datentypen
Swipe um das Menü anzuzeigen
Jede Spalte (Feature) in einem Trainingsdatensatz besitzt einen zugehörigen Datentyp. Diese Datentypen lassen sich in numerisch, kategorisch sowie Datum und/oder Zeit gruppieren.
Die meisten ML-Algorithmen funktionieren nur mit numerischen Daten gut, daher müssen kategoriale und Datums-/Zeitwerte in Zahlen umgewandelt werden.
Für Datum und Zeit können Merkmale wie 'year'
, 'month'
und ähnliche extrahiert werden, abhängig von der Aufgabenstellung. Diese sind bereits numerische Werte und können daher direkt verwendet werden.
Mit kategorialen Daten ist die Verarbeitung etwas anspruchsvoller.
Arten von kategorialen Daten
Kategoriale Daten werden in zwei Typen unterteilt:
-
Ordinale Daten sind eine Art von kategorialen Daten, bei denen die Kategorien einer natürlichen Reihenfolge folgen. Zum Beispiel Bildungsniveau (von Grundschule bis Promotion) oder Bewertungen (von sehr schlecht bis sehr gut) usw.;
-
Nominale Daten sind eine Art von kategorialen Daten, bei denen keine natürliche Reihenfolge vorliegt. Zum Beispiel Name, Geschlecht, Herkunftsland usw.
Die Umwandlung von ordinalen und nominalen Datentypen in numerische Werte erfordert unterschiedliche Ansätze, daher müssen sie getrennt behandelt werden.
Es gibt bessere Methoden, um Datumsangaben in numerische Werte umzuwandeln, die jedoch den Rahmen dieses Einführungskurses sprengen. Wenn beispielsweise nur das Merkmal 'month'
verwendet wird, wird nicht berücksichtigt, dass der 12. Monat tatsächlich näher am 1. als am 9. liegt.
Danke für Ihr Feedback!