Contenu du cours
Premiers Pas Avec Pandas
Premiers Pas Avec Pandas
Fichiers CSV
Étant donné que pandas
est la bibliothèque de référence pour l'analyse et la manipulation de données, l'une de ses caractéristiques clés est sa capacité à lire et écrire divers types de fichiers, y compris les fichiers CSV.
Un fichier CSV (Comma-Separated Values) est un fichier texte brut utilisé pour stocker des données tabulaires, où chaque ligne représente un enregistrement et les colonnes sont séparées par des virgules.
Un fichier CSV peut contenir les données suivantes :
- Nombres : valeurs entières ou décimales (par exemple,
42
,3.14
); - Texte : chaînes ou données catégorielles (par exemple,
John
,Active
); - Dates/Heures : horodatages (par exemple,
2023-12-30
); - Booléens : valeurs logiques (
True
,False
).
Chaque ligne doit avoir le même nombre de colonnes, et la première ligne contient souvent les en-têtes de colonnes.
Les fonctions comme read_csv()
et to_csv()
sont utiles pour traiter les données CSV.
La syntaxe de base de read_csv()
et les paramètres clés sont les suivants :
filepath_or_buffer
: chemin vers le fichier CSV (chaîne ou URL);sep
: délimiteur (par défaut, une virgule,
);header
: numéro de ligne à utiliser comme en-têtes de colonnes (par défaut, la première ligne);names
: Liste des noms de colonnes à utiliser;usecols
: colonnes à lire (sous-ensemble de colonnes).
# Loading the CSV into a `DataFrame` import pandas as pd salary_data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a43d24b6-df61-4e11-9c90-5b36552b3437/Salary+Dataset.csv') print(salary_data)
Remarque
Assurez-vous que le lien du jeu de données est entouré de guillemets.
La syntaxe de base de to_csv()
et les paramètres clés sont les suivants :
path_or_buf
: chemin ou objet où le CSV doit être écrit;sep
: délimiteur pour séparer les valeurs (par défaut, une virgule,
);columns
: sous-ensemble de colonnes à écrire (par défaut, toutes les colonnes);header
: inclure ou non les noms de colonnes comme en-tête (par défaut,True
);index
: écrire ou non les indices de ligne dans le fichier (par défaut,True
).
import pandas as pd countries_data = {'country' : ['Thailand', 'Philippines', 'Monaco', 'Malta', 'Sweden', 'Paraguay', 'Latvia'], 'continent' : ['Asia', 'Asia', 'Europe', 'Europe', 'Europe', 'South America', 'Europe'], 'capital':['Bangkok', 'Manila', 'Monaco', 'Valletta', 'Stockholm', 'Asuncion', 'Riga']} countries = pd.DataFrame(countries_data) countries.to_csv('countries.csv') print('Done')
Swipe to start coding
- Lire le fichier CSV dans un DataFrame.
- Affichez le contenu sur votre écran.
Solution
Merci pour vos commentaires !
Fichiers CSV
Étant donné que pandas
est la bibliothèque de référence pour l'analyse et la manipulation de données, l'une de ses caractéristiques clés est sa capacité à lire et écrire divers types de fichiers, y compris les fichiers CSV.
Un fichier CSV (Comma-Separated Values) est un fichier texte brut utilisé pour stocker des données tabulaires, où chaque ligne représente un enregistrement et les colonnes sont séparées par des virgules.
Un fichier CSV peut contenir les données suivantes :
- Nombres : valeurs entières ou décimales (par exemple,
42
,3.14
); - Texte : chaînes ou données catégorielles (par exemple,
John
,Active
); - Dates/Heures : horodatages (par exemple,
2023-12-30
); - Booléens : valeurs logiques (
True
,False
).
Chaque ligne doit avoir le même nombre de colonnes, et la première ligne contient souvent les en-têtes de colonnes.
Les fonctions comme read_csv()
et to_csv()
sont utiles pour traiter les données CSV.
La syntaxe de base de read_csv()
et les paramètres clés sont les suivants :
filepath_or_buffer
: chemin vers le fichier CSV (chaîne ou URL);sep
: délimiteur (par défaut, une virgule,
);header
: numéro de ligne à utiliser comme en-têtes de colonnes (par défaut, la première ligne);names
: Liste des noms de colonnes à utiliser;usecols
: colonnes à lire (sous-ensemble de colonnes).
# Loading the CSV into a `DataFrame` import pandas as pd salary_data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a43d24b6-df61-4e11-9c90-5b36552b3437/Salary+Dataset.csv') print(salary_data)
Remarque
Assurez-vous que le lien du jeu de données est entouré de guillemets.
La syntaxe de base de to_csv()
et les paramètres clés sont les suivants :
path_or_buf
: chemin ou objet où le CSV doit être écrit;sep
: délimiteur pour séparer les valeurs (par défaut, une virgule,
);columns
: sous-ensemble de colonnes à écrire (par défaut, toutes les colonnes);header
: inclure ou non les noms de colonnes comme en-tête (par défaut,True
);index
: écrire ou non les indices de ligne dans le fichier (par défaut,True
).
import pandas as pd countries_data = {'country' : ['Thailand', 'Philippines', 'Monaco', 'Malta', 'Sweden', 'Paraguay', 'Latvia'], 'continent' : ['Asia', 'Asia', 'Europe', 'Europe', 'Europe', 'South America', 'Europe'], 'capital':['Bangkok', 'Manila', 'Monaco', 'Valletta', 'Stockholm', 'Asuncion', 'Riga']} countries = pd.DataFrame(countries_data) countries.to_csv('countries.csv') print('Done')
Swipe to start coding
- Lire le fichier CSV dans un DataFrame.
- Affichez le contenu sur votre écran.
Solution
Merci pour vos commentaires !