# Pandas, 2e partie

Dans ce carnet, nous allons voir d'autres choses autour de Pandas :
- valeurs manquantes
- doublons
- grouper
- fusion de dataframes
- réorganisation d'information (pivot)
- séries temporelles

## Valeurs manquantes

Les valeurs manquantes apparaissent lorsqu'aucune valeur de données n'est stockée pour une variable lors d'une observation. Elles sont fréquentes dans l'analyse des données et peuvent avoir une incidence importante sur les conclusions tirées des données. Il est donc essentiel de traiter les valeurs manquantes de manière appropriée avant d'effectuer toute analyse.


Dans Pandas, les valeurs manquantes sont généralement représentées par « NaN » (Not a Number, « n'est pas un nombre »).


### Causes courantes des valeurs manquantes :


1. **Non-réponse :** lorsqu'aucune information n'est fournie pour un ou plusieurs éléments.

2. **Corruption des données :** erreurs lors de la collecte ou du stockage des données.

3. **Blancs intentionnels :** certains champs peuvent être laissés intentionnellement vides.


### Pourquoi traiter les valeurs manquantes


- Les valeurs manquantes peuvent conduire à des résultats biaisés.

- De nombreux algorithmes d'apprentissage automatique ne peuvent pas traiter directement les valeurs manquantes

- Un traitement approprié garantit l'intégrité et la fiabilité de l'analyse.


### Méthodes de traitement des valeurs manquantes :


1. **Supprimer les données manquantes :**

- Supprimer les lignes ou les colonnes contenant des valeurs manquantes


- Convient lorsque la proportion de données manquantes est faible


2. **Imputer les données manquantes :**

    - Remplir les valeurs manquantes à l'aide de méthodes statistiques (par exemple, moyenne, médiane, mode)


    - Utiliser des techniques avancées telles que K-Nearest Neighbors (KNN) ou la régression pour l'imputation


3. **Signaler les données manquantes :**

    

    - Créer une nouvelle colonne pour indiquer si une valeur est manquante.


Quelques exemples sont donnés ci-dessous

In [1]:
import pandas as pd

In [2]:
employees = pd.read_csv("https://gitlabsu.sorbonne-universite.fr/scai/data-visualization/-/raw/main/data/employees.csv")
employees.head(10)

Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
0,Douglas,Male,8/6/1993,12:42 PM,97308,6.945,True,Marketing
1,Thomas,Male,3/31/1996,6:53 AM,61933,4.17,True,
2,Maria,Female,4/23/1993,11:17 AM,130590,11.858,False,Finance
3,Jerry,Male,3/4/2005,1:00 PM,138705,9.34,True,Finance
4,Larry,Male,1/24/1998,4:47 PM,101004,1.389,True,Client Services
5,Dennis,Male,4/18/1987,1:35 AM,115163,10.125,False,Legal
6,Ruby,Female,8/17/1987,4:20 PM,65476,10.012,True,Product
7,,Female,7/20/2015,10:43 AM,45906,11.598,,Finance
8,Angela,Female,11/22/2005,6:29 AM,95570,18.523,True,Engineering
9,Frances,Female,8/8/2002,6:51 AM,139852,7.524,True,Business Development


In [3]:
# A new dataframe with True is the cell is missing
employees.isnull()

# Or True is the cell is NOT missing
# employees.notnull()

Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
0,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,True
2,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...
995,False,True,False,False,False,False,False,False
996,False,False,False,False,False,False,False,False
997,False,False,False,False,False,False,False,False
998,False,False,False,False,False,False,False,False


In [4]:
print("data shape:", employees.shape)

# Remove rows which contain at least one missing value
employees = employees.dropna(axis=0, how="any")
print("data shape:", employees.shape)

# Remove rows which contain only missing values
employees = employees.dropna(axis=0, how="all")
print("data shape:", employees.shape)

data shape: (1000, 8)
data shape: (764, 8)
data shape: (764, 8)


In [5]:
# Missing values imputation
# Is it the best solution?
employees.fillna(0)
employees.infer_objects(copy=False)
employees.head(10)

  employees.fillna(0)


Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
0,Douglas,Male,8/6/1993,12:42 PM,97308,6.945,True,Marketing
2,Maria,Female,4/23/1993,11:17 AM,130590,11.858,False,Finance
3,Jerry,Male,3/4/2005,1:00 PM,138705,9.34,True,Finance
4,Larry,Male,1/24/1998,4:47 PM,101004,1.389,True,Client Services
5,Dennis,Male,4/18/1987,1:35 AM,115163,10.125,False,Legal
6,Ruby,Female,8/17/1987,4:20 PM,65476,10.012,True,Product
8,Angela,Female,11/22/2005,6:29 AM,95570,18.523,True,Engineering
9,Frances,Female,8/8/2002,6:51 AM,139852,7.524,True,Business Development
11,Julie,Female,10/26/1997,3:19 PM,102508,12.637,True,Legal
12,Brandon,Male,12/1/1980,1:08 AM,112807,17.492,True,Human Resources


In [6]:
# Impute the missing values with the last valid observation forward to next valid
# Is it the best solution?
employees.ffill()
employees.head(10)

  employees.ffill()


Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
0,Douglas,Male,8/6/1993,12:42 PM,97308,6.945,True,Marketing
2,Maria,Female,4/23/1993,11:17 AM,130590,11.858,False,Finance
3,Jerry,Male,3/4/2005,1:00 PM,138705,9.34,True,Finance
4,Larry,Male,1/24/1998,4:47 PM,101004,1.389,True,Client Services
5,Dennis,Male,4/18/1987,1:35 AM,115163,10.125,False,Legal
6,Ruby,Female,8/17/1987,4:20 PM,65476,10.012,True,Product
8,Angela,Female,11/22/2005,6:29 AM,95570,18.523,True,Engineering
9,Frances,Female,8/8/2002,6:51 AM,139852,7.524,True,Business Development
11,Julie,Female,10/26/1997,3:19 PM,102508,12.637,True,Legal
12,Brandon,Male,12/1/1980,1:08 AM,112807,17.492,True,Human Resources


In [7]:
# Impute on one column and store the result in the data frame
employees["Team"] = employees.Team.fillna("Unknown")
employees

Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
0,Douglas,Male,8/6/1993,12:42 PM,97308,6.945,True,Marketing
2,Maria,Female,4/23/1993,11:17 AM,130590,11.858,False,Finance
3,Jerry,Male,3/4/2005,1:00 PM,138705,9.340,True,Finance
4,Larry,Male,1/24/1998,4:47 PM,101004,1.389,True,Client Services
5,Dennis,Male,4/18/1987,1:35 AM,115163,10.125,False,Legal
...,...,...,...,...,...,...,...,...
994,George,Male,6/21/2013,5:47 PM,98874,4.479,True,Marketing
996,Phillip,Male,1/31/1984,6:30 AM,42392,19.675,False,Finance
997,Russell,Male,5/20/2013,12:39 PM,96914,1.421,False,Product
998,Larry,Male,4/20/2013,4:45 PM,60500,11.985,False,Business Development


### Bonnes pratiques avec les données manquantes

1. **Comprendre le contexte des données manquantes :**

- Recherchez les raisons pour lesquelles des données sont manquantes (par exemple, erreurs de saisie, non-réponse ou champs laissés intentionnellement vides).
- Déterminez si les données manquantes sont aléatoires ou systématiques, car cela peut influencer votre stratégie de traitement.

2. **Quantifier les données manquantes :**

- Utilisez `df.isnull().sum()` pour compter les valeurs manquantes par colonne
- Visualisez les modèles de données manquantes à l'aide de bibliothèques telles que `missingno` ou `seaborn` afin d'identifier les tendances

Exemple :

```python
import missingno as msno
msno.matrix(employees)
```

3. **Évaluez l'impact des données manquantes :**

- Évaluez l'impact des données manquantes sur votre analyse ou les performances de votre modèle.
- Si la proportion de données manquantes est faible, envisagez de supprimer les lignes ou colonnes concernées.

4. **Choisissez la bonne méthode d'imputation :**

    - **Données numériques :**

        - Utilisez la moyenne, la médiane ou le mode pour une imputation simple
        - Pour les séries chronologiques, envisagez le remplissage vers l'avant (`ffill`) ou vers l'arrière (`bfill`)


- **Données catégorielles :**
        - Remplacez les valeurs manquantes par la catégorie la plus fréquente ou un espace réservé tel que « Inconnu ».
    - **Techniques avancées :**
        - Utilisez la régression, les K plus proches voisins (KNN) ou des modèles d'apprentissage automatique pour une imputation plus précise.

    Exemples :
```python
    # Imputation moyenne
    employees[« Salary »] = employees[“Salary”].fillna(employees[« Salary »].mean())
    # Remplir avec une valeur donnée
    employees[« Team »] = employees[“Team”].fillna(« Unknown »)
```

5. **Signaler les données manquantes :**

    - Créez des colonnes indicatrices pour signaler les valeurs manquantes. Cela peut fournir des informations supplémentaires lors de l'analyse ou de la modélisation.
    Exemple :

```python
employees[« Salary_Missing »] = employees[« Salary »].isnull()

```

6. **Évitez la surimputation :**
- N'imputer **que lorsque cela est nécessaire**. La surimputation peut introduire un biais ou fausser les données.

7. **Traitez les données manquantes colonne par colonne :**
    - Traitez chaque colonne individuellement, car la méthode d'imputation peut varier en fonction du type de données et du contexte

8. **Documentez votre processus :**
- Enregistrez les méthodes et les raisons qui vous ont conduit à traiter les valeurs manquantes. Cela garantit la transparence et la reproductibilité

9. **Validez votre imputation :**
    - Après l'imputation, validez les résultats pour vous assurer qu'ils correspondent au contexte et à la distribution des données

10. **Tenez compte des connaissances du domaine :**
    - Tirez parti de l'expertise du domaine pour guider vos décisions concernant le traitement des valeurs manquantes

En suivant ces bonnes pratiques, vous pouvez gérer efficacement les données manquantes et maintenir l'intégrité de votre analyse.

## Gérer les doublons

Les doublons dans un jeu de données désignent des lignes ou des enregistrements identiques dans toutes les colonnes, ou dans certaines colonnes spécifiques. Ils peuvent être dus à des erreurs de saisie, à la fusion de jeux de données ou à d'autres raisons. Les doublons peuvent fausser l'analyse et conduire à des conclusions erronées. Il est donc important de les identifier et de les traiter convenablement.


### Types de doublons :

1. **Doublons exacts :** lignes complètement identiques dans toutes les colonnes
2. **Doublons partiels :** lignes identiques dans certaines colonnes, mais différentes dans d'autres
3. **Pseudo-doublons :** lignes qui semblent similaires, mais qui diffèrent en raison de la sensibilité à la casse, des espaces ou du formatage (par exemple, « Bob » vs « bob »)


### Pourquoi traiter les doublons ?

- Pour garantir l'intégrité et l'exactitude des données
- Pour éviter la surreprésentation de certains enregistrements dans l'analyse
- Pour améliorer les performances des modèles d'apprentissage automatique en réduisant la redondance

Lorsque vous travaillez avec des doublons dans un jeu de données, il est essentiel de les analyser et de les traiter convenablement afin de garantir la qualité de votre analyse. Voici quelques recommandations et bonnes pratiques améliorées pour traiter les doublons :


1. **Comprenez le contexte des doublons :**

- Cherchez à comprendre pourquoi il y a des doublons dans l'ensemble de données. Sont-ils dus à des erreurs de saisie, à des problèmes système ou à des répétitions valides ?


- Déterminez si les doublons sont acceptables ou s'ils doivent être supprimés en fonction du contexte de votre analyse.


2. **Identifiez les doublons :**

- Utilisez `df.duplicated()` pour identifier les lignes en double. Cette méthode renvoie une série booléenne indiquant si chaque ligne est un doublon.


- Utilisez `df.duplicated(subset=[« col1 », « col2 »])` pour vérifier les doublons en fonction de colonnes spécifiques.


3. **Supprimez les doublons :**

    - Utilisez `df.drop_duplicates()` pour supprimer les lignes en double. Par défaut, cette méthode conserve la première occurrence et supprime les suivantes.


- Spécifiez le paramètre `subset` pour supprimer les doublons en fonction de colonnes spécifiques.


- Utilisez le paramètre `keep` pour contrôler les doublons à conserver (`« first »`, `« last »` ou `False` pour tout supprimer).


4. **Gérer la sensibilité à la casse :**

- Pour les pseudo-doublons (par exemple, « Bob » et « bob »), normalisez les données en convertissant le texte en minuscules ou en majuscules à l'aide de `.str.lower()` ou `.str.upper()`


5. **Vérifiez les colonnes en double :**

- Utilisez `df.columns.duplicated()` pour identifier les noms de colonnes (pseudo-)dupliqués


- Supprimez ou renommez les colonnes en double pour éviter toute confusion dans l'analyse


6. **Documentez votre processus :**

- Documentez clairement les étapes suivies pour identifier et traiter les doublons. Cela garantit la transparence et la reproductibilité.


7. **Validez les résultats :**

- Après avoir supprimé les doublons, vérifiez l'ensemble de données pour vous assurer qu'aucune perte de données ou erreur involontaire ne s'est produite.

In [8]:
# Toy example
data = {
    "Names": ["Bob", "Jessica", "Mary", "John", "Mel", "Bob"],
    "Births": [968, 155, 578, 403, 199, 968]
}
df = pd.DataFrame(data=data)
print(df)

# Drop the duplicates and display the resulted dataframe
df.drop_duplicates()

     Names  Births
0      Bob     968
1  Jessica     155
2     Mary     578
3     John     403
4      Mel     199
5      Bob     968


Unnamed: 0,Names,Births
0,Bob,968
1,Jessica,155
2,Mary,578
3,John,403
4,Mel,199


In [9]:
# What if there are pseudo-duplicates, i.e. not exact duplicates
data = {
    "Names": ["Bob", "Jessica", "Mary", "John", "Mel", "bob"],
    "Births": [968, 155, 578, 403, 199, 968]
}
df = pd.DataFrame(data=data)
print(df)

# Try to drop the duplicates and display the resulted dataframe
df.drop_duplicates()

     Names  Births
0      Bob     968
1  Jessica     155
2     Mary     578
3     John     403
4      Mel     199
5      bob     968


Unnamed: 0,Names,Births
0,Bob,968
1,Jessica,155
2,Mary,578
3,John,403
4,Mel,199
5,bob,968


## Sélection avancée de données

La sélection avancée de données requiert l'utilisation de techniques plus complexes pour filtrer et extraire des sous-ensembles spécifiques de données à partir d'un DataFrame. Cela s'avère particulièrement utile lorsque vous travaillez avec des ensembles de données volumineux qui nécessitent un filtrage précis.

La sélection conditionnelle vous permet de filtrer les lignes en fonction de conditions spécifiques appliquées à une ou plusieurs colonnes. Par exemple :

- Sélectionner les lignes dont la valeur d'une colonne répond à un certain critère (par exemple, supérieur à, inférieur à, égal à)
- Utiliser des méthodes de chaîne pour filtrer les lignes en fonction de modèles de texte (par exemple, commence par, contient)

In [10]:
import pandas as pd

# Create a sample DataFrame
data = {
    "City": ["New York", "Los Angeles", "Chicago", "Houston"],
    "Population": [8398748, 3980405, 2716000, 2328066],
    "Area": [468.9, 1213.9, 227.3, 637.5],
    "Median_Income": [55350, 60563, 51039, 49882]
}

cities_df = pd.DataFrame(data)

In [11]:
# Conditional selection

# Select cities with a population greater than 3 million.
selected_rows = cities_df[cities_df["Population"] > 3000000]
print(selected_rows)

          City  Population    Area  Median_Income
0     New York     8398748   468.9          55350
1  Los Angeles     3980405  1213.9          60563


In [12]:
# Multiple conditions

# Select cities with a population greater than 2 million and a median income less than $55,000.
selected_conditions = cities_df[(cities_df["Population"] > 2000000) & (cities_df["Median_Income"] < 55000)]
print(selected_conditions)

      City  Population   Area  Median_Income
2  Chicago     2716000  227.3          51039
3  Houston     2328066  637.5          49882


In [13]:
# Conditional selection for categorical columns using String method

# Select cities with names starting with "L".
selected_startswith_L = cities_df[cities_df["City"].str.startswith("L")]
print(selected_startswith_L)

          City  Population    Area  Median_Income
1  Los Angeles     3980405  1213.9          60563


In [14]:
# Conditional selection for categorical columns using isin() method

# Example 1: select cities from a predefined list
selected_cities = cities_df[cities_df["City"].isin(["New York", "Los Angeles"])]
print(selected_cities)


# Example 2: select rows based on multiple conditions using the `isin()` method with a data frame.

# First create a list of dictionaries for conditions
conditions = [
    {"City": "New York", "Population": 8398748},
    {"City": "Chicago", "Median_Income": 51039}
]

# Select rows that match any condition
selected_conditions_df = cities_df[cities_df.isin(conditions).all(axis=1)]
print(selected_conditions_df)

          City  Population    Area  Median_Income
0     New York     8398748   468.9          55350
1  Los Angeles     3980405  1213.9          60563
Empty DataFrame
Columns: [City, Population, Area, Median_Income]
Index: []


In [15]:
# Conditional selection using a custom function

# Example : Select cities based on a custom filtering function.
def custom_filter(row):
    return row["Area"] > 300 and row["Median_Income"] > 50000

# Apply the custom function using apply()
# The argument axis specifies the axis along which the function is applied (0 for rows and 1 for columns)
selected_custom_filter = cities_df[cities_df.apply(custom_filter, axis=1)]
print(selected_custom_filter)

          City  Population    Area  Median_Income
0     New York     8398748   468.9          55350
1  Los Angeles     3980405  1213.9          60563


Exercice : reprendre le jeu de données météorologiques et testez ce qui vient d'être vu dans la section ci-dessus.

Par exemple :
1. Calculez la moyenne des précipitations pour chaque mois
2. Sélectionnez les jours où il y a de la neige


In [16]:
# TO DO

## Grouper et organiser les données

Le regroupement et la combinaison des données sont des techniques essentielles dans l'analyse des données qui vous permettent de résumer, d'agréger et d'analyser les données en fonction de critères spécifiques.


### Regroupement des données

Le regroupement consiste à diviser les données en sous-ensembles en fonction d'une ou plusieurs colonnes. Cela se fait généralement à l'aide de la méthode `groupby()` dans Pandas. Une fois les données regroupées, vous pouvez effectuer diverses opérations, telles que le calcul de la somme, de la moyenne, du nombre ou l'application de fonctions d'agrégation personnalisées.


### Combiner des données

La combinaison de données consiste à agréger ou à résumer les données regroupées. Cela peut être fait à l'aide de méthodes telles que :

- `agg()` : applique plusieurs fonctions d'agrégation aux données regroupées


- `apply()` : applique des fonctions personnalisées à chaque groupe


### Principaux cas d'utilisation

1. Résumer les données par catégories (par exemple, le total des ventes par région)
1. Calculer des statistiques au sein des groupes (par exemple, le salaire moyen par service)
1. Appliquer des transformations personnalisées aux données regroupées

Le regroupement et la combinaison des données sont des outils puissants pour extraire des informations et prendre des décisions basées sur les données.

In [17]:
# Grouping data with the groupby() method

data = {"Category": ["A", "B", "A", "B", "A", "B"],
        "Value": [10, 15, 20, 25, 30, 35]}
df = pd.DataFrame(data)

# Group by the "Category" column
grouped = df.groupby("Category")

In [18]:
# Aggregating data within Groups

# Calculate the sum within each group
sum_per_category = grouped['Value'].sum()
print(sum_per_category)

# Calculate the mean within each group
mean_per_category = grouped['Value'].mean()
print(mean_per_category)

Category
A    60
B    75
Name: Value, dtype: int64
Category
A    20.0
B    25.0
Name: Value, dtype: float64


In [19]:
# Combining data with agg() method

# e.g. calculate both sum and mean for "Value" within each group
result_agg = grouped.agg({"Value": ["sum", "mean"]})
print(result_agg)

         Value      
           sum  mean
Category            
A           60  20.0
B           75  25.0


In [20]:
# Custom aggregation functions

# Define a custom aggregation function
def custom_agg(values):
    return values.max() - values.min()

# Apply the custom aggregation function within each group
custom_result = grouped.agg({"Value": custom_agg})
print(custom_result)

          Value
Category       
A            20
B            20


Exercice : reprendre le jeu de données météorologiques et testez ce qui vient d'être vu dans la section ci-dessus.

In [21]:
weather = pd.read_csv("https://gitlabsu.sorbonne-universite.fr/scai/data-visualization/-/raw/main/data/weather.csv", sep=";")
weather

Unnamed: 0,date,precipitation,temp_max,temp_min,wind,weather,month
0,2012-01-01,0.0,12.8,5.0,4.7,drizzle,January
1,2012-01-02,10.9,10.6,2.8,4.5,rain,January
2,2012-01-03,0.8,11.7,7.2,2.3,rain,January
3,2012-01-04,20.3,12.2,5.6,4.7,rain,January
4,2012-01-05,1.3,8.9,2.8,6.1,rain,January
...,...,...,...,...,...,...,...
1456,2015-12-27,8.6,4.4,1.7,2.9,fog,December
1457,2015-12-28,1.5,5.0,1.7,1.3,fog,December
1458,2015-12-29,0.0,7.2,0.6,2.6,fog,December
1459,2015-12-30,0.0,5.6,-1.0,3.4,sun,December


In [22]:
# TO DO

## Concaténer des DataFrames

La concaténation est le processus qui consiste à combiner deux ou plusieurs DataFrames le long d'un axe particulier (lignes ou colonnes). Il s'agit d'une opération courante dans la manipulation des données qui permet de fusionner efficacement des ensembles de données.

### Types de concaténation :

1. **Concaténation verticale (ligne par ligne) :**

- Empile les lignes des DataFrames les unes sur les autres
- Utilisez `pd.concat()` avec la valeur par défaut `axis=0`

2. **Concaténation horizontale (par colonnes) :**

- Joint les DataFrames côte à côte en alignant les lignes
- Utilisez `pd.concat()` avec `axis=1`

### Paramètres importants :

- `ignore_index` : réinitialise l'index du DataFrame résultant
- `keys` : ajoute un index hiérarchique pour identifier le DataFrame source
- `join` : spécifie comment traiter les colonnes lors de la concaténation (par exemple, jointure `inner` ou `outer`)

### Traitement de colonnes différentes :

- Lorsque les DataFrames ont des colonnes différentes, les valeurs manquantes sont remplacées par `NaN`

In [23]:
# 1/ Vertical concatenation

# Create two sample DataFrames
df1 = pd.DataFrame({"A": [1, 2], "B": [3, 4]})
df2 = pd.DataFrame({"A": [5, 6], "B": [7, 8]})

# Concatenate vertically (stack rows)
result_vertical = pd.concat([df1, df2], ignore_index=True)
print(result_vertical)

# Remark: the argument ignore_index=True is used to reset the index of the resulting DataFrame.

# 2/ Horizontal concatenation

# Concatenate horizontally (join columns), using the argument axis=1
result_horizontal = pd.concat([df1, df2], axis=1)
print(result_horizontal)

   A  B
0  1  3
1  2  4
2  5  7
3  6  8
   A  B  A  B
0  1  3  5  7
1  2  4  6  8


In [24]:
# Concatenating dataFrames with different columns

# Create two DataFrames with different columns
df1 = pd.DataFrame({"A": [1, 2], "B": [3, 4]})
df2 = pd.DataFrame({"C": [5, 6], "D": [7, 8]})

# Concatenate vertically with different columns
result_diff_columns = pd.concat([df1, df2], ignore_index=True)
print(result_diff_columns)

# Remark: In this case, Pandas fills in missing values with NaN for columns that don't exist in one of the data frames.

     A    B    C    D
0  1.0  3.0  NaN  NaN
1  2.0  4.0  NaN  NaN
2  NaN  NaN  5.0  7.0
3  NaN  NaN  6.0  8.0


In [25]:
# Concatenating data frames with matching columns:

# Create two DataFrames with matching columns
df1 = pd.DataFrame({"A": [1, 2], "B": [3, 4]})
df2 = pd.DataFrame({"A": [5, 6], "B": [7, 8]})

# Concatenate vertically with matching columns
result_match_columns = pd.concat([df1, df2], ignore_index=True)
print(result_match_columns)

# Remark: Here, both DataFrames have the same columns, so the concatenation works seamlessly.

   A  B
0  1  3
1  2  4
2  5  7
3  6  8


## Remodeler et pivoter les données

Remodeler et pivoter les données implique de transformer la structure d'un cadre de données afin de mieux répondre aux besoins d'analyse ou de visualisation.

Un tableau croisé dynamique permet de résumer, d'agréger et de réorganiser des données tabulaires. Il s'agit d'un moyen pratique de transformer et d'organiser les données en fonction des besoins d'analyse.

Composantes d'un tableau croisé dynamique :

- **Lignes :** les lignes du tableau croisé dynamique représentent généralement des variables catégorielles ou des groupes sur la base desquels vous souhaitez agréger les données

- **Colonnes :** les colonnes représentent un autre ensemble de variables catégorielles. Les données sont regroupées et résumées en fonction de l'intersection des lignes et des colonnes

- **Valeurs :** les valeurs du tableau croisé dynamique sont le résultat de l'application d'une fonction d'agrégation (par exemple, somme, moyenne, nombre) aux données numériques de l'ensemble de données d'origine.

Un tableau croisé dynamique est également appelé tableau croisé et est lié à ce que nous appelons un tableau au format large.

D'autre part, les tableaux au format long sont le résultat de l'opération « unpivot » : une ou plusieurs colonnes sont des variables d'identification (id_vars), tandis que toutes les autres colonnes, considérées comme des variables mesurées (value_vars), sont détachées de l'axe des lignes, ne laissant que deux colonnes non identifiantes, « variable » et « valeur ».

Les deux principales fonctions permettant de remodeler les données sont `melt()` (du format large au format long) et `pivot_table()` (du format long au format large).

**Pivot**

In [26]:
import pandas as pd

# load tha dataset
employees = pd.read_csv("https://gitlabsu.sorbonne-universite.fr/scai/data-visualization/-/raw/main/data/employees.csv").dropna(axis=0)
employees

# pivot
pivot = employees.pivot_table(index="Team", columns="Gender", values="Salary", aggfunc="mean")

# Display with rounding numbers
pivot.round()

Gender,Female,Male
Team,Unnamed: 1_level_1,Unnamed: 2_level_1
Business Development,92645.0,87851.0
Client Services,85743.0,93782.0
Distribution,79812.0,92302.0
Engineering,89708.0,99937.0
Finance,93483.0,95664.0
Human Resources,89836.0,92150.0
Legal,91749.0,84492.0
Marketing,97117.0,84746.0
Product,86334.0,87615.0
Sales,90056.0,93304.0


**La fonction melt**

La fonction `melt()` est utilisée pour décomposer ou fusionner un cadre de données de format large en format long. Elle est particulièrement utile lorsque vous disposez d'un cadre de données dont les colonnes représentent différentes variables et que vous souhaitez le transformer en un format où ces variables sont représentées sous forme de lignes.

In [27]:
import pandas as pd
employees = pd.read_csv("https://gitlabsu.sorbonne-universite.fr/scai/data-visualization/-/raw/main/data/employees.csv").dropna(axis=0)

# melt
melt = pd.melt(employees, id_vars="First Name", var_name="Variable", value_name="Value")

In [28]:
# Another example

# rows: observations, cols: features, cells: value for one observation and one feature
data = {
    "Date": ["2022-01-01", "2022-01-02", "2022-01-03"],
    "Temperature": [25, 28, 24],
    "Humidity": [50, 45, 60]
}

df = pd.DataFrame(data)
print(df)

# Long format. cols: ID, Variable, values
melt = pd.melt(df, id_vars=["Date"], var_name="Variable", value_name="Value")
print(melt)

# Wide format from the long format = the initial data
melt.pivot(index="Date", columns="Variable", values="Value")

         Date  Temperature  Humidity
0  2022-01-01           25        50
1  2022-01-02           28        45
2  2022-01-03           24        60
         Date     Variable  Value
0  2022-01-01  Temperature     25
1  2022-01-02  Temperature     28
2  2022-01-03  Temperature     24
3  2022-01-01     Humidity     50
4  2022-01-02     Humidity     45
5  2022-01-03     Humidity     60


Variable,Humidity,Temperature
Date,Unnamed: 1_level_1,Unnamed: 2_level_1
2022-01-01,50,25
2022-01-02,45,28
2022-01-03,60,24


## Travailler avec des séries chronologiques


L'analyse des séries chronologiques implique de travailler avec des jeux de données dont les points sont indexés par ordre chronologique, comme dans l'exemple ci-dessous. Pandas fournit un ensemble d'outils pour traiter et analyser les données de séries chronologiques :

* Convertir les dates dans un format pratique
* Rééchantillonner les données : suréchantillonnage ou sous-échantillonnage
* Statistiques glissantes
* Découpage temporel : sélectionner une plage de données pour un intervalle de temps


```bash
      Date  Temperature  Humidity
2022-01-01           25        50
2022-01-02           28        45
2022-01-03           24        60
...                 ...       ...
```

In [29]:
# Toy dataset

import pandas as pd

data = {
    "date": ["2022-01-01", "2022-01-02", "2022-01-03"],
    "temperature": [25, 28, 24],
    "humidity": [50, 45, 60]
}

df = pd.DataFrame(data)
df

Unnamed: 0,date,temperature,humidity
0,2022-01-01,25,50
1,2022-01-02,28,45
2,2022-01-03,24,60


**Conversion en dataframe et définition de l'index**

Cela permet de s'assurer que les colonnes liées au temps sont au format date/heure et définies comme index. Cela facilite les opérations basées sur le temps.

In [30]:
# Convert "Date" to datetime format
df["date"] = pd.to_datetime(df["date"])
df.dtypes

date           datetime64[ns]
temperature             int64
humidity                int64
dtype: object

In [31]:
# The datetime object implements usefull methods, e.g. that extract the year, month, day, etc.
dt = df["date"]
year = dt.dt.year
month = dt.dt.month_name()
day = dt.dt.day_name()

# Print the results
print(year)
print(month)
print(day)

0    2022
1    2022
2    2022
Name: date, dtype: int32
0    January
1    January
2    January
Name: date, dtype: object
0    Saturday
1      Sunday
2      Monday
Name: date, dtype: object


In [32]:
# set the datetime object as the index
df.set_index("date", inplace=True) # inplace modify the data frame and does not return anything
df

Unnamed: 0_level_0,temperature,humidity
date,Unnamed: 1_level_1,Unnamed: 2_level_1
2022-01-01,25,50
2022-01-02,28,45
2022-01-03,24,60


**Ré-échantillonner**

Cela implique de modifier la fréquence des données chronologiques.

La fonction `resample()` est utilisée pour agréger ou sous-échantillonner les données en fonction d'une fréquence spécifiée (par exemple, quotidienne à mensuelle).

In [33]:
# Resample daily data to monthly and calculate the mean
df_resampled = df.resample("M").mean()

df_resampled

  df_resampled = df.resample("M").mean()


Unnamed: 0_level_0,temperature,humidity
date,Unnamed: 1_level_1,Unnamed: 2_level_1
2022-01-31,25.666667,51.666667


**Statistiques glissantes (ou mobiles) :**

Les fonctions glissantes permettent de calculer des statistiques glissantes telles que les moyennes mobiles ou les écarts-types glissants.

In [34]:
# Calculate a 3-day rolling mean
df["Rolling_Mean"] = df["temperature"].rolling(window=3).mean()
df

Unnamed: 0_level_0,temperature,humidity,Rolling_Mean
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2022-01-01,25,50,
2022-01-02,28,45,
2022-01-03,24,60,25.666667


**Découpage basé sur le temps**

Pandas vous permet de découper et de filtrer les données en fonction d'intervalles de temps.

In [35]:
# Select data for a specific time range
df_subset = df["2022-01-01":"2022-01-02"]
df_subset

Unnamed: 0_level_0,temperature,humidity,Rolling_Mean
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2022-01-01,25,50,
2022-01-02,28,45,


Exercice : reprendre le jeu de données météorologiques et testez ce qui vient d'être vu dans la section ci-dessus.

In [36]:
# TO DO