# Les biblioth√®ques de la science des donn√©es : Pandas, NumPy

Dans ce notebook, nous allons (r√©-)apprendre √† nettoyer, transformer, pr√©parer des donn√©es pour l'analyse. Nous verrons ensuite comment faire des visualisations √©l√©mentaires.

## üêº Pandas

<p align="center">
    <img src="https://www.analyticslane.com/storage/2020/10/pandas.png" width="300"/>
</p>

Pandas est une biblioth√®que Python utilis√©e pour la manipulation et l'analyse de donn√©es. Elle fournit des structures de donn√©es et des fonctions con√ßues pour traiter efficacement les donn√©es structur√©es, y compris les donn√©es tabulaires telles que les feuilles de calcul (Excel) et les tables SQL.


Les principales fonctionnalit√©s de Pandas sont d√©crites ci-dessous :


* Pandas introduit deux structures de donn√©es principales :

    * S√©rie : tableau √©tiquet√© √† une dimension
    * DataFrame : structure de donn√©es √©tiquet√©e √† deux dimensions avec des colonnes de types potentiellement diff√©rents


* Traitement des donn√©es manquantes : Pandas fournit diverses m√©thodes pour traiter les valeurs manquantes, notamment le remplissage, la suppression et l'imputation


* Alignement et fusion des donn√©es : Pandas permet un alignement et une fusion efficaces des ensembles de donn√©es sur la base de cl√©s ou d'indices communs


* Op√©rations GroupBy : Pandas permet de regrouper les donn√©es par une ou plusieurs colonnes et d'effectuer des op√©rations d'agr√©gation (par exemple, somme, moyenne, nombre)


* Traitement des donn√©es de s√©ries chronologiques : Pandas fournit des outils pour traiter les donn√©es de s√©ries chronologiques, notamment la g√©n√©ration de plages de dates et le r√©√©chantillonnage



Dans ce qui suit, nous allons :

* **cr√©er des DataFrames** et **importer des fichiers CSV**
* **acc√©der aux lignes et aux colonnes** (indexation et d√©coupage)
* **filtrer les donn√©es** en fonction de conditions
* **organiser** et **r√©sumer les donn√©es** √† l'aide du tri et du regroupement
* **calculer des statistiques** efficacement

In [3]:
# Usual import
import pandas as pd

## Cr√©er un objet DataFrame

La premi√®re √©tape dans la manipulation des donn√©es avec Pandas consiste √† cr√©er un objet DataFrame, qui est une structure de donn√©es tabulaire bidimensionnelle avec des colonnes pouvant √™tre de types diff√©rents. 

Cet objet de donn√©es peut √™tre cr√©√© √† partir de listes, de dictionnaires ou de tableaux √† l'aide de la fonction `pd.DataFrame`. Un objet DataFrame est g√©n√©ralement nomm√© `df`.

Il sert de base pour les manipulations de donn√©es ult√©rieures.

In [4]:
# First print the manual of the function
help(pd.DataFrame)

Help on class DataFrame in module pandas.core.frame:

class DataFrame(pandas.core.generic.NDFrame, pandas.core.arraylike.OpsMixin)
 |  DataFrame(
 |      data=None,
 |      index: 'Axes | None' = None,
 |      columns: 'Axes | None' = None,
 |      dtype: 'Dtype | None' = None,
 |      copy: 'bool | None' = None
 |  ) -> 'None'
 |
 |  Two-dimensional, size-mutable, potentially heterogeneous tabular data.
 |
 |  Data structure also contains labeled axes (rows and columns).
 |  Arithmetic operations align on both row and column labels. Can be
 |  thought of as a dict-like container for Series objects. The primary
 |  pandas data structure.
 |
 |  Parameters
 |  ----------
 |  data : ndarray (structured or homogeneous), Iterable, dict, or DataFrame
 |      Dict can contain Series, arrays, constants, dataclass or list-like objects. If
 |      data is a dict, column order follows insertion-order. If a dict contains Series
 |      which have an index defined, it is aligned by its index. This

In [5]:
# Option 1: create a dataframe from a list
data = [("Mary", 968),
        ("Jessica", 155),
        ("Bob", 578),
        ("John", 403),
        ("Mel", 199)]
columns = ["Names", "Births"]

df = pd.DataFrame(data=data, columns=columns)
df

Unnamed: 0,Names,Births
0,Mary,968
1,Jessica,155
2,Bob,578
3,John,403
4,Mel,199


In [6]:
# Option 2: create a dataframe from a dictionary
data = {
    "Names": ["Bob", "Jessica", "Mary", "John", "Mel"],
    "Births": [968, 155, 578, 403, 199]
}

df = pd.DataFrame(data=data)
df

Unnamed: 0,Names,Births
0,Bob,968
1,Jessica,155
2,Mary,578
3,John,403
4,Mel,199


Les dataframes sont des **structures de donn√©es tabulaires** : ils contiennent des lignes et des colonnes.

Les lignes et les colonnes d'un dataframe **sont toutes deux nomm√©es**. Utilisez les instructions suivantes pour obtenir la liste des noms de lignes et des noms de colonnes : `df.index` et `df.columns`. Par d√©faut, les noms des lignes sont des nombres (0, 1, 2, ...), mais ils peuvent √™tre modifi√©s. De plus, un dataframe contient des colonnes de types potentiellement diff√©rents (entiers, flottants, cha√Ænes de caract√®res, dates, etc.). Chaque valeur d'une m√™me colonne doit √™tre du m√™me type.

De nombreux attributs sont stock√©s dans un objet DataFrame. Ces attributs aident √† comprendre la structure et le contenu des donn√©es :


* **Shape** : renvoie un tuple indiquant le nombre de lignes et de colonnes.  
  *Attribut : `df.shape`*

* **Columns** : r√©pertorie toutes les √©tiquettes de colonne dans le DataFrame. 
  *Attribut : `df.columns`*

* **Index** : affiche l'index des lignes (√©tiquettes) du DataFrame. 
  *Attribut : `df.index`*

* **Types de donn√©es** : affiche le type de donn√©es de chaque colonne.  
  *Attribut : `df.dtypes`*

* **Valeurs** : renvoie les donn√©es sous forme de tableau NumPy.  
  *Attribut : `df.values`*

* **Head** : affiche les premi√®res lignes (5 par d√©faut) pour un aper√ßu rapide des donn√©es.  
  *M√©thode : `df.head()`*

* **Tail** : affiche les derni√®res lignes (5 par d√©faut) pour inspecter la fin de l'ensemble de donn√©es.  
  *M√©thode : `df.tail()`* 

In [7]:
# prints the row and column names
print(df.index)
print(df.columns)

RangeIndex(start=0, stop=5, step=1)
Index(['Names', 'Births'], dtype='object')


In [8]:
# Modify the row names
df.index = ["row0", "row1", "row2", "row3", "row4"]
print(df.index)

Index(['row0', 'row1', 'row2', 'row3', 'row4'], dtype='object')


In [9]:
# Modify the column names
df.columns = ["names", "births"]
print(df.columns)

Index(['names', 'births'], dtype='object')


In [10]:
# Prints the type of the columns
df.dtypes

names     object
births     int64
dtype: object

In [11]:
# Prints the dimensions of the data frame
df.shape

(5, 2)

## Ajouter des colonnes √† un *dataframe*

Pour ajouter une nouvelle colonne √† un dataframe existant, proc√©dez comme suit :

```python
df[new_col_name] = some_values
```
o√π `new_col_name` est le nom de la nouvelle colonne et `some_values` est une s√©quence des valeurs que nous voulons stocker dans le dataframe. 

In [12]:
new_col_name = "Numbers"
values = [10, 11, 12, 13, 14]
df[new_col_name] = values
df

Unnamed: 0,names,births,Numbers
row0,Bob,968,10
row1,Jessica,155,11
row2,Mary,578,12
row3,John,403,13
row4,Mel,199,14


Il convient de noter que cette m√©thode permet √©galement de mettre √† jour des colonnes existantes.

## S√©lectionner une colonne


Lorsque vous s√©lectionnez une colonne dans un DataFrame, le r√©sultat est un objet ```Series```, voir [ici](https://pandas.pydata.org/docs/user_guide/dsintro.html#basics-series).


Cela peut √™tre fait de deux mani√®res :

In [13]:
# Option 1
df.births

row0    968
row1    155
row2    578
row3    403
row4    199
Name: births, dtype: int64

In [14]:
# Option 2
df["births"]

row0    968
row1    155
row2    578
row3    403
row4    199
Name: births, dtype: int64

## S√©lectionner des colonnes et des lignes


Il est possible de s√©lectionner √† la fois des lignes et des colonnes en connaissant le nom des lignes et le nom des colonnes et en utilisant l'attribut `.loc` :
```python
df.loc[row_names, col_names]
```
o√π `row_names` est la liste des noms des lignes et `col_names` les noms des colonnes.

In [15]:
data = {
    "Names": ["Bob", "Jessica", "Mary", "John", "Mel"],
    "Births": [968, 155, 578, 403, 199]
}

df = pd.DataFrame(data=data)

In [16]:
row_names = [0, 2, 4]
col_names = ["Births"]
df.loc[row_names, col_names]

Unnamed: 0,Births
0,968
2,578
4,199


In [17]:
# Or select multiple columns
row_names = [0, 2, 4]
col_names = ["Births", "Names"]
df.loc[row_names, col_names]

Unnamed: 0,Births,Names
0,968,Bob
2,578,Mary
4,199,Mel


In [18]:
# Alternativelly
# the character ':' means selecting all the rows of the dataframe
print(df.loc[:, "Births"])

# Or all the columns
print(df.loc[row_names, :])

0    968
1    155
2    578
3    403
4    199
Name: Births, dtype: int64
  Names  Births
0   Bob     968
2  Mary     578
4   Mel     199


La s√©lection de lignes (et de colonnes) ne peut donc √™tre effectu√©e que si vous connaissez les noms des lignes (et des colonnes). Sinon, une erreur se produira.

## Lire un fichier externe (CSV, XLS)

Lorsque vous travaillez avec des donn√©es, la premi√®re √©tape consiste √† importer l'ensemble de donn√©es dans votre environnement Python. Le choix de la fonction d√©pend du format de l'ensemble de donn√©es, qui peut inclure des fichiers CSV, Excel, JSON et SQL, entre autres.

Pour les ensembles de donn√©es tabulaires sous forme de tableaux avec des lignes et des colonnes, les deux principales fonctions utilis√©es pour l'importation de donn√©es sont les suivantes :

*   **Fichiers CSV** : `pd.read_csv()` : pour importer des ensembles de donn√©es √† partir de fichiers texte simples o√π les valeurs sont s√©par√©es par une virgule ou un point-virgule

*   **Fichiers Excel** : `pd.read_excel()` : pour importer des ensembles de donn√©es √† partir de feuilles Excel, qui peuvent √™tre au format `.xls` ou `.xlsx`

* **Autres formats** : de nombreux autres formats sont pris en charge, tels que les fichiers JSON (`pd.read_json()`), les tableaux HTML (`pd.read_html()`) et les tableaux SQL (`pd.read_sql_table()`)


R√©f√©rence : voir [ici](https://pandas.pydata.org/docs/user_guide/io.html).

Pour chaque fonction, vous pouvez passer le chemin d'acc√®s ou l'URL du fichier souhait√©.

In [19]:
help(pd.read_csv)

Help on function read_csv in module pandas.io.parsers.readers:

read_csv(
    filepath_or_buffer: 'FilePath | ReadCsvBuffer[bytes] | ReadCsvBuffer[str]',
    *,
    sep: 'str | None | lib.NoDefault' = <no_default>,
    delimiter: 'str | None | lib.NoDefault' = None,
    header: "int | Sequence[int] | None | Literal['infer']" = 'infer',
    names: 'Sequence[Hashable] | None | lib.NoDefault' = <no_default>,
    index_col: 'IndexLabel | Literal[False] | None' = None,
    usecols: 'UsecolsArgType' = None,
    dtype: 'DtypeArg | None' = None,
    engine: 'CSVEngine | None' = None,
    converters: 'Mapping[Hashable, Callable] | None' = None,
    true_values: 'list | None' = None,
    false_values: 'list | None' = None,
    skipinitialspace: 'bool' = False,
    skiprows: 'list[int] | int | Callable[[Hashable], bool] | None' = None,
    skipfooter: 'int' = 0,
    nrows: 'int | None' = None,
    na_values: 'Hashable | Iterable[Hashable] | Mapping[Hashable, Iterable[Hashable]] | None' = None,
  

Important : vous devez faire attention au s√©parateur dans vos fichiers CSV ! Par d√©faut, les valeurs sont s√©par√©es par une **virgule**, mais parfois ce n'est pas le cas et nous devons le modifier.

In [20]:
# With default value
weather = pd.read_csv("https://gitlabsu.sorbonne-universite.fr/scai/data-visualization/-/raw/main/data/weather.csv")
weather

Unnamed: 0,date;precipitation;temp_max;temp_min;wind;weather;month
0,2012-01-01;0.0;12.8;5.0;4.7;drizzle;January
1,2012-01-02;10.9;10.6;2.8;4.5;rain;January
2,2012-01-03;0.8;11.7;7.2;2.3;rain;January
3,2012-01-04;20.3;12.2;5.6;4.7;rain;January
4,2012-01-05;1.3;8.9;2.8;6.1;rain;January
...,...
1456,2015-12-27;8.6;4.4;1.7;2.9;fog;December
1457,2015-12-28;1.5;5.0;1.7;1.3;fog;December
1458,2015-12-29;0.0;7.2;0.6;2.6;fog;December
1459,2015-12-30;0.0;5.6;-1.0;3.4;sun;December


In [21]:
# With the correct separator
weather = pd.read_csv("https://gitlabsu.sorbonne-universite.fr/scai/data-visualization/-/raw/main/data/weather.csv", sep=";")
weather

Unnamed: 0,date,precipitation,temp_max,temp_min,wind,weather,month
0,2012-01-01,0.0,12.8,5.0,4.7,drizzle,January
1,2012-01-02,10.9,10.6,2.8,4.5,rain,January
2,2012-01-03,0.8,11.7,7.2,2.3,rain,January
3,2012-01-04,20.3,12.2,5.6,4.7,rain,January
4,2012-01-05,1.3,8.9,2.8,6.1,rain,January
...,...,...,...,...,...,...,...
1456,2015-12-27,8.6,4.4,1.7,2.9,fog,December
1457,2015-12-28,1.5,5.0,1.7,1.3,fog,December
1458,2015-12-29,0.0,7.2,0.6,2.6,fog,December
1459,2015-12-30,0.0,5.6,-1.0,3.4,sun,December


## Op√©rations √©l√©mentaires sur un DataFrame

Les op√©rations de base sur un Dataframe, telles que l'addition, la multiplication et la division entre deux colonnes, sont effectu√©es **√©l√©ment par √©l√©ment**, c'est-√†-dire qu'elles sont effectu√©es ligne par ligne pour les √©l√©ments correspondants.


Par exemple :

* **Ajouter deux colonnes** : calcule la somme des √©l√©ments correspondants de deux colonnes.  
  *Op√©ration : `df[‚Äúcol1‚Äù] + df[‚Äúcol2‚Äù]`*

* **Multiplier deux colonnes** : multiplie les √©l√©ments correspondants de deux colonnes.  
  *Op√©ration : `df[‚Äúcol1‚Äù] * df[‚Äúcol2‚Äù]`*

* **Diviser deux colonnes** : divise les √©l√©ments d'une colonne par les √©l√©ments correspondants d'une autre colonne.  
  *Op√©ration : `df[‚Äúcol1‚Äù] / df[‚Äúcol2‚Äù]`*

Ces op√©rations donnent lieu √† un nouvel objet `Series` qui peut √™tre attribu√© √† une colonne nouvelle ou existante.

In [None]:
# Exercice : calculez la temp√©rature moyenne et enregistrez-la dans une nouvelle colonne ¬´ temp_mean ¬ª.
# Astuce : vous pouvez additionner, multiplier ou diviser deux colonnes. L'op√©ration s'effectue √©l√©ment par √©l√©ment.

# TO DO

In [None]:
# Dans cette cellule, appliquez les fonctions ou attributs pr√©c√©dents √† l'ensemble de donn√©es m√©t√©orologiques du dataset.

# TO DO

## D√©crire les donn√©es

La description des donn√©es est une √©tape essentielle pour comprendre la structure et le contenu d'un ensemble de donn√©es. Pandas fournit plusieurs m√©thodes pour r√©sumer et inspecter les donn√©es, notamment :

1. **`info()`** : affiche un r√©sum√© concis du DataFrame, y compris le nombre d'entr√©es non nulles, les types de donn√©es et l'utilisation de la m√©moire
2. **`describe()`** : g√©n√®re des statistiques descriptives pour les colonnes num√©riques, telles que le nombre, la moyenne, l'√©cart type, les valeurs minimales et maximales
3. **`head(n)`** : affiche les `n` premi√®res lignes de l'ensemble de donn√©es (la valeur par d√©faut est 5)
4. **`tail(n)`** : affiche les `n` derni√®res lignes de l'ensemble de donn√©es (la valeur par d√©faut est 5)

Ces m√©thodes permettent d'√©valuer rapidement la structure de l'ensemble de donn√©es, d'identifier les valeurs manquantes et de comprendre la distribution des donn√©es num√©riques.

In [24]:
# prints a summary of the data
weather.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1461 entries, 0 to 1460
Data columns (total 7 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   date           1461 non-null   object 
 1   precipitation  1461 non-null   float64
 2   temp_max       1461 non-null   float64
 3   temp_min       1461 non-null   float64
 4   wind           1461 non-null   float64
 5   weather        1461 non-null   object 
 6   month          1461 non-null   object 
dtypes: float64(4), object(3)
memory usage: 80.0+ KB


In [25]:
# Statistics of each numerical column of the data
weather.describe()

Unnamed: 0,precipitation,temp_max,temp_min,wind
count,1461.0,1461.0,1461.0,1461.0
mean,3.029432,16.439083,8.234771,3.241136
std,6.680194,7.349758,5.023004,1.437825
min,0.0,-1.6,-7.1,0.4
25%,0.0,10.6,4.4,2.2
50%,0.0,15.6,8.3,3.0
75%,2.8,22.2,12.2,4.0
max,55.9,35.6,18.3,9.5


In [26]:
# Prints the 5 first rows of the dataset
weather.head(5)

Unnamed: 0,date,precipitation,temp_max,temp_min,wind,weather,month
0,2012-01-01,0.0,12.8,5.0,4.7,drizzle,January
1,2012-01-02,10.9,10.6,2.8,4.5,rain,January
2,2012-01-03,0.8,11.7,7.2,2.3,rain,January
3,2012-01-04,20.3,12.2,5.6,4.7,rain,January
4,2012-01-05,1.3,8.9,2.8,6.1,rain,January


In [27]:
# or the last rows
weather.tail()

Unnamed: 0,date,precipitation,temp_max,temp_min,wind,weather,month
1456,2015-12-27,8.6,4.4,1.7,2.9,fog,December
1457,2015-12-28,1.5,5.0,1.7,1.3,fog,December
1458,2015-12-29,0.0,7.2,0.6,2.6,fog,December
1459,2015-12-30,0.0,5.6,-1.0,3.4,sun,December
1460,2015-12-31,0.0,5.6,-2.1,3.5,sun,December


In [28]:
# ADVANCED set new indexes with the values of one column, and store it
# the function set_index() allows setting a specific column as the index of the DataFrame for better data organization and access

weather = weather.set_index("date")
weather.head()

Unnamed: 0_level_0,precipitation,temp_max,temp_min,wind,weather,month
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2012-01-01,0.0,12.8,5.0,4.7,drizzle,January
2012-01-02,10.9,10.6,2.8,4.5,rain,January
2012-01-03,0.8,11.7,7.2,2.3,rain,January
2012-01-04,20.3,12.2,5.6,4.7,rain,January
2012-01-05,1.3,8.9,2.8,6.1,rain,January


## Statistiques

Cette section se concentre sur le calcul de diverses mesures statistiques permettant d'analyser l'ensemble de donn√©es. Ces mesures fournissent des informations sur la distribution, la tendance centrale et la variabilit√© des donn√©es. Les principales fonctions statistiques abord√©es sont les suivantes :

1. **Moyenne** : valeur moyenne des colonnes num√©riques.
2. **M√©diane** : valeur m√©diane, c'est-√†-dire la valeur centrale lorsque les donn√©es sont tri√©es.
3. **√âcart type (std)** : Une mesure de la dispersion ou de la dispersion des donn√©es
4. **Minimum (min)** : La plus petite valeur dans chaque colonne num√©rique
5. **Maximum (max)** : La plus grande valeur dans chaque colonne num√©rique

En outre, des m√©thodes d'analyse des donn√©es cat√©gorielles, telles que le comptage des valeurs uniques et de leurs occurrences, sont √©galement pr√©sent√©es. Ces statistiques aident √† comprendre la structure de l'ensemble de donn√©es et √† identifier des mod√®les ou des anomalies.

In [31]:
# Compute the mean of each numerical column
weather.mean(numeric_only=True)

precipitation     3.029432
temp_max         16.439083
temp_min          8.234771
wind              3.241136
dtype: float64

In [35]:
# Compute the mean of each numerical column
weather.median(numeric_only=True)

precipitation     0.0
temp_max         15.6
temp_min          8.3
wind              3.0
dtype: float64

In [34]:
# Compute the mean of each numerical column
weather.std(numeric_only=True)

precipitation    6.680194
temp_max         7.349758
temp_min         5.023004
wind             1.437825
dtype: float64

In [33]:
print(weather.min())
weather.max()

precipitation        0.0
temp_max            -1.6
temp_min            -7.1
wind                 0.4
weather          drizzle
month              April
dtype: object


precipitation         55.9
temp_max              35.6
temp_min              18.3
wind                   9.5
weather                sun
month            September
dtype: object

In [36]:
# get the unique values of a categorical column
weather.month.unique()

array(['January', 'February', 'March', 'April', 'May', 'June', 'July',
       'August', 'September', 'October', 'November', 'December'],
      dtype=object)

In [37]:
# Count the number of rows of each month
print(weather.month.value_counts())

# Count the number of rows of each weather category
print(weather.weather.value_counts())


month
January      124
March        124
July         124
May          124
December     124
October      124
August       124
April        120
September    120
June         120
November     120
February     113
Name: count, dtype: int64
weather
sun        714
fog        411
rain       259
drizzle     54
snow        23
Name: count, dtype: int64


L'argument ¬´ axis ¬ª est un param√®tre cl√© dans de nombreuses fonctions statistiques, ainsi que dans de nombreuses autres fonctions Pandas, telles que ¬´ drop() ¬ª, ¬´ apply() ¬ª et ¬´ sum() ¬ª. Il sp√©cifie si l'op√©ration doit √™tre effectu√©e sur les lignes ou les colonnes :

1. **¬´ axis=0 ¬ª (par d√©faut)** : op√®re sur les lignes (c'est-√†-dire colonne par colonne). Par exemple, `df.mean(axis=0)` calcule la moyenne de chaque colonne.
2. **`axis=1`** : op√®re sur les colonnes (c'est-√†-dire ligne par ligne). Par exemple, `df.mean(axis=1)` calcule la moyenne de chaque ligne.

Repr√©sentation visuelle :

* **`axis=0`** : ‚Üì (op√©ration sur les lignes, par colonne)
* **`axis=1`** : ‚Üí (op√©ration sur les colonnes, par ligne)

In [None]:
weather.mean(axis=1)

## Trier le DataFrame

Le tri d'un DataFrame est une op√©ration fondamentale qui permet d'organiser et d'analyser efficacement les donn√©es. Pandas fournit les m√©thodes `sort_values()` et `sort_index()` pour trier les donn√©es en fonction des valeurs des colonnes ou des indices des lignes.

**Les principales op√©rations de tri :**

1. **Tri par une seule colonne** : classe les lignes en fonction des valeurs d'une colonne sp√©cifique.
```python
    df.sort_values(by=¬´ column_name ¬ª)
```
2. **Trier par ordre d√©croissant** : utilisez le param√®tre `ascending=False` pour trier par ordre d√©croissant.
```python
    df.sort_values(by=¬´ column_name ¬ª, ascending=False)
```
3. **Trier par plusieurs colonnes** : Sp√©cifiez plusieurs colonnes et leurs ordres de tri respectifs.
```python
    df.sort_values(by=[¬´ col1 ¬ª, ¬´ col2 ¬ª], ascending=[True, False])
```
4. **Trier par index** : r√©organisez les lignes en fonction de leurs valeurs d'index.
```python
    df.sort_index()
```

In [38]:
# Sorting a data frame by a single column

# Create a sample data frame
data = {"Name": ["Alice", "Bob", "Charlie", "David"],
        "Age": [25, 22, 30, 28],
        "Salary": [50000, 60000, 75000, 70000]}
df = pd.DataFrame(data)

# Sort by the "Age" column in ascending order
df_sorted_age = df.sort_values(by="Age")
print(df_sorted_age)

      Name  Age  Salary
1      Bob   22   60000
0    Alice   25   50000
3    David   28   70000
2  Charlie   30   75000


In [39]:
# Sorting in descending order

df_sorted_age_desc = df.sort_values(by="Age", ascending=False)
print(df_sorted_age_desc)

      Name  Age  Salary
2  Charlie   30   75000
3    David   28   70000
0    Alice   25   50000
1      Bob   22   60000


In [40]:
# Sorting by multiple columns

df_sorted_multiple = df.sort_values(by=["Age", "Salary"], ascending=[True, False])
print(df_sorted_multiple)

      Name  Age  Salary
1      Bob   22   60000
0    Alice   25   50000
3    David   28   70000
2  Charlie   30   75000


In [41]:
# Sorting the index, i.e. reorder the rows with respect to the row names

df_sorted_index = df.sort_index()
print(df_sorted_index)

      Name  Age  Salary
0    Alice   25   50000
1      Bob   22   60000
2  Charlie   30   75000
3    David   28   70000


In [None]:
# Exercise: apply the sorting methods on the weather dataset and the employees dataset

# TO DO