# Exercice de synthèse

## Données

Les données que nous utilisons dans ce carnet concernent les émissions de gaz à effet de serre estimées au niveau communal par l'ADEME. Le jeu de données est 
disponible sur [data.gouv](https://www.data.gouv.fr/fr/datasets/inventaire-de-gaz-a-effet-de-serre-territorialise/#_)
et requêtable directement dans `Python` avec
[cette url](https://koumoul.com/s/data-fair/api/v1/datasets/igt-pouvoir-de-rechauffement-global/convert).

In [1]:
import pandas as pd

emissions = pd.read_csv("https://koumoul.com/s/data-fair/api/v1/datasets/igt-pouvoir-de-rechauffement-global/convert")
emissions.head(2)

Unnamed: 0,INSEE commune,Commune,Agriculture,Autres transports,Autres transports international,CO2 biomasse hors-total,Déchets,Energie,Industrie hors-énergie,Résidentiel,Routier,Tertiaire
0,1001,L'ABERGEMENT-CLEMENCIAT,3711.425991,,,432.751835,101.430476,2.354558,6.911213,309.358195,793.156501,367.036172
1,1002,L'ABERGEMENT-DE-VAREY,475.330205,,,140.74166,140.675439,2.354558,6.911213,104.866444,348.997893,112.934207


## Préparation

### Opérations sur les colonnes

1. Créer un dataframe emissions_copy ne conservant que les colonnes INSEE commune, Commune, Autres transports et Autres transports international. (indice : df.loc…)
1. Comme les noms de variables sont peu pratiques, les renommer de la manière suivante (indice : `df.rename()`) :
    - INSEE commune $\rightarrow$ code_insee
    - Autres transports $\rightarrow$ transports
    - Autres transports international $\rightarrow$ transports_international

### Valeurs manquantes

1. On propose, pour simplifier, de remplacer les valeurs manquantes (`NA`)
par la valeur 0. Utiliser la méthode [`fillna`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.fillna.html)
pour transformer les valeurs manquantes en 0.

### Nouvelles variables

1. Créer les variables suivantes :
    - `dep`: le département. Celui-ci peut être créé grâce aux deux premiers caractères de `code_insee` en appliquant la méthode `str` ;
    - `transports_total`: les émissions du secteur transports (somme des deux variables)

## Analyse

1. Ordonner les données du plus gros émetteur au plus petit puis ordonner les données du plus gros émetteur au plus petit, par département (du 01 au 95). 
1. Ne conserver que les communes appartenant aux départements 13 ou 31. 
Ordonner ces communes du plus gros émetteur de CO2 au plus petit.

Puis, revenez au jeu `emission` initial.

1. Calculer les émissions totales par secteur. Calculer la part de chaque secteur dans les émissions totales. Transformer en tonnes les volumes avant d'afficher les résultats

1. Calculer pour chaque commune les émissions totales après avoir imputé les valeurs manquantes à 0. Garder les 100 communes les plus émettrices. Calculer la part de chaque secteur dans cette émission. Comprendre les facteurs pouvant expliquer ce classement. Indice : Jouer avec le paramètre `axis` lors de la construction d'une statistique agrégée.



Conclusion à laquelle vous devriez aboutir : 

À l’issue de la question 8, on comprend un peu mieux les facteurs qui peuvent expliquer une forte émission au niveau communal. Si on regarde les trois principales communes émettrices, on peut remarquer qu’il s’agit de villes avec des raffineries.
Grâce à nos explorations minimales avec Pandas, on voit que ce jeu de données nous donne donc une information sur la nature du tissu productif français et des conséquences environnementales de certaines activités.