Leçon 6 : Statistiques Fondamentaux

Leçon 6 : Statistiques Fondamentaux

Leçon 6 : Statistiques Fondamentaux

Approche professionnelle pour futurs data scientists

📊

La Moyenne Arithmétique

La moyenne arithmétique est un nombre qui représente une valeur « centrale » ou « typique » d’un ensemble de données. Elle est souvent utilisée pour résumer ou comparer des quantités.

\[\bar{x} = \frac{1}{n}\sum_{i=1}^n x_i\]
SymboleNomRôleTypeExemple
\(\bar{x}\) Moyenne Estimateur central Statistique descriptive Note moyenne d'une classe
\(n\) Taille échantillon Facteur de normalisation Entier positif Nombre d'étudiants
\(\sum\) Sommation Agrégation des valeurs Opérateur Total des notes
\(x_i\) Valeur individuelle Point de données Variable quantitative Note d'un étudiant

Pyramide de Compréhension

Niveau 1 (Base) : La moyenne est la somme divisée par le nombre d'éléments.

Niveau 2 (Interprétation) : Centre de gravité du dataset, minimise les écarts quadratiques.

Niveau 3 (Expert) : Estimateur non biaisé de l'espérance quand \(n \to \infty\) (Loi des Grands Nombres).

Applications Professionnelles

Data Science : Normalisation des features, calcul de KPI

Finance : Rendement moyen d'un portefeuille

Contrôle Qualité : Suivi de la moyenne du processus

Attention : Sensible aux outliers (préférer la médiane pour données asymétriques)

⚠️ Attention !

La moyenne peut être influencée par des valeurs très grandes ou très petites (on les appelle des valeurs extrêmes ou outliers).

🧪 Exemple :

Prenons : 10, 10, 10, 10, 100

\[ \frac{10 + 10 + 10 + 10 + 100}{5} = \frac{140}{5} = 28 \]

👉 La moyenne est 28, alors que la majorité des valeurs sont autour de 10.

Donc la valeur 100 fausse un peu la moyenne.

📈

La Variance

La variance est une mesure de dispersion. Elle indique à quel point les valeurs d’un ensemble de données s’éloignent de la moyenne (ou moyenne arithmétique).
Autrement dit, plus la variance est grande, plus les données sont dispersées autour de la moyenne. Plus elle est petite, plus les données sont concentrées autour de la moyenne.

📦 Exemple simple

Supposons que tu as les notes suivantes :

5, 7, 9, 10

Calcul de la moyenne :

\[ \bar{x} = \frac{5 + 7 + 9 + 10}{4} = \frac{31}{4} = 7.75 \]

Calcul des écarts à la moyenne au carré :

\[ \begin{align*} (5 - 7.75)^2 &= (-2.75)^2 = 7.5625 \\ (7 - 7.75)^2 &= (-0.75)^2 = 0.5625 \\ (9 - 7.75)^2 &= (1.25)^2 = 1.5625 \\ (10 - 7.75)^2 &= (2.25)^2 = 5.0625 \end{align*} \]

Calcul de la variance :

\[ \text{Variance} = \frac{7.5625 + 0.5625 + 1.5625 + 5.0625}{4} = \frac{14.75}{4} = 3.6875 \]

🧾 Donc, la variance = 3.6875

📌 Remarques importantes

  • Unité : La variance est dans le carré de l'unité de mesure (si les notes sont sur 20, la variance est en "points²").
  • Pour cette raison, on utilise souvent l'écart-type (la racine carrée de la variance) pour revenir à l'unité de départ.
📈

Formule de la Variance

\[s^2 = \frac{1}{n}\sum_{i=1}^n (x_i - \bar{x})^2\]
SymboleNomRôleTypeExemple
\(s^2\) Variance Mesure de dispersion Statistique descriptive Variabilité des rendements
\((x_i - \bar{x})\) Écart à la moyenne Déviation individuelle Variable centrée Écart à la cible
\(^2\) Carré Élimine la direction Opérateur Amplifie les grands écarts

Pyramide de Compréhension

Niveau 1 : Moyenne des carrés des écarts à la moyenne.

Niveau 2 : Second moment centré, mesure la variabilité absolue.

Niveau 3 : Base du calcul des intervalles de confiance (Théorème Central Limite).

Visualisation : Dans une distribution normale, 68% des données sont dans ±1σ, 95% dans ±2σ

Applications Professionnelles

Risk Management : Calcul de la volatilité (σ = √s²)

Machine Learning : Feature selection (éliminer les variables peu variables)

Contrôle Qualité : Calcul des capabilités processus (Cp, Cpk)

🧠

Théorème de Bayes

Le théorème de Bayes est un pilier fondamental des probabilités conditionnelles. Il permet de mettre à jour une probabilité initiale (appelée probabilité a priori) en fonction de nouvelles informations (appelées preuves ou évidences).

🔷 Exemple simple (test médical)

Imaginons un test pour une maladie rare :

\[ P(\text{Malade}) = 0.01 \] (1% de la population est malade)

\[ P(\text{Test}+|\text{Malade}) = 0.99 \] (le test est positif dans 99% des cas chez les malades)

\[ P(\text{Test}+|\text{Pas Malade}) = 0.05 \] (5% de faux positifs)

❓ Question :

Si une personne a un test positif, quelle est la probabilité qu'elle soit réellement malade ?

Étapes :

1. Probabilité que le test soit positif :

\[ \begin{align*} P(\text{Test}+) &= P(\text{Test}+|\text{Malade}) \cdot P(\text{Malade}) \\ &\quad + P(\text{Test}+|\text{Pas Malade}) \cdot P(\text{Pas Malade}) \\ &= 0.99 \times 0.01 + 0.05 \times 0.99 \\ &= 0.0099 + 0.0495 \\ &= 0.0594 \end{align*} \]

2. Appliquer Bayes :

\[ P(\text{Malade}|\text{Test}+) = \frac{0.99 \times 0.01}{0.0594} \approx \frac{0.0099}{0.0594} \approx 0.1667 \]

Résultat : Même si le test est positif, il n'y a que 16,7% de chances que la personne soit réellement malade.

Cela peut paraître contre-intuitif, mais c'est le pouvoir du théorème de Bayes !

🧠

Formule de Théorème de Bayes

\[P(A|B) = \frac{P(B|A)P(A)}{P(B)}\]
SymboleNomRôleTypeExemple
\(P(A|B)\) Probabilité a posteriori Croyance mise à jour Probabilité conditionnelle P(Maladie|Test+)
\(P(B|A)\) Vraisemblance Modèle génératif Fonction P(Test+|Maladie)
\(P(A)\) Probabilité a priori Croyance initiale Probabilité marginale Prévalence maladie
\(P(B)\) Évidence Facteur de normalisation Probabilité marginale P(Test+)

Pyramide de Compréhension

Niveau 1 : Formule de mise à jour des probabilités.

Niveau 2 : Fondement de l'inférence bayésienne.

Niveau 3 : Cadre général d'apprentissage à partir de données.

Applications Professionnelles

Diagnostic Médical : Calcul de la valeur prédictive d'un test

Spam Filtering : Classificateur Naive Bayes

Risk Assessment : Mise à jour des probabilités de défaut

A/B Testing : Approche bayésienne vs fréquentiste

🔔

Distribution Normale

🔍 Qu'est-ce que la distribution normale ?

C'est une distribution continue qui décrit comment les valeurs d'une variable aléatoire sont réparties. Elle est souvent utilisée pour modéliser des phénomènes naturels comme :

  • La taille des individus
  • Les erreurs de mesure
  • Les scores aux examens
  • La pression sanguine

📈 Forme de la distribution normale

Elle est représentée par une courbe en cloche symétrique, centrée sur la moyenne (μ). Cette courbe est :

  • Symétrique autour de la moyenne
  • Les valeurs proches de la moyenne sont plus fréquentes
  • Les valeurs extrêmes sont rares
Courbe de Gauss

📐 Paramètres importants

La distribution normale est entièrement définie par deux paramètres :

Symbole Nom Rôle
μ Moyenne Centre de la distribution (le pic de la courbe)
σ Écart-type Mesure de la dispersion des données autour de la moyenne

🧠 Loi normale standardisée

C'est une loi normale particulière où :

  • $\mu = 0$
  • $\sigma = 1$

On peut transformer une valeur normale en valeur standardisée (score Z) :

$$ Z = \frac{X - \mu}{\sigma} $$

Cela permet d'utiliser des tables de la loi normale standardisée pour calculer des probabilités.

🎯 Règle empirique des 68-95-99.7%

Pour une distribution normale :

  • 68% des valeurs sont dans l'intervalle [μ - σ, μ + σ]
  • 95% des valeurs sont dans [μ - 2σ, μ + 2σ]
  • 99.7% des valeurs sont dans [μ - 3σ, μ + 3σ]

C'est ce qu'on appelle la règle des 3 sigmas.

⚖️ 7. Propriétés importantes

  • Symétrique par rapport à la moyenne
  • Médiane = Moyenne = Mode
  • Densité maximale au centre
  • Les queues décroissent exponentiellement

📊 Deux (2) Exemples

Exemple 1 : taille d'une population

Si la taille moyenne est de 170 cm avec un écart-type de 10 cm :

μ = 170 cm, σ = 10 cm

Entre 160 cm et 180 cm (μ ± σ), on trouve environ 68% de la population.

Plus une personne s'éloigne de 170 cm, plus elle devient rare statistiquement.

P(X > 190 cm) ≈ 2.3% (car 190 cm = μ + 2σ)

Exemple 2 : score d'un test

Score moyen : μ = 50, écart-type : σ = 5

Un score de 60 correspond à :

\[ Z = \frac{60 - 50}{5} = 2 \]

Cela signifie que cette personne est dans le top ~2.5% des scores (car P(Z > 2) ≈ 2.5%).

Interprétation : Seulement 2.5% des participants ont obtenu un score supérieur à 60.

🔢 Équation de la distribution normale

La fonction de densité de probabilité (PDF) de la loi normale est :

\[f(x) = \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}\]
SymboleNomRôleTypeExemple
\(\mu\) Moyenne Paramètre de position Réel Centre de la distribution
\(\sigma\) Écart-type Paramètre d'échelle Réel positif Dispersion des données
\(e\) Exponentielle Décroissance rapide Fonction ≈ 2.71828
\(\pi\) Pi Constante de normalisation Constante ≈ 3.14159

Pyramide de Compréhension

Niveau 1 : Distribution en cloche symétrique.

Niveau 2 : Solution de l'équation de diffusion (physique statistique).

Niveau 3 : Distribution maximisant l'entropie pour variance fixée.

Applications Professionnelles

Contrôle Qualité : Cartes de contrôle (Shewhart)

Finance : Modélisation des rendements (hypothèse normale)

Machine Learning : Hypothèse de bruit gaussien en régression

Tests Statistiques : z-test, t-test, ANOVA

Commentaires