📌 Leçon - 7

📊 Statistiques & Probabilités Fondamentales

1 Concepts Fondamentaux

1.1 Statistiques Descriptives

Tendances Centrales

  • Moyenne : $$\bar{x} = \frac{1}{n}\sum_{i=1}^n x_i$$
    Propriétés : Sensible aux outliers, minimise $\sum(x_i - \bar{x})^2$
  • Médiane : Valeur centrale (Q2)
    Calcul : Ordonner les données → valeur au milieu (ou moyenne des 2 valeurs centrales)
  • Mode : Valeur la plus fréquente
    Utile pour données catégorielles. Peut être multimodal.

Exemple : Pour [3, 5, 7, 7, 9, 11, 13]

• Moyenne = 7.86 • Médiane = 7 • Mode = 7

Avec outlier [3, 5, 7, 7, 9, 11, 100] :

• Moyenne = 20.29 (fort impact) • Médiane = 7 (robuste)

Dispersion

  • Variance : $$\sigma^2 = \frac{1}{n}\sum_{i=1}^n (x_i - \bar{x})^2$$
    Version non biaisée (échantillon) : $s^2 = \frac{1}{n-1}\sum(...)$
  • Écart-type : σ = √σ² (même unité que les données)
  • Étendue interquartile : IQR = Q3 - Q1 (plus robuste)
  • Coefficient de variation : CV = σ/μ (comparaison relative)

Exemple : Pour [3, 5, 7, 7, 9, 11, 13]

• Variance = 10.12 • Écart-type ≈ 3.18

• Q1 = 5, Q3 = 11 → IQR = 6

📈 Visualisation des Mesures

Box Plot (Montre médiane, Q1, Q3, outliers)

Histogramme (Montre distribution et mode)

1.2 Probabilités Élémentaires

Concepts Clés

  • Espace probabilisé : (Ω, ℱ, P)
    Ω = Univers, ℱ = Tribu, P : ℱ → [0,1]
  • Probabilité conditionnelle : $$P(A|B) = \frac{P(A∩B)}{P(B)}$$
  • Indépendance : P(A∩B) = P(A)P(B)
  • Formule de Bayes : $$P(A|B) = \frac{P(B|A)P(A)}{P(B)}$$
  • Loi des grands nombres : $$\lim_{n\to\infty} \frac{S_n}{n} = \mathbb{E}[X] \text{ p.s.}$$

Exemple: Test Médical

Un test a :

  • Sensibilité (vrai positif) = 95%
  • Spécificité (vrai négatif) = 90%
  • Prévalence maladie = 1%

Si test positif, probabilité d'être malade ?

Par Bayes :

$$P(M|+) = \frac{P(+|M)P(M)}{P(+)} = \frac{0.95×0.01}{0.95×0.01 + 0.10×0.99} ≈ 8.76\%$$

Malgré test positif, seulement 8.76% de chance d'être malade !

🔵 Diagramme de Venn Probabiliste

P(A∩B) = 0.15
P(A) = 0.3
P(B) = 0.4

P(A∪B) = P(A) + P(B) - P(A∩B) = 0.3 + 0.4 - 0.15 = 0.55

2 Distributions de Probabilité

2.1 Distributions Discrètes

Loi Binomiale

X ∼ B(n,p) : Nombre de succès en n essais indépendants

Fonction de masse :

$$ P(X=k) = C_n^k p^k (1-p)^{n-k} $$

Moments :

  • 𝔼[X] = np
  • Var(X) = np(1-p)

Exemple : Lancer une pièce (p=0.5) 10 fois :

• P(4 piles) = C₁₀⁴ (0.5)⁴(0.5)⁶ ≈ 20.5%

• 𝔼[X] = 5, Var(X) = 2.5

Loi de Poisson

X ∼ P(λ) : Événements rares dans un intervalle

Fonction de masse :

$$ P(X=k) = \frac{e^{-\lambda} \lambda^k}{k!} $$

Propriétés :

  • 𝔼[X] = Var(X) = λ
  • Approximation de B(n,p) quand n grand, p petit (λ=np)

Exemple : λ=3 clients/heure :

• P(5 clients) = e⁻³ 3⁵/5! ≈ 10%

• P(X≤2) = P(0)+P(1)+P(2) ≈ 42%

📊 Visualisation des Lois Discrètes

0
3
6

Loi Binomiale B(6, 0.5)

0
3
6

Loi de Poisson P(λ=3)

2.2 Distributions Continues

Loi Normale

X ∼ N(μ,σ²) : Distribution en cloche

Densité :

$$ f(x) = \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}} $$

Standardisation : Z = (X-μ)/σ ∼ N(0,1)

Règle 68-95-99.7 :

68% dans μ±σ, 95% dans μ±2σ, 99.7% dans μ±3σ

Exemple : QI ∼ N(100, 15²)

• P(85 ≤ QI ≤ 115) ≈ 68%

• P(QI > 130) ≈ 2.5%

Loi Exponentielle

X ∼ Exp(λ) : Temps entre événements

Densité :

$$ f(x) = \lambda e^{-\lambda x} \quad (x ≥ 0) $$

Propriétés :

  • 𝔼[X] = 1/λ
  • Var(X) = 1/λ²
  • Sans mémoire : P(X>s+t|X>s) = P(X>t)

Exemple : Durée de vie d'un composant (λ=0.01/h)

• Durée moyenne = 100h

• P(X > 200h) = e^(-0.01×200) ≈ 13.5%

📈 Visualisation des Lois Continues

μ-3σ
μ
μ+3σ

Loi Normale N(μ, σ²)

0
1/λ
3/λ

Loi Exponentielle Exp(λ)

3 Applications Pratiques

📈 Intervalle de Confiance

Pour un échantillon de moyenne \(\bar{x}\) et écart-type \(s\) :

$$ IC_{95\%} = \bar{x} \pm t_{n-1,0.975} \frac

Cas particuliers :

  • Si σ connu : utiliser zα/2 de la loi normale
  • Pour proportions : \(\hat{p} \pm z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\)

Exemple : n=30, \(\bar{x}\)=50, s=5

t29,0.975 ≈ 2.045 ⇒ IC ≈ [50 ± 1.87] = [48.13, 51.87]

Interprétation : On a 95% de confiance que μ ∈ [48.13, 51.87]

🔍 Test d'Hypothèse

Test Z pour H₀: μ=μ₀ :

$$ Z = \frac{\bar{x} - \mu_0}{\sigma/\sqrt{n}} $$

Comparer à zα/2 (α = seuil de signification)

Étapes :

  1. Formuler H₀ et H₁
  2. Choisir α (typiquement 5%)
  3. Calculer la statistique de test
  4. Déterminer la région critique
  5. Décision : rejet ou non de H₀

Exemple : μ₀=100, \(\bar{x}\)=105, σ=15, n=25

Z = (105-100)/(15/5) ≈ 1.67

Pour α=5%, z0.975=1.96

|1.67| < 1.96 ⇒ On ne rejette pas H₀

🧩 Analyse de Données

Corrélation

Coefficient de Pearson :

$$ r = \frac{\sum (x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum (x_i-\bar{x})^2 \sum (y_i-\bar{y})^2}} $$

Interprétation :

  • r ∈ [-1,1] mesure la liaison linéaire
  • r ≈ 0 : pas de corrélation linéaire
  • Attention à la causalité !

Régression Linéaire

Droite de régression :

$$ y = ax + b \quad \text{où} \quad a = \frac{cov(X,Y)}{var(X)}, \quad b = \bar{y} - a\bar{x} $$

Qualité du modèle :

  • R² = r² (pourcentage de variance expliquée)
  • Résidus = y - ŷ (doivent être aléatoires)

📉 Exemple de Régression

Données :

x y
1 2
2 3
3 5
4 4
5 6

Calculs :

  • \(\bar{x}\) = 3, \(\bar{y}\) = 4
  • cov(X,Y) = 2, var(X) = 2
  • a = 1, b = 1 ⇒ ŷ = x + 1
  • r = 0.894, R² = 0.8

🎲 Simulation Monte Carlo

Méthode numérique pour estimer des probabilités/complexes par simulation aléatoire :

Algorithme :

  1. Définir le domaine des entrées possibles
  2. Générer des entrées aléatoirement
  3. Calculer la fonction d'intérêt
  4. Agréger les résultats

Exemple : Estimation de π

  • Générer des points aléatoires dans [0,1]×[0,1]
  • Compter ceux dans le quart de cercle (x²+y² ≤ 1)
  • π ≈ 4 × (points intérieurs)/(total points)

Implémentation Python :

import random

def estimate_pi(n):
    inside = 0
    for _ in range(n):
        x, y = random.random(), random.random()
        if x**2 + y**2 <= 1:
            inside += 1
    return 4 * inside / n

print(estimate_pi(10**6))  # Exemple: 3.1412

Synthèse des Concepts Clés

Statistiques

Description des données via mesures de tendance centrale et dispersion

Probabilités

Modélisation des incertitudes via distributions et théorèmes fondamentaux

Inférence

Décisions à partir des données via tests et intervalles de confiance

"Les statistiques sont la grammaire de la science." - Karl Pearson

Commentaires