📌 Leçon - 7
📊 Statistiques & Probabilités Fondamentales
1 Concepts Fondamentaux
1.1 Statistiques Descriptives
Tendances Centrales
- Moyenne :
$$\bar{x} = \frac{1}{n}\sum_{i=1}^n x_i$$
Propriétés : Sensible aux outliers, minimise $\sum(x_i - \bar{x})^2$
- Médiane : Valeur centrale (Q2)
Calcul : Ordonner les données → valeur au milieu (ou moyenne des 2 valeurs centrales)
- Mode : Valeur la plus fréquente
Utile pour données catégorielles. Peut être multimodal.
Exemple : Pour [3, 5, 7, 7, 9, 11, 13]
• Moyenne = 7.86 • Médiane = 7 • Mode = 7
Avec outlier [3, 5, 7, 7, 9, 11, 100] :
• Moyenne = 20.29 (fort impact) • Médiane = 7 (robuste)
Dispersion
- Variance :
$$\sigma^2 = \frac{1}{n}\sum_{i=1}^n (x_i - \bar{x})^2$$
Version non biaisée (échantillon) : $s^2 = \frac{1}{n-1}\sum(...)$
- Écart-type : σ = √σ² (même unité que les données)
- Étendue interquartile : IQR = Q3 - Q1 (plus robuste)
- Coefficient de variation : CV = σ/μ (comparaison relative)
Exemple : Pour [3, 5, 7, 7, 9, 11, 13]
• Variance = 10.12 • Écart-type ≈ 3.18
• Q1 = 5, Q3 = 11 → IQR = 6
📈 Visualisation des Mesures
Box Plot (Montre médiane, Q1, Q3, outliers)
Histogramme (Montre distribution et mode)
1.2 Probabilités Élémentaires
Concepts Clés
- Espace probabilisé : (Ω, ℱ, P)
Ω = Univers, ℱ = Tribu, P : ℱ → [0,1]
- Probabilité conditionnelle : $$P(A|B) = \frac{P(A∩B)}{P(B)}$$
- Indépendance : P(A∩B) = P(A)P(B)
- Formule de Bayes : $$P(A|B) = \frac{P(B|A)P(A)}{P(B)}$$
- Loi des grands nombres : $$\lim_{n\to\infty} \frac{S_n}{n} = \mathbb{E}[X] \text{ p.s.}$$
Exemple: Test Médical
Un test a :
- Sensibilité (vrai positif) = 95%
- Spécificité (vrai négatif) = 90%
- Prévalence maladie = 1%
Si test positif, probabilité d'être malade ?
Par Bayes :
$$P(M|+) = \frac{P(+|M)P(M)}{P(+)} = \frac{0.95×0.01}{0.95×0.01 + 0.10×0.99} ≈ 8.76\%$$Malgré test positif, seulement 8.76% de chance d'être malade !
🔵 Diagramme de Venn Probabiliste
P(A∪B) = P(A) + P(B) - P(A∩B) = 0.3 + 0.4 - 0.15 = 0.55
2 Distributions de Probabilité
2.1 Distributions Discrètes
Loi Binomiale
X ∼ B(n,p) : Nombre de succès en n essais indépendants
Fonction de masse :
$$ P(X=k) = C_n^k p^k (1-p)^{n-k} $$Moments :
- 𝔼[X] = np
- Var(X) = np(1-p)
Exemple : Lancer une pièce (p=0.5) 10 fois :
• P(4 piles) = C₁₀⁴ (0.5)⁴(0.5)⁶ ≈ 20.5%
• 𝔼[X] = 5, Var(X) = 2.5
Loi de Poisson
X ∼ P(λ) : Événements rares dans un intervalle
Fonction de masse :
$$ P(X=k) = \frac{e^{-\lambda} \lambda^k}{k!} $$Propriétés :
- 𝔼[X] = Var(X) = λ
- Approximation de B(n,p) quand n grand, p petit (λ=np)
Exemple : λ=3 clients/heure :
• P(5 clients) = e⁻³ 3⁵/5! ≈ 10%
• P(X≤2) = P(0)+P(1)+P(2) ≈ 42%
📊 Visualisation des Lois Discrètes
Loi Binomiale B(6, 0.5)
Loi de Poisson P(λ=3)
2.2 Distributions Continues
Loi Normale
X ∼ N(μ,σ²) : Distribution en cloche
Densité :
$$ f(x) = \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}} $$Standardisation : Z = (X-μ)/σ ∼ N(0,1)
Règle 68-95-99.7 :
68% dans μ±σ, 95% dans μ±2σ, 99.7% dans μ±3σ
Exemple : QI ∼ N(100, 15²)
• P(85 ≤ QI ≤ 115) ≈ 68%
• P(QI > 130) ≈ 2.5%
Loi Exponentielle
X ∼ Exp(λ) : Temps entre événements
Densité :
$$ f(x) = \lambda e^{-\lambda x} \quad (x ≥ 0) $$Propriétés :
- 𝔼[X] = 1/λ
- Var(X) = 1/λ²
- Sans mémoire : P(X>s+t|X>s) = P(X>t)
Exemple : Durée de vie d'un composant (λ=0.01/h)
• Durée moyenne = 100h
• P(X > 200h) = e^(-0.01×200) ≈ 13.5%
📈 Visualisation des Lois Continues
Loi Normale N(μ, σ²)
Loi Exponentielle Exp(λ)
3 Applications Pratiques
📈 Intervalle de Confiance
Pour un échantillon de moyenne \(\bar{x}\) et écart-type \(s\) :
$$ IC_{95\%} = \bar{x} \pm t_{n-1,0.975} \fracCas particuliers :
- Si σ connu : utiliser zα/2 de la loi normale
- Pour proportions : \(\hat{p} \pm z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\)
Exemple : n=30, \(\bar{x}\)=50, s=5
t29,0.975 ≈ 2.045 ⇒ IC ≈ [50 ± 1.87] = [48.13, 51.87]
Interprétation : On a 95% de confiance que μ ∈ [48.13, 51.87]
🔍 Test d'Hypothèse
Test Z pour H₀: μ=μ₀ :
$$ Z = \frac{\bar{x} - \mu_0}{\sigma/\sqrt{n}} $$Comparer à zα/2 (α = seuil de signification)
Étapes :
- Formuler H₀ et H₁
- Choisir α (typiquement 5%)
- Calculer la statistique de test
- Déterminer la région critique
- Décision : rejet ou non de H₀
Exemple : μ₀=100, \(\bar{x}\)=105, σ=15, n=25
Z = (105-100)/(15/5) ≈ 1.67
Pour α=5%, z0.975=1.96
|1.67| < 1.96 ⇒ On ne rejette pas H₀
🧩 Analyse de Données
Corrélation
Coefficient de Pearson :
$$ r = \frac{\sum (x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum (x_i-\bar{x})^2 \sum (y_i-\bar{y})^2}} $$Interprétation :
- r ∈ [-1,1] mesure la liaison linéaire
- r ≈ 0 : pas de corrélation linéaire
- Attention à la causalité !
Régression Linéaire
Droite de régression :
$$ y = ax + b \quad \text{où} \quad a = \frac{cov(X,Y)}{var(X)}, \quad b = \bar{y} - a\bar{x} $$Qualité du modèle :
- R² = r² (pourcentage de variance expliquée)
- Résidus = y - ŷ (doivent être aléatoires)
📉 Exemple de Régression
Données :
x | y |
---|---|
1 | 2 |
2 | 3 |
3 | 5 |
4 | 4 |
5 | 6 |
Calculs :
- \(\bar{x}\) = 3, \(\bar{y}\) = 4
- cov(X,Y) = 2, var(X) = 2
- a = 1, b = 1 ⇒ ŷ = x + 1
- r = 0.894, R² = 0.8
🎲 Simulation Monte Carlo
Méthode numérique pour estimer des probabilités/complexes par simulation aléatoire :
Algorithme :
- Définir le domaine des entrées possibles
- Générer des entrées aléatoirement
- Calculer la fonction d'intérêt
- Agréger les résultats
Exemple : Estimation de π
- Générer des points aléatoires dans [0,1]×[0,1]
- Compter ceux dans le quart de cercle (x²+y² ≤ 1)
- π ≈ 4 × (points intérieurs)/(total points)
Implémentation Python :
import random def estimate_pi(n): inside = 0 for _ in range(n): x, y = random.random(), random.random() if x**2 + y**2 <= 1: inside += 1 return 4 * inside / n print(estimate_pi(10**6)) # Exemple: 3.1412
Synthèse des Concepts Clés
Statistiques
Description des données via mesures de tendance centrale et dispersion
Probabilités
Modélisation des incertitudes via distributions et théorèmes fondamentaux
Inférence
Décisions à partir des données via tests et intervalles de confiance
"Les statistiques sont la grammaire de la science." - Karl Pearson
Commentaires
Enregistrer un commentaire