📌 Leçon - 8

Optimisation en Machine Learning : Fonction de Coût, Dérivées et Descente de Gradient

L'optimisation est au cœur de l'apprentissage automatique. Cette leçon explore les trois piliers fondamentaux qui permettent aux modèles d'apprendre à partir des données : la fonction de coût qui mesure les erreurs, les dérivées qui quantifient comment réduire ces erreurs, et la descente de gradient qui implémente concrètement cette optimisation.

📉 1. Fonction de Coût : Le Boussole de l'Apprentissage

1 Définition et Rôle

La fonction de coût J(θ) quantifie l'écart entre les prédictions du modèle hθ(x) et les valeurs réelles y.

Forme générale :

$$ J(θ) = \frac{1}{m}\sum_{i=1}^m \mathcal{L}(h_θ(x^{(i)}), y^{(i)}) $$

est la fonction de perte pour un seul exemple.

Régression (MSE)

$$ J(θ) = \frac{1}{2m}\sum_{i=1}^m (h_θ(x^{(i)}) - y^{(i)})^2 $$

Pénalise fortement les grandes erreurs (dérivable partout).

Classification (Log Loss)

$$ J(θ) = -\frac{1}{m}\sum_{i=1}^m [y^{(i)}\log(h_θ(x^{(i)})) + (1-y^{(i)})\log(1-h_θ(x^{(i)}))] $$

Optimise les probabilités pour les problèmes binaires.

Visualisation 3D d'une Fonction de Coût

[Graphique 3D interactif montrant une surface de coût avec un minimum global]

La fonction de coût crée un "paysage" où nous cherchons le point le plus bas.

🧮 2. Dérivées et Gradient : Le Langage du Changement

2 Concepts Fondamentaux

Dérivée d'une Fonction

La dérivée f'(x) mesure le taux de variation instantané :

$$ f'(x) = \lim_{h\to 0}\frac{f(x+h)-f(x)}{h} $$

Exemple : Si f(x) = x², alors f'(x) = 2x

Gradient (Cas Multivariable)

Vecteur des dérivées partielles :

$$ \nabla J(θ) = \begin{pmatrix}\frac{∂J}{∂θ_1} \\ \vdots \\ \frac{∂J}{∂θ_n}\end{pmatrix} $$

Pointe vers la plus forte augmentation de J.

Calcul des Dérivées en Pratique

Fonction Dérivée Exemple
f(x) = x² f'(x) = 2x En x=3, f'(3)=6
f(x) = log(x) f'(x) = 1/x En x=2, f'(2)=0.5
J(θ) = MSE ∇J(θ) = ... Voir section suivante

⛰️ 3. Descente de Gradient : L'Algorithme d'Optimisation

3 Principe Fondamental

La descente de gradient met à jour itérativement les paramètres θ dans la direction opposée au gradient :

Mise à jour des paramètres :

$$ θ_j := θ_j - α\frac{∂J}{∂θ_j} \quad \text{pour tout } j $$

α est le taux d'apprentissage.

Interprétation Géométrique

Imaginez être en montagne par temps brumeux :

  • Le gradient est la pente sous vos pieds
  • Vous faites des pas (α) dans la direction descendante
  • Le but est d'atteindre le point le plus bas

Choix du Taux d'Apprentissage

α trop petit : Convergence lente

α trop grand : Risque de divergence

Solution : Planification adaptative ou méthodes comme Adam

Variantes de la Descente de Gradient

Type Description Avantages/Inconvénients
Batch Utilise tout le jeu de données Précis mais lent pour grands datasets
Stochastique (SGD) Un exemple aléatoire à la fois Rapide mais bruyant
Mini-batch Compromis entre les deux Meilleur équilibre (utilisé en deep learning)

🔍 4. Étude de Cas : Régression Linéaire

Modèle

$$ h_θ(x) = θ_0 + θ_1x $$

Droite qui minimise l'erreur quadratique.

Fonction de Coût

$$ J(θ) = \frac{1}{2m}\sum_{i=1}^m (h_θ(x^{(i)}) - y^{(i)})^2 $$

Gradient

$$ \frac{∂J}{∂θ_j} = \frac{1}{m}\sum_{i=1}^m (h_θ(x^{(i)}) - y^{(i)})x_j^{(i)} $$

Visualisation de l'Optimisation

[Animation montrant la convergence des paramètres θ vers les valeurs optimales]

La descente de gradient ajuste progressivement la droite de régression pour minimiser J(θ).

⚠️ 5. Pièges Courants et Solutions

Minimums Locaux

Le gradient peut converger vers un minimum local au lieu du global.

Solution : Initialisations aléatoires multiples, momentum.

Plateaux et Vallées

Progression très lente dans certaines régions.

Solution : Algorithmes adaptatifs comme RMSprop.

Bruit Numérique

Particulièrement avec SGD.

Solution : Mini-batches, moyenne mobile des gradients.

Checklist d'Optimisation

  • Normaliser les caractéristiques
  • Vérifier la convergence
  • Visualiser la fonction de coût
  • Essayer différents taux d'apprentissage
  • Utiliser un jeu de validation
  • Considérer des optimiseurs avancés (Adam)

Synthèse des Concepts Clés

Fonction de Coût

Mesure quantitative de la performance du modèle

Dérivées/Gradient

Indiquent comment ajuster les paramètres pour améliorer le modèle

Descente de Gradient

Algorithme itératif qui met en œuvre ces ajustements

"L'optimisation est l'art de transformer des mathématiques en intelligence." — Yann LeCun

Commentaires