Optimisation en Machine Learning : Fonction de Coût, Dérivées et Descente de Gradient

L'optimisation est au cœur de l'apprentissage automatique. Cette leçon explore les trois piliers fondamentaux qui permettent aux modèles d'apprendre à partir des données : la fonction de coût qui mesure les erreurs, les dérivées qui quantifient comment réduire ces erreurs, et la descente de gradient qui implémente concrètement cette optimisation.

📉 1. Fonction de Coût : Le Boussole de l'Apprentissage

1 Définition et Rôle

La fonction de coût J(θ) quantifie l'écart entre les prédictions du modèle h_θ(x) et les valeurs réelles y.

Forme générale :

$$ J(θ) = \frac{1}{m}\sum_{i=1}^m \mathcal{L}(h_θ(x^{(i)}), y^{(i)}) $$

Où ℒ est la fonction de perte pour un seul exemple.

Régression (MSE)

$$ J(θ) = \frac{1}{2m}\sum_{i=1}^m (h_θ(x^{(i)}) - y^{(i)})^2 $$

Pénalise fortement les grandes erreurs (dérivable partout).

Classification (Log Loss)

$$ J(θ) = -\frac{1}{m}\sum_{i=1}^m [y^{(i)}\log(h_θ(x^{(i)})) + (1-y^{(i)})\log(1-h_θ(x^{(i)}))] $$

Optimise les probabilités pour les problèmes binaires.

Visualisation 3D d'une Fonction de Coût

[Graphique 3D interactif montrant une surface de coût avec un minimum global]

La fonction de coût crée un "paysage" où nous cherchons le point le plus bas.

🧮 2. Dérivées et Gradient : Le Langage du Changement

2 Concepts Fondamentaux

Dérivée d'une Fonction

La dérivée f'(x) mesure le taux de variation instantané :

$$ f'(x) = \lim_{h\to 0}\frac{f(x+h)-f(x)}{h} $$

Exemple : Si f(x) = x², alors f'(x) = 2x

Gradient (Cas Multivariable)

Vecteur des dérivées partielles :

$$ \nabla J(θ) = \begin{pmatrix}\frac{∂J}{∂θ_1} \\ \vdots \\ \frac{∂J}{∂θ_n}\end{pmatrix} $$

Pointe vers la plus forte augmentation de J.

Calcul des Dérivées en Pratique

Fonction	Dérivée	Exemple
f(x) = x²	f'(x) = 2x	En x=3, f'(3)=6
f(x) = log(x)	f'(x) = 1/x	En x=2, f'(2)=0.5
J(θ) = MSE	∇J(θ) = ...	Voir section suivante

⛰️ 3. Descente de Gradient : L'Algorithme d'Optimisation

3 Principe Fondamental

La descente de gradient met à jour itérativement les paramètres θ dans la direction opposée au gradient :

Mise à jour des paramètres :

$$ θ_j := θ_j - α\frac{∂J}{∂θ_j} \quad \text{pour tout } j $$

Où α est le taux d'apprentissage.

Interprétation Géométrique

Imaginez être en montagne par temps brumeux :

Le gradient est la pente sous vos pieds
Vous faites des pas (α) dans la direction descendante
Le but est d'atteindre le point le plus bas

Choix du Taux d'Apprentissage

α trop petit : Convergence lente

α trop grand : Risque de divergence

Solution : Planification adaptative ou méthodes comme Adam

Variantes de la Descente de Gradient

Type	Description	Avantages/Inconvénients
Batch	Utilise tout le jeu de données	Précis mais lent pour grands datasets
Stochastique (SGD)	Un exemple aléatoire à la fois	Rapide mais bruyant
Mini-batch	Compromis entre les deux	Meilleur équilibre (utilisé en deep learning)

🔍 4. Étude de Cas : Régression Linéaire

Modèle

$$ h_θ(x) = θ_0 + θ_1x $$

Droite qui minimise l'erreur quadratique.

Fonction de Coût

$$ J(θ) = \frac{1}{2m}\sum_{i=1}^m (h_θ(x^{(i)}) - y^{(i)})^2 $$

Gradient

$$ \frac{∂J}{∂θ_j} = \frac{1}{m}\sum_{i=1}^m (h_θ(x^{(i)}) - y^{(i)})x_j^{(i)} $$

Visualisation de l'Optimisation

[Animation montrant la convergence des paramètres θ vers les valeurs optimales]

La descente de gradient ajuste progressivement la droite de régression pour minimiser J(θ).

⚠️ 5. Pièges Courants et Solutions

Minimums Locaux

Le gradient peut converger vers un minimum local au lieu du global.

Solution : Initialisations aléatoires multiples, momentum.

Plateaux et Vallées

Progression très lente dans certaines régions.

Solution : Algorithmes adaptatifs comme RMSprop.

Bruit Numérique

Particulièrement avec SGD.

Solution : Mini-batches, moyenne mobile des gradients.

Checklist d'Optimisation

Normaliser les caractéristiques
Vérifier la convergence
Visualiser la fonction de coût
Essayer différents taux d'apprentissage
Utiliser un jeu de validation
Considérer des optimiseurs avancés (Adam)

Synthèse des Concepts Clés

Fonction de Coût

Mesure quantitative de la performance du modèle

Dérivées/Gradient

Indiquent comment ajuster les paramètres pour améliorer le modèle

Descente de Gradient

Algorithme itératif qui met en œuvre ces ajustements

"L'optimisation est l'art de transformer des mathématiques en intelligence." — Yann LeCun

Ngangala Distribution

📌 Leçon - 8

Optimisation en Machine Learning : Fonction de Coût, Dérivées et Descente de Gradient

📉 1. Fonction de Coût : Le Boussole de l'Apprentissage

1 Définition et Rôle

Régression (MSE)

Classification (Log Loss)

Visualisation 3D d'une Fonction de Coût

🧮 2. Dérivées et Gradient : Le Langage du Changement

2 Concepts Fondamentaux

Dérivée d'une Fonction

Gradient (Cas Multivariable)

Calcul des Dérivées en Pratique

⛰️ 3. Descente de Gradient : L'Algorithme d'Optimisation

3 Principe Fondamental

Interprétation Géométrique

Choix du Taux d'Apprentissage

Variantes de la Descente de Gradient

🔍 4. Étude de Cas : Régression Linéaire

Modèle

Fonction de Coût

Gradient

Visualisation de l'Optimisation

⚠️ 5. Pièges Courants et Solutions

Minimums Locaux

Plateaux et Vallées

Bruit Numérique

Checklist d'Optimisation

Synthèse des Concepts Clés

Fonction de Coût

Dérivées/Gradient

Descente de Gradient

Commentaires

Enregistrer un commentaire