📌 Leçon - 8
- Obtenir le lien
- X
- Autres applications
Optimisation en Machine Learning : Fonction de Coût, Dérivées et Descente de Gradient
L'optimisation est au cœur de l'apprentissage automatique. Cette leçon explore les trois piliers fondamentaux qui permettent aux modèles d'apprendre à partir des données : la fonction de coût qui mesure les erreurs, les dérivées qui quantifient comment réduire ces erreurs, et la descente de gradient qui implémente concrètement cette optimisation.
📉 1. Fonction de Coût : Le Boussole de l'Apprentissage
1 Définition et Rôle
La fonction de coût J(θ) quantifie l'écart entre les prédictions du modèle hθ(x) et les valeurs réelles y.
Forme générale :
$$ J(θ) = \frac{1}{m}\sum_{i=1}^m \mathcal{L}(h_θ(x^{(i)}), y^{(i)}) $$Où ℒ est la fonction de perte pour un seul exemple.
Régression (MSE)
$$ J(θ) = \frac{1}{2m}\sum_{i=1}^m (h_θ(x^{(i)}) - y^{(i)})^2 $$Pénalise fortement les grandes erreurs (dérivable partout).
Classification (Log Loss)
$$ J(θ) = -\frac{1}{m}\sum_{i=1}^m [y^{(i)}\log(h_θ(x^{(i)})) + (1-y^{(i)})\log(1-h_θ(x^{(i)}))] $$Optimise les probabilités pour les problèmes binaires.
Visualisation 3D d'une Fonction de Coût
La fonction de coût crée un "paysage" où nous cherchons le point le plus bas.
🧮 2. Dérivées et Gradient : Le Langage du Changement
2 Concepts Fondamentaux
Dérivée d'une Fonction
La dérivée f'(x) mesure le taux de variation instantané :
$$ f'(x) = \lim_{h\to 0}\frac{f(x+h)-f(x)}{h} $$Exemple : Si f(x) = x², alors f'(x) = 2x
Gradient (Cas Multivariable)
Vecteur des dérivées partielles :
$$ \nabla J(θ) = \begin{pmatrix}\frac{∂J}{∂θ_1} \\ \vdots \\ \frac{∂J}{∂θ_n}\end{pmatrix} $$Pointe vers la plus forte augmentation de J.
Calcul des Dérivées en Pratique
Fonction | Dérivée | Exemple |
---|---|---|
f(x) = x² | f'(x) = 2x | En x=3, f'(3)=6 |
f(x) = log(x) | f'(x) = 1/x | En x=2, f'(2)=0.5 |
J(θ) = MSE | ∇J(θ) = ... | Voir section suivante |
⛰️ 3. Descente de Gradient : L'Algorithme d'Optimisation
3 Principe Fondamental
La descente de gradient met à jour itérativement les paramètres θ dans la direction opposée au gradient :
Mise à jour des paramètres :
$$ θ_j := θ_j - α\frac{∂J}{∂θ_j} \quad \text{pour tout } j $$Où α est le taux d'apprentissage.
Interprétation Géométrique
Imaginez être en montagne par temps brumeux :
- Le gradient est la pente sous vos pieds
- Vous faites des pas (α) dans la direction descendante
- Le but est d'atteindre le point le plus bas
Choix du Taux d'Apprentissage
α trop petit : Convergence lente
α trop grand : Risque de divergence
Solution : Planification adaptative ou méthodes comme Adam
Variantes de la Descente de Gradient
Type | Description | Avantages/Inconvénients |
---|---|---|
Batch | Utilise tout le jeu de données | Précis mais lent pour grands datasets |
Stochastique (SGD) | Un exemple aléatoire à la fois | Rapide mais bruyant |
Mini-batch | Compromis entre les deux | Meilleur équilibre (utilisé en deep learning) |
🔍 4. Étude de Cas : Régression Linéaire
Modèle
$$ h_θ(x) = θ_0 + θ_1x $$Droite qui minimise l'erreur quadratique.
Fonction de Coût
$$ J(θ) = \frac{1}{2m}\sum_{i=1}^m (h_θ(x^{(i)}) - y^{(i)})^2 $$Gradient
$$ \frac{∂J}{∂θ_j} = \frac{1}{m}\sum_{i=1}^m (h_θ(x^{(i)}) - y^{(i)})x_j^{(i)} $$Visualisation de l'Optimisation
La descente de gradient ajuste progressivement la droite de régression pour minimiser J(θ).
⚠️ 5. Pièges Courants et Solutions
Minimums Locaux
Le gradient peut converger vers un minimum local au lieu du global.
Solution : Initialisations aléatoires multiples, momentum.
Plateaux et Vallées
Progression très lente dans certaines régions.
Solution : Algorithmes adaptatifs comme RMSprop.
Bruit Numérique
Particulièrement avec SGD.
Solution : Mini-batches, moyenne mobile des gradients.
Checklist d'Optimisation
- Normaliser les caractéristiques
- Vérifier la convergence
- Visualiser la fonction de coût
- Essayer différents taux d'apprentissage
- Utiliser un jeu de validation
- Considérer des optimiseurs avancés (Adam)
Synthèse des Concepts Clés
Fonction de Coût
Mesure quantitative de la performance du modèle
Dérivées/Gradient
Indiquent comment ajuster les paramètres pour améliorer le modèle
Descente de Gradient
Algorithme itératif qui met en œuvre ces ajustements
"L'optimisation est l'art de transformer des mathématiques en intelligence." — Yann LeCun
- Obtenir le lien
- X
- Autres applications
Commentaires
Enregistrer un commentaire