Quelles stratégies avancées l'optimiseur propose-t-il pour empêcher le surapprentissage lors de l'exploration des hyperparamètres ?

Question

Nicolas Housset · Accepted Answer

Pour garantir des capacités de généralisation maximales sur de nouvelles données, l'action intègre plusieurs mécanismes préventifs directement dans son paramètre optimizer. Elle permet l'application de pénalités mathématiques de régularisation L1 et L2 via les arguments regL1 et regL2, forçant le réseau de neurones à conserver des poids synaptiques faibles. De plus, la technique de désactivation aléatoire (dropout) peut être finement configurée pour ignorer un certain pourcentage de neurones à chaque itération d'entraînement. L'optimiseur inclut également des critères d'arrêt précoce intelligents via les paramètres stagnation et threshold, stoppant net le processus si la fonction de perte sur la table de validation cesse de s'améliorer de manière significative.

Quelles stratégies avancées l'optimiseur propose-t-il pour empêcher le surapprentissage lors de l'exploration des hyperparamètres ?

Exemples pour l'action dlTune

Optimisation basique (Tuning)

Tuning intensif avec GPU et sauvegarde des meilleurs poids

Action CAS associée

À lire aussi...