Quelles stratégies avancées l'optimiseur propose-t-il pour empêcher le surapprentissage lors de l'exploration des hyperparamètres ?

Pour garantir des capacités de généralisation maximales sur de nouvelles données, l'action intègre plusieurs mécanismes préventifs directement dans son paramètre optimizer. Elle permet l'application de pénalités mathématiques de régularisation L1 et L2 via les arguments regL1 et regL2, forçant le réseau de neuronesUn réseau de neurones est un modèle d'IA bio-inspiré composé de couches de nœuds interconnectés, capable d'apprendre des relations complexes dans les données pour prédire ou classifier avec précision. à conserver des poids synaptiques faibles. De plus, la technique de désactivation aléatoire (dropout) peut être finement configurée pour ignorer un certain pourcentage de neurones à chaque itération d'entraînement. L'optimiseur inclut également des critères d'arrêt précoce intelligents via les paramètres stagnation et threshold, stoppant net le processus si la fonction de perte sur la table de validation cesse de s'améliorer de manière significative.

Exemples pour l'action dlTune

Optimisation basique (Tuning)

Exemple d'optimisation simple d'un modèle avec l'algorithme ADAM, en définissant une petite recherche sur le taux d'apprentissage.

Tuning intensif avec GPU et sauvegarde des meilleurs poids

Une recherche d'hyperparamètres avancée exploitant le GPU, avec recherche sur le taux d'apprentissage et la taille du mini-batch, en sauvegardant le meilleur état de poids.