Quels sont les schémas d'initialisation des poids de filtre pour les couches convolutionnelles et comment les configurer ?

Initialisation : Stabiliser la Convergence

Le paramètre init permet de spécifier le schéma d'initialisation des poids des filtres pour les couches telles que CONVOLUTION. Voici les options courantes :

  • CAUCHY : Les poids sont initialisés de manière que la médianeValeur centrale divisant une série de données ordonnées en deux groupes égaux (50 % au-dessus, 50 % en dessous). Contrairement à la moyenne, elle est robuste face aux valeurs aberrantes. soit 0 et l'échelle soit 1.
  • MSRA (inclut MSRA1, MSRA2) : Utilise le schéma d'initialisation de He et al. (2015), adapté aux fonctions d'activation ReLU.
  • NORMAL : Les poids sont initialisés selon une distribution normale avec une moyenne de 0 et un écart-type de 1. Vous pouvez ajuster ces valeurs avec les paramètres mean et std.
  • UNIFORM : Les poids sont initialisés selon une distribution uniforme avec une moyenne de 0 et une demi-étendue de 1.
  • XAVIER (inclut XAVIER1, XAVIER2) : Utilise le schéma d'initialisation de Glorot et Bengio (2010), adapté aux fonctions d'activation sigmoïde ou tanh.

Pour l'initialisation NORMAL, vous pouvez également spécifier :

  • mean : La valeur moyenne pour l'initialisation normale (par défaut 0).
  • std : L'écart-type pour l'initialisation normale (par défaut 1).
  • truncationFactor : Un seuil de troncature pour l'initialisation normale, défini comme truncationFactor * écart-type (par défaut 0).

Le paramètre initBias (alias initB) permet de définir le biais initial de la couche (par défaut 0).

Exemples pour l'action addLayer

1. Ajout de la couche d'entrée (INPUT)
Schéma conceptuel de l'exemple : 1. Ajout de la couche d'entrée (INPUT)

Cet exemple définit la couche INPUT (tenseurs RGB 3x32x32). Le paramètre scale (1/255) normalise les pixels dans [0,1], une étape critique pour stabiliser la descente de gradient.

2. Ajout d'une couche de convolution (CONVO)
Schéma conceptuel de l'exemple : 2. Ajout d'une couche de convolution (CONVO)

Cet exemple intègre une couche CONVO (16 filtres 3x3, stride=1). L'activation ReLU introduit la non-linéarité, et l'initialisation XAVIER préserve la variance des gradients.

Assemblage d'un réseau CNN de bout en bout
Schéma conceptuel de l'exemple : Assemblage d'un réseau CNN de bout en bout

Cet exemple finalise le CNN : Max Pooling (réduction spatiale), FC (dropout 0.2) et OUTPUT Softmax (entropie croisée).