Réseaux de neurones

Neural network (NN) : Réseau de Neurones (RN).

Motivation

Apprendre à partir de nombreux critères (trouver des hypothèses non-linéaires complexes).

Analyse

Lorsque le nombre de critères est trop grand (IR par ex), l'approche polynomiale devient trop coûteuse en calcul (autant de features que de pixels) et il devient plus intéressant d'utiliser une alternative comme un réseau de neurones.

À l'image des neurones biologiques, un neurone artificiel possède :

des entrées :
- $x_{0} = 1$ , l'unité de biais
- $x_{1}, x_{2}, ..., x_{n}$
une sortie calculée par la fonction de prédiction $h_{Θ} (x)$ où Θ est une série de paramètres (ou "poids")

Réseau

Un réseau est constitué de $L$ couches (souvent représentées de gauche à droite) :

couche de $s_{1}$ entrées (où l'on insèrera les valeurs de $x_{1}, x_{2}, ..., x_{n}$ )
$L - 2$ couches "cachées" : contient $s_{n}$ unités d'activation (nœuds) $a_{0}^{i}, a_{1}^{i}, ..., a_{n}^{i}$ . À noter que 1 seule couche cachée peut suffire à beaucoup de besoins, pour peu qu'elle contienne assez de neurones (généralement plus que dans les couches d'entrée et de sortie). Si plus d'une couche cachée est nécessaire, il est généralement recommandé qu'elles aient le même nombre de neurones. Enfin, plus le réseau sera complexe, plus il demandera du temps de calcul (amoindrissant la rapidité de réponse donc) et plus il sera susceptible de faire du surapprentissage.
couche de $s_{L}$ sorties (typiquement constituée de $n$ neurones de sorties si la prédiction recherchée à $n$ possibilités de réponses, par exemple 26 s'il s'agit de reconnaître une lettre de l'alphabet)

Par exemple pour 1 seule couche "cachée" (2) :

$[\begin{matrix} x_{0} \\ x_{1} \\ x_{2} \\ x_{3} \end{matrix}] \to [\begin{matrix} a_{1}^{(2)} \\ a_{2}^{(2)} \\ a_{3}^{(2)} \end{matrix}] \to h θ (x)$

Lorsqu'un réseau contient plusieurs couches cachées (impliquant autant de niveaux d'abstraction), on parle d'apprentissage profond (deep learning).

Conception

On définit pour chacun des $n$ nœuds d'une couche $j$ un résultat dépendant de la couche précédente $j - 1$ et de sa matrice de poids $Θ_{j}$ :

$z_{i}^{(j)} = Θ_{i, 0}^{(j - 1)} x_{0} + Θ_{i, 1}^{(j - 1)} x_{1} + Θ_{i, 2}^{(j - 1)} x_{2} + Θ_{i, 3}^{(j - 1)} x_{3}$

et l'on définit alors la fonction d'activation comme une fonction logistique $g$ :

$a_{i}^{(j)} = g (z_{i}^{(j)})$

et l'on considère la sortie $h_{Θ} (x)$ comme $a_{1}^{3}$ par exemple (s'il y a 3 couches), recevant la couche 2 comme $X$ (i.e. $x_{i} = a_{i}$ ) :

$h_{Θ} (x) = g (Θ_{1, 0}^{(2)} a_{0} + Θ_{1, 1}^{(2)} a_{1} + Θ_{1, 2}^{(2)} a_{2} + Θ_{1, 3}^{(2)} a_{3})$

Toutefois les résultats peuvent être plus complexes. Dans des problèmes de classification multiple (plus de 2 classes) par exemple, les résultats connus (et donc les hypothèses) auront plutôt la forme d'une matrice (où chaque ligne indique si la classe $i$ est reconnue ou non par exemple) :

$h_{Θ} (x) = [\begin{matrix} h_{Θ} {(x)}_{1} \\ h_{Θ} {(x)}_{2} \\ h_{Θ} {(x)}_{3} \\ h_{Θ} {(x)}_{4} \end{matrix}]$

On parlera donc plus généralement de $h_{Θ} {(x)}_{k}$ comme étant le $k$ ^ième résultat dans la couche de sortie .

Comme pour d'autres algorithmes de ML, avant de prédire, le réseau doit être "entraîné" (trained) en 2 phases à répéter jusqu'à convergence :

pour chaque ligne de données ( $i$ de 1 à $m$ )
1. Propagation avant pour calcul du coût (erreur de prédiction)
2. Rétro-propagation si besoin, pour mise à jour des paramètres en conséquence.

Exemples

Des exemples de RN sont :

les FNN : RN à propagation avant uniquement (perceptrons). Ils peuvent être :
- mono-couche (perceptron simple) pour classifier linéairement (2 classes de sorties possibles uniquement).
- multi-couches ou "profonds" (DNN).
les RNN

Notes

Inspiré des neurones biologiques.
L'apprentissage d'un RN peut être long. Une méthode plus rapide peut être la SVM.