Introduction à l'apprentissage par renforcement, sans code et presque sans maths

Spécialité(s)


Résumé

L'apprentissage par renforcement est un domaine de l'apprentissage statistique qui cherche à résoudre le problème de la prise de décision séquentielle dans l'incertitude.


L’apprentissage par renforcement est l'héritier du domaine du contrôle optimal, remontant aux années 50, cherchant à donner à des systèmes dynamiques la consigne qui permet d'optimiser un critère donné.

Tout cela est très abstrait, nous allons nous intéresser ici à des exemples concrets, qui présentent pour le domaine une difficulté croissante.

Les lecteurs curieux des notions mathématiques sous-jacentes, parfois un peu pointues, pourront utilement se référer aux ouvrages de référence cités en fin d’article, tandis que les lecteurs souhaitant simplement une explication succincte du domaine pourront se contenter de mes approximations, dont je m'excuse par avance auprès des puristes.

Comme la plupart des méthodes de ML, les algorithmes de RL sont agnostiques au sens des données qu'ils traitent. Ils ne demandent :

  • qu'une description numérique de l'état du système à contrôler ;
  • la liste des actions possibles ;
  • et une indication de...
Cet article est réservé aux abonnés. Il vous reste 96% à découvrir.
S'abonner à Connect
  • Accédez à tous les contenus de Connect en illimité
  • Découvrez des listes de lecture et des contenus Premium
  • Consultez les nouveaux articles en avant-première
Je m'abonne


Article rédigé par

Abonnez-vous maintenant

et profitez de tous les contenus en illimité

Je découvre les offres

Déjà abonné ? Connectez-vous