Introduction à l'apprentissage par renforcement, sans code et presque sans maths

Magazine
Marque
MISC
HS n°
Numéro
18
Mois de parution
novembre 2018
Domaines


Résumé

L'apprentissage par renforcement est un domaine de l'apprentissage statistique qui cherche à résoudre le problème de la prise de décision séquentielle dans l'incertitude.


L’apprentissage par renforcement est l'héritier du domaine du contrôle optimal, remontant aux années 50, cherchant à donner à des systèmes dynamiques la consigne qui permet d'optimiser un critère donné.

Tout cela est très abstrait, nous allons nous intéresser ici à des exemples concrets, qui présentent pour le domaine une difficulté croissante.

Les lecteurs curieux des notions mathématiques sous-jacentes, parfois un peu pointues, pourront utilement se référer aux ouvrages de référence cités en fin d’article, tandis que les lecteurs souhaitant simplement une explication succincte du domaine pourront se contenter de mes approximations, dont je m'excuse par avance auprès des puristes.

Comme la plupart des méthodes de ML, les algorithmes de RL sont agnostiques au sens des données qu'ils traitent. Ils ne demandent :

  • qu'une description numérique de l'état du système à contrôler ;
  • la liste des actions possibles ;
  • et une indication de...
Cet article est réservé aux abonnés. Il vous reste 96% à découvrir.
à partir de 21,65€ HT/mois/lecteur pour un accès 5 lecteurs à toute la plateforme
J'en profite


Articles qui pourraient vous intéresser...

Découvrez la programmation différentiable

Magazine
Marque
GNU/Linux Magazine
Numéro
246
Mois de parution
mars 2021
Domaines
Résumé

La programmation différentiable est une nouvelle façon de penser la programmation. Le principe consiste à considérer tout un programme comme une fonction qu’on puisse différentier, et donc optimiser. Nous allons construire dans cet article les outils de base pour ce faire, et présenter la librairie JAX, qui facilite la tâche.

Qu’est-ce que le chiffrement ?

Magazine
Marque
Linux Pratique
HS n°
Numéro
50
Mois de parution
février 2021
Domaines
Résumé

Les protocoles de chiffrement de données, tels que SSL et son successeur TLS, sont au cœur des problématiques de la sécurisation des échanges sur les réseaux informatiques (dont Internet est le plus vaste représentant). Pour un développeur, comme pour un administrateur système, il est donc essentiel de bien comprendre à quoi ils servent, ce qu’ils font, et aussi quand s’en servir. Dans cet article, nous nous proposons de revenir sur toutes ces notions afin de s’assurer de leur bonne compréhension.

Monter son lab virtuel avec Kali Linux et VulnHub sous VirtualBox

Magazine
Marque
Linux Pratique
HS n°
Numéro
50
Mois de parution
février 2021
Domaines
Résumé

Dans cet article, nous allons mettre en place un virtual lab, un environnement de travail virtuel. Cet environnement vous permettra de créer, exécuter et détruire à volonté des VM vulnérables. Tout ceci sera fait dans un réseau virtuel, que nous allons créer, afin que ces machines vulnérables ne soient pas exposées sur Internet ni même sur votre réseau LAN, et éviter qu’un pirate puisse les retourner contre vous. Votre machine d’attaque sera également une machine virtuelle, sous Kali Linux, afin de ne pas utiliser votre machine de tous les jours pour vous connecter aux machines vulnérables, pour les mêmes raisons de sécurité. Kali Linux sera dans le réseau virtuel protégé pour pouvoir communiquer avec les VM vulnérables, et aura une carte réseau supplémentaire pour pouvoir accéder à Internet, être mise à jour, etc.

Scikit-image, une alternative à OpenCV pour la reconnaissance d'images

Magazine
Marque
GNU/Linux Magazine
Numéro
244
Mois de parution
janvier 2021
Domaines
Résumé

Une fois n'est pas coutume, nous allons découvrir et utiliser une alternative à OpenCV, scikit-image communément appelé skimage. Nous implémenterons la reconnaissance d'images avec la méthode des histogrammes de gradients orientés (HOG : Histogram of Oriented Gradients) associée à une machine à vecteurs de support (SVM : Support Vector Machine). Cette méthode est employée dans bien des applications telles que l'automobile, pour la détection de piétons [1].