L'apprentissage par renforcement (reinforcement learning) s'inspire du comportement animal (bio mimétique) avec une approche par essais/erreurs et mémorisation des actions passées. On met en œuvre cette méthode d'apprentissage dans les cas où l'on n'a pas connaissance de ce qu'il faudrait faire. L'agent interagit avec l'environnement, note ses actions et tire des conclusions pour les actions futures. Trois variables permettent de décrire ces interactions: l'état, l'action, la récompense.
Lors de la phase d'apprentissage, il est nécessaire d'essayer un grand nombre de possibilité choisies aléatoirement: c'est l'exploration.