viernes, 5 de mayo de 2017

Vídeo Nº 171: IA Grafos - Aprendizaje por Refuerzo 03 (Activo, Q-Learning)

Q-Learning es el algoritmo de aprendizaje por refuerzo activo más conocido. Está basado en los Procesos de Decisión de Markov (MDP), siendo una ampliación de estos en el que se agrega una tasa de aprendizaje decreciente y una función de exploración. Se basa en el muestreo de recompensas para obtener los q-valores, no teniendo así que calcular el modelo de transición.



No hay comentarios:

Publicar un comentario