viernes, 12 de mayo de 2017

Vídeo Nº 172: IA Grafos - Aprendizaje por Refuerzo 04 (Activo Aproximado)

Último vídeo de aprendizaje por refuerzo en el que mejorará lo visto en el vídeo anterior sobre Q-Learning, permitiendo usarlo cuando hay muchos estados y acciones y acelerando además el proceso de aprendizaje. Para ello, en vez de basarse en estados y acciones nos basaremos en propiedades o características inveriantes, definidas mediante funciones de evaluación que se usarán, mediante una suma ponderada, para actualizar los q-valores.



viernes, 5 de mayo de 2017

Vídeo Nº 171: IA Grafos - Aprendizeje por Refuerzo 03 (Activo, Q-Learning)

Q-Learning es el algoritmo de aprendizaje por refuerzo activo más conocido. Está basado en los Procesos de Decisión de Markov (MDP), siendo una ampliación de estos en el que se agrega una tasa de aprendizaje decreciente y una función de exploración. Se basa en el muestreo de recompensas para obtener los q-valores, no teniendo así que calcular el modelo de transición.



domingo, 30 de abril de 2017

Vídeo Nº 170: IA Grafos - Aprendizaje por Refuerzo 02 (Pasivo)

Explicación del aprendizaje por refuerzo pasivo, donde la política está fijada y no se podrá cambiar. Se aprenden los valores de los estados mediante observaciones. Se explicarán 2 técnicas: la evaluación directa y la diferencia temporal. Una ampliación de esta última es la que dará lugar al algoritmo Q-Learning que veremos en el próximo vídeo.



viernes, 21 de abril de 2017

Vídeo Nº 169: IA Grafos - Aprendizaje por Refuerzo 01

Introducción al aprendizaje por refuerzo, que son una ampliación de los Procesos de Decisión de Markov, en los cuales no se conocen ni el modelo de transición ni las recompensas. Adquieren ese conocimiento mediante la exploración de su entorno y las acciones sobre el mismo. Se listan los diferentes tipo de agentes que existen según cómo se implemente dicho aprendizaje por refuerzo y se hace una breve introducción a los mismos.



viernes, 14 de abril de 2017

Vídeo Nº 168: IA Aprendizaje - Entrenamiento y Validación Cruzada

Bases de cómo diseñar un agente inteligente, cómo entrenarlo y cómo evaluar y mejorar su rendimiento con la validación cruzada. Se tratarán los sesgos, los sobreajustes mediante el uso de gráficos llamados curvas de aprendizaje, los cuales son una herramienta indispensable para el análisis en el aprendizaje automático o machine learning.



viernes, 7 de abril de 2017

Vídeo Nº 167: IA Aprendizaje - Introducción 02

Varios conceptos básicos que se deben conocer para poder entender mejor los algoritmos de aprendizaje automático (machine learning). También se vará una lista de algoritmos básicos que se van a ver de cada enfoque, los tipos de aprendizaje que existen segun los tipos de ejemplos que se se usan en dichos algoritmos.



miércoles, 5 de abril de 2017

Video Nº 166: IA Aprendizaje - Introducción 01

Primer vídeo sobre aprendizaje automático (machine learning) en el que hablo sobre la situación actual del aprendizaje dentro de la IA, los diferentes enfoques que existen, las tecnologías, etc. También se comentarán cosas sobre representación del conocimiento, redes neuronales y deep learning. Por último, una lista de lenguajes de programación y librerías útiles para programar en machine learning.



lunes, 3 de abril de 2017

Vídeo Nº 165: IA Grafos - POMDP

Introducción a los algoritmos que permiten usa los Procesos de Decisión de Markov en entornos parcialmente observables. Lo logran mezclando los MDP con los Modelos Ocultos de Markov de redes bayesianas. También se muestra algún ejemplo con los problemas típicos que encontraemos en este tipo de problemas y las razones de que tengan una alta complejidad.



viernes, 31 de marzo de 2017

Vídeo Nº 164: IA Grafos - Procesos de Decisión de Markov 05

Algoritmo de Iteraócin de Políticas como mejora frente a los problemas que tiene la Iteración de Valores, que realiza excesivos cálculos inútiles, ya que, una vez se alcanzar una política óptima, sigue haciendo cálculos sobre este estado. Se mostrará el pseudocódigo y ejemplos del mismo.



miércoles, 29 de marzo de 2017

Vídeo Nº 163: IA Grafos - Procesos de Decisión de Markov 04

Explicación del algortirmo Iteración de Valores para calcular la política óptima en los Procesos de Decisión de Markov. A partir de la Ecuación de Bellman, se explicará, paso a paso y con ejemplos, cómo ir calculando los q-valores. Al final, se mostrará el pseudocódigo.