Aproximación de funciones con redes neuronales en RL

Find AI Tools

No difficulty

No complicated process

Find ai tools

Home AI News ES Aproximación de funciones con redes neuronales en RL

Aproximación de funciones con redes neuronales en RL

Tabla de contenidos:

Introducción
Por qué usar redes neuronales en lugar de tablas o funciones paramétricas
La importancia de tener dos redes neuronales en RL
El papel del actor y el evaluador en el algoritmo Executor-Evaluator
Cómo configurar un agente de aprendizaje por refuerzo con redes neuronales
Aproximación de funciones con redes neuronales
El papel de las funciones de activación en las redes neuronales
El impacto de la arquitectura de la red en el rendimiento del agente
Limitaciones y desafíos de los algoritmos de gradiente de política
Algoritmos basados en funciones de valor y su aplicación en entornos continuos

Aproximación de funciones con redes neuronales en el aprendizaje por refuerzo

En el video anterior, nos enfocamos en la configuración del entorno de aprendizaje por refuerzo y en cómo las recompensas en el entorno guían el comportamiento del agente. En este video, nos centraremos en la configuración del agente en sí, específicamente en los últimos tres pasos del flujo de trabajo de RL. Cubrir todos estos pasos requeriría varias clases en un semestre completo. Afortunadamente, ese no es el objetivo de este video de 17 minutos. En su lugar, quiero presentar algunos temas de alto nivel que le darán una comprensión general de estos pasos, lo que le permitirá obtener un mejor resultado al sumergirse en cursos más completos sobre el tema. Por lo tanto, en este video, discutiré dos preguntas principales:

🤔 ¿Por qué usar redes neuronales para representar funciones en lugar de tablas o funciones paramétrizadas?

La respuesta a esta pregunta se relaciona con la capacidad de las redes neuronales para aproximar cualquier relación de entrada y salida dada una combinación adecuada de nodos y conexiones. Esto es ventajoso, ya que podemos utilizar cientos de valores de píxeles en un sistema de visión de robot como entrada a esta función, y la salida pueden ser las instrucciones para controlar los brazos y las piernas del robot. Si bien esta función puede ser extremadamente compleja, sabemos que hay algún tipo de red neuronal que puede aproximarse a ella. Si no está familiarizado con los principios matemáticos de las redes neuronales, le recomendaría encarecidamente la serie de cuatro videos de 3 Blue 1 Brown, donde se explican de manera excelente los entresijos del funcionamiento interno de las redes. Por ahora, omitiré gran parte de la matemática aquí, pero me gustaría resaltar un par de cosas.

A la izquierda, tenemos los nodos de entrada correspondientes a cada entrada de la función, a la derecha tenemos los nodos de salida y en el medio tenemos una columna de nodos llamados capa oculta. Esta red tiene 2 entradas, 2 salidas y 2 capas ocultas con 3 nodos cada una. Para una red completamente conectada, hay una flecha o conexión ponderada desde cada nodo de entrada a cada nodo de la siguiente capa, y desde esos nodos a la siguiente capa, y así sucesivamente hasta los nodos de salida. El valor del nodo se calcula como la suma ponderada de cada nodo de entrada multiplicado por su factor de peso respectivo, más un sesgo. Este cálculo se realiza para cada nodo en la capa y se representa como un sistema de ecuaciones lineales en forma matricial. Ahora, si calculamos simplemente los valores de los nodos como se ha mostrado hasta ahora, y luego los ingresamos en la siguiente capa para realizar la misma operación lineal, y así sucesivamente hasta la capa de salida, nos encontramos con un problema. ¿Cómo una pila de ecuaciones lineales como esta puede pretender ser un aproximador de funciones universal? Por ejemplo, ¿cómo representa una función no lineal? Esto se debe a que omití un paso crucial, que podría ser uno de los aspectos más importantes de las redes neuronales artificiales. Después de calcular los valores de los nodos, se aplica una función de activación de alguna manera para cambiar los valores de los nodos. Dos funciones de activación comunes son la función sigmoide y la función ReLU. La primera comprime los valores de los nodos entre 0 y 1, mientras que la última establece todos los valores negativos en cero. Hay muchas otras funciones de activación diferentes, pero todas tienen una cosa en común: son no lineales. Esto es crucial para construir una red que pueda ajustarse a cualquier función. Para una explicación más completa de por qué esto es así, me gusta mucho la explicación de Brendon Fortuner y Michael Neilson, quienes detallan esto con las funciones ReLU y sigmoide, respectivamente. He dejado un enlace a sus blogs en la descripción.

En resumen, estamos buscando una función que pueda tomar una gran cantidad de observaciones y convertirlas en un conjunto de acciones para controlar un entorno no lineal. Dado que la estructura de esta función suele ser demasiado compleja para resolver directamente, nos gustaría utilizar una red neuronal para aproximarla mientras aprende con el tiempo. Es fácil asumir que podemos simplemente poner cualquier red en su lugar, usar un algoritmo de aprendizaje por refuerzo para encontrar la combinación correcta de pesos y sesgos, y listo. Desafortunadamente, como siempre, no es tan sencillo. Antes de tiempo, tenemos que tomar algunas decisiones sobre la red neuronal para asegurarnos de que sea lo suficientemente compleja como para acercarse a la función que buscamos, pero no tan compleja que dificulte el entrenamiento o sea demasiado lenta. Por ejemplo, como vimos, tenemos que elegir una función de activación, la cantidad de capas ocultas y la cantidad de nodos en cada capa. Pero además de eso, también podemos controlar la estructura interna de la red. ¿Debería ser una red completamente conectada, como dibujé, o deberíamos omitir algunas capas cuando las conexiones se realizan? ¿Deberían las capas tener conexiones recurrentes consigo mismas para construir memoria interna? ¿Deberían los grupos de neuronas trabajar juntos de manera similar a una red neuronal convolucional? Y así sucesivamente... Hay muchas opciones, pero al igual que con otras técnicas de control, no hay una respuesta correcta. A menudo, es posible comenzar con una arquitectura de red que previamente haya abordado un tipo de problema similar al que intenta resolver y ajustarla en base a eso. He estado diciendo que usamos estas redes neuronales para representar la política en nuestro agente, pero exactamente lo que eso significa se puede ver en una descripción de alto nivel de algunas categorías diferentes de algoritmos de aprendizaje por refuerzo: aquellos basados en funciones de política, aquellos basados en funciones de valor y aquellos basados en Executor-Evaluator.

Resumen

En este video, hemos explorado cómo las redes neuronales se utilizan para aproximación de funciones en el aprendizaje por refuerzo. Hemos discutido la importancia de elegir una función de activación adecuada y cómo las redes neuronales pueden ajustarse a relaciones no lineales. También hemos hablado sobre las decisiones que deben tomarse al configurar la arquitectura de la red y cómo estas decisiones afectan la capacidad de la red para aproximarse a la función objetivo. Además, hemos analizado brevemente los algoritmos basados en funciones de valor y hemos introducido el concepto de Executor-Evaluator como una forma de combinar los enfoques basados en funciones de política y de valor en entornos de acción continua. En el próximo video, mostraremos cómo se aplica el algoritmo Executor-Evaluator para controlar el movimiento de un robot bípedo.

Aproximación de funciones con redes neuronales en RL

Aproximación de funciones con redes neuronales en RL

Aproximación de funciones con redes neuronales en el aprendizaje por refuerzo

🤔 ¿Por qué usar redes neuronales para representar funciones en lugar de tablas o funciones paramétrizadas?

Resumen

Most people like