Por favor, use este identificador para citar o enlazar este ítem:
http://cicese.repositorioinstitucional.mx/jspui/handle/1007/4346
Captura y seguimiento de un evasor móvil utilizando Aprendizaje por Refuerzo Profundo Capture and tracking of a mobile evader using Deep Reinforcement Learning | |
Enrique Manuel Companioni Valle | |
UBALDO RUIZ LOPEZ | |
Acceso Abierto | |
Atribución | |
problemas de persecución-evasión, aprendizaje por refuerzo profundo, PPO, políticas de captura, aprendizaje curricular pursuit-evasion problems, deep reinforcement learning, PPO, capture policies, curriculum learning | |
El problema de captura dentro del dominio de persecución-evasión en entornos desconocidos con obstáculos constituye uno de los desafíos más relevantes en el campo de la robótica móvil. Tradicionalmente, esta clase de problemas se ha abordado mediante enfoques de control, representaciones basadas en grafos, aproximaciones diferenciales e incluso algoritmos genéticos con el objetivo de introducir cierto grado de inteligencia. No obstante, estos métodos suelen ser efectivos únicamente bajo condiciones especificas y presentan dificultades para adaptarse o escalar a escenarios más complejos. En este contexto, el presente trabajo propone la utilización de aprendizaje por refuerzo profundo, empleando como datos de entrada un conjunto de variables que representan el estado de un robot móvil. El objetivo es aprender una política de movimiento capaz de navegar en un entorno bidimensional con obstáculos, frente a la presencia de un agente evasor, con la finalidad de ejecutar exitosamente la tarea de captura. Para ello, se implementó un simulador que representa un entorno con obstáculos, un perseguidor y un evasor, así como un sistema de recompensas que guía al perseguidor para completar la tarea de seguimiento y captura. Se empleó el algoritmo Proximal Policy Optimization (PPO) junto con aprendizaje curricular como métodos de entrenamiento, evaluando diferentes arquitecturas de redes neuronales y configuraciones del estado del perseguidor. Los experimentos se llevaron a cabo en entornos de dificultad creciente, denominados niveles, que determinan la complejidad del problema en función de factores como la cantidad de obstáculos, el rango de captura y las configuraciones iniciales de los agentes. Como resultado, se obtuvieron dos modelos con buen desempeño en los niveles más difíciles: una red MLP de cuatro capas densas mostró mejor desempeño en el nivel 3, alcanzando una tasa de éxito de captura de 0.94, mientras que una arquitectura CNN se desempeñó mejor en el nivel 4, logrando una tasa de éxito de 0.66. The capture problem within the pursuit-evasion domain in unknown environments with obstacles represents one of the most significant challenges in the field of mobile robotics. Traditionally, this type of problem has been addressed through control-based approaches, graph representations, differential methods, and even genetic algorithms in an attempt to introduce some degree of intelligence. However, these methods are usually effective only under specific conditions and face difficulties when adapting or scaling to more complex scenarios. In this context, the present work proposes the use of deep reinforcement learning, employing as input a set of variables that represent the state of a mobile robot. The objective is to learn a motion policy capable of navigating in a two-dimensional environment with obstacles, in the presence of an evader agent, in order to successfully accomplish the capture task. To this end, a simulator was implemented to represent an environment with obstacles, a pursuer, and an evader, as well as a reward system to guide the pursuer in completing the tracking and capture task. The Proximal Policy Optimization (PPO) algorithm was employed along with curriculum learning as training methods, testing different neural network architectures and state configurations of the pursuer. The experiments were performed in environments of increasing difficulty, referred to as levels, which define the complexity of the problem according to factors such as the number of obstacles, the capture range, and the initial configurations of the agents. As a result, two models with strong performance were obtained in the most difficult levels: a four-layer dense MLP performed best at level 3, achieving a capture success rate of 0.94, while a CNN architecture performed best at level 4, achieving a capture success rate of 0.66. | |
CICESE | |
2025 | |
Tesis de maestría | |
Español | |
Companioni Valle, E.M. 2025. Captura y seguimiento de un evasor móvil utilizando Aprendizaje por Refuerzo Profundo. Tesis de Maestría en Ciencias. Centro de Investigación Científica y de Educación Superior de Ensenada, Baja California. 70 pp. | |
TECNOLOGÍA DE LA AUTOMATIZACIÓN | |
Aparece en las colecciones: | Tesis - Ciencias de la Computación |
Cargar archivos:
Fichero | Descripción | Tamaño | Formato | |
---|---|---|---|---|
tesis_Enrique Manuel Companioni Valle_2025.pdf | Descripción completa de la tesis | 1.81 MB | Adobe PDF | Visualizar/Abrir |