Aproximaciones de modelos de cadenas de Markov controladas y juegos markovianos en tiempo continuo

Lorenzo Magán, José María

Aproximaciones de modelos de cadenas de Markov controladas y juegos markovianos en tiempo continuo

Lorenzo Magán, José María

Dirigida por:

Tomás Prieto Rumeau Director

Universidad de defensa: UNED. Universidad Nacional de Educación a Distancia

Fecha de defensa: 19 de enero de 2016

Tribunal:

Ricardo Vélez Ibarrola Presidente/a
Carlos Rivero Rodríguez Secretario
Rosario Romera Ayllón Vocal

Tipo: Tesis

Teseo: 434742 DIALNET Acceso abierto editor

Resumen

Esta tesis estudia métodos de aproximación para cadenas de Markov controladas en tiempo continuo y para juegos markovianos bipersonales de suma cero en tiempo continuo. Estos modelos dinámicos ya han sido estudiados desde el punto de vista teórico pero, en general, no es posible obtener explícitamente los valores óptimos de los problemas ni las estrategias óptimas, debido a la complejidad de las correspondientes ecuaciones de optimalidad. Es por ello que se introducen aquí métodos de aproximación que permitan aproximar numéricamente dichos valores óptimos y las correspondientes estrategias óptimas. En un contexto más general, la idea es proponer una definición de convergencia de una sucesión {Mn}n?1 de modelos de cadenas de Markov controladas a un modelo M, cuya solución óptima se quiere aproximar. Se darán entonces condiciones bajo las cuales la convergencia Mn ? M implique la convergencia de los valores óptimos y de las políticas óptimas de Mn a los de M. Esta misma problemática se abordara ? para la convergencia Gn ? G para juegos de Markov de suma nula. Los modelos de control y juegos considerados tienen espacio de estados numerable, espacios de acciones de Borel, y sus tasas de transición y pago pueden ser no acotadas. Se estudiarán los criterios de optimalidad del pago descontado y del pago promedio. Las hipótesis principales que se harán sobre estos modelos incluyen desigualdades de tipo Lyapunov sobre las tasas de transición, continuidad del pago y de las tasas de transición, y compacidad de los conjuntos de acciones. Adema ?s de los resultados de convergencia de los valores óptimos de los modelos de control M y juegos G, se estudiara ?n las tasas de convergencia de los valores óptimos de Mn y Gn, cuando estos se definen mediante una truncación finita de los espacios de estados y acciones de los modelos originales. Se probar ?a que estas tasas esta ?n estrechamente relacionadas con el máximo exponente para el que se obtiene una desigualdad de Lyapunov. Los resultados teóricos obtenidos se ilustran con varias aplicaciones a modelos de poblaciones y procesos de nacimiento y muerte. De esta manera, se prueba también que los métodos de aproximación estudiados son una herramienta potente que permite estimar con precisión la solución óptima de modelos estocásticos de decisión complejos.