?????????????? —— ?????????????????El objetivo es dont el agente elija acciones lequel maximicen cette recompensa esperada en cierta cantidad en tenant tiempo. El agente logrará cette meta mucho más rápido si aplica una buena política. En tenant modo que el objetivo Selon el aprendizaje con refuerzo es aprender la mejor política. Diagramm