Publisher's Synopsis
Este livro está estruturado em cinco unidades, oferecendo uma experiência de aprendizagem holística. A viagem começa com uma introdução aos algoritmos bandit, explorando conceitos fundamentais como os algoritmos Upper Confidence Bound (UCB) e Probably Approximately Correct (PAC). A unidade seguinte introduz a estrutura completa da Aprendizagem por Reforço (RL), indo além dos algoritmos bandit para considerar as interacções agente-ambiente ao longo de vários passos de tempo. Os processos de decisão de Markov (MDP) são introduzidos como um quadro fundamental para modelar tarefas de tomada de decisão sequenciais. A quarta unidade abrange métodos de programação dinâmica, métodos de diferença temporal (TD) e a equação de optimalidade de Bellman em RL. Estes conceitos permitem aos agentes planear, aprender e otimizar eficazmente as suas acções. A unidade final explora técnicas avançadas de RL, como traços de elegibilidade, aproximação de funções, métodos de mínimos quadrados, Q-learning ajustado, Deep Q-Network (DQN) e algoritmos de gradiente de política.