000 02996nam a2200337 4500
003 CL-VaUPLA
005 20251209145804.0
007 ta
008 250519b |||||||| |||| 00| 0 eng d
020 _a978-0-262-03924-6
040 _aCL-VaUPLA
_bspa
_cCL-VaUPLA
_erda
082 0 4 _a006.3 S967r
100 1 _aSutton, Richard S.,
_923761
_eautor
245 1 0 _aReinforcement learning :
_ban introduction /
_cRichard S. Sutton and Andrew G. Barto
250 _aSecond edition
264 1 _aCambridge :
_bMIT Press,
_c2020
300 _axviii, 322 páginas
336 _2rdacontent
_atexto
_btxt
337 _2rdamedia
_aNo mediado
_bn
338 _2rdacarrier
_aVolumen
_bnc
490 0 _aAdaptive computation and machine learning
505 0 _aI. Tabular solution methods - II. Approximate solution methods - III. Looking deeper
520 _aLa nueva edición, significativamente ampliada y actualizada, de un texto ampliamente utilizado sobre aprendizaje por refuerzo, una de las áreas de investigación más activas en inteligencia artificial. El aprendizaje por refuerzo, una de las áreas de investigación más activas en inteligencia artificial, es un enfoque computacional del aprendizaje mediante el cual un agente intenta maximizar la cantidad total de recompensa que recibe al interactuar con un entorno complejo e incierto. En Aprendizaje por Refuerzo, Richard Sutton y Andrew Barto ofrecen una explicación clara y sencilla de las ideas y algoritmos clave del campo. Esta segunda edición se ha ampliado y actualizado significativamente, presentando nuevos temas y actualizando la cobertura de otros. Al igual que la primera edición, esta segunda edición se centra en los algoritmos básicos de aprendizaje en línea, con el material más matemático resaltado en recuadros sombreados. La Parte I abarca la mayor parte posible del aprendizaje por refuerzo sin ir más allá del caso tabular para el cual se pueden encontrar soluciones exactas. Muchos algoritmos presentados en esta parte son nuevos en la segunda edición, incluyendo UCB, Expected Sarsa y Double Learning. La Parte II amplía estas ideas a la aproximación de funciones, con nuevas secciones sobre temas como las redes neuronales artificiales y la base de Fourier, y ofrece un tratamiento más amplio del aprendizaje fuera de política y los métodos de gradiente de política. La Parte III incluye nuevos capítulos sobre las relaciones del aprendizaje por refuerzo con la psicología y la neurociencia, así como un capítulo actualizado de estudios de caso que incluye AlphaGo y AlphaGo Zero, la jugabilidad de Atari y la estrategia de apuestas de IBM Watson. El capítulo final analiza los futuros impactos sociales del aprendizaje por refuerzo
546 _aTexto en inglés
650 4 _aINTELIGENCIA ARTIFICIAL
650 4 _aREFUERZO (PSICOLOGIA)
650 4 _aREDES NEURONALES (COMPUTADORES)
700 1 _aBarto, Andrew G.,
_923762
_eautor
942 _2z
_cLB
_n0
998 _cAAR
_d19/05/25
999 _c155765
_d155765