| 000 | 02996nam a2200337 4500 | ||
|---|---|---|---|
| 003 | CL-VaUPLA | ||
| 005 | 20251209145804.0 | ||
| 007 | ta | ||
| 008 | 250519b |||||||| |||| 00| 0 eng d | ||
| 020 | _a978-0-262-03924-6 | ||
| 040 |
_aCL-VaUPLA _bspa _cCL-VaUPLA _erda |
||
| 082 | 0 | 4 | _a006.3 S967r |
| 100 | 1 |
_aSutton, Richard S., _923761 _eautor |
|
| 245 | 1 | 0 |
_aReinforcement learning : _ban introduction / _cRichard S. Sutton and Andrew G. Barto |
| 250 | _aSecond edition | ||
| 264 | 1 |
_aCambridge : _bMIT Press, _c2020 |
|
| 300 | _axviii, 322 páginas | ||
| 336 |
_2rdacontent _atexto _btxt |
||
| 337 |
_2rdamedia _aNo mediado _bn |
||
| 338 |
_2rdacarrier _aVolumen _bnc |
||
| 490 | 0 | _aAdaptive computation and machine learning | |
| 505 | 0 | _aI. Tabular solution methods - II. Approximate solution methods - III. Looking deeper | |
| 520 | _aLa nueva edición, significativamente ampliada y actualizada, de un texto ampliamente utilizado sobre aprendizaje por refuerzo, una de las áreas de investigación más activas en inteligencia artificial. El aprendizaje por refuerzo, una de las áreas de investigación más activas en inteligencia artificial, es un enfoque computacional del aprendizaje mediante el cual un agente intenta maximizar la cantidad total de recompensa que recibe al interactuar con un entorno complejo e incierto. En Aprendizaje por Refuerzo, Richard Sutton y Andrew Barto ofrecen una explicación clara y sencilla de las ideas y algoritmos clave del campo. Esta segunda edición se ha ampliado y actualizado significativamente, presentando nuevos temas y actualizando la cobertura de otros. Al igual que la primera edición, esta segunda edición se centra en los algoritmos básicos de aprendizaje en línea, con el material más matemático resaltado en recuadros sombreados. La Parte I abarca la mayor parte posible del aprendizaje por refuerzo sin ir más allá del caso tabular para el cual se pueden encontrar soluciones exactas. Muchos algoritmos presentados en esta parte son nuevos en la segunda edición, incluyendo UCB, Expected Sarsa y Double Learning. La Parte II amplía estas ideas a la aproximación de funciones, con nuevas secciones sobre temas como las redes neuronales artificiales y la base de Fourier, y ofrece un tratamiento más amplio del aprendizaje fuera de política y los métodos de gradiente de política. La Parte III incluye nuevos capítulos sobre las relaciones del aprendizaje por refuerzo con la psicología y la neurociencia, así como un capítulo actualizado de estudios de caso que incluye AlphaGo y AlphaGo Zero, la jugabilidad de Atari y la estrategia de apuestas de IBM Watson. El capítulo final analiza los futuros impactos sociales del aprendizaje por refuerzo | ||
| 546 | _aTexto en inglés | ||
| 650 | 4 | _aINTELIGENCIA ARTIFICIAL | |
| 650 | 4 | _aREFUERZO (PSICOLOGIA) | |
| 650 | 4 | _aREDES NEURONALES (COMPUTADORES) | |
| 700 | 1 |
_aBarto, Andrew G., _923762 _eautor |
|
| 942 |
_2z _cLB _n0 |
||
| 998 |
_cAAR _d19/05/25 |
||
| 999 |
_c155765 _d155765 |
||