Imagem de fundo

Nos algoritmos de aprendizado por reforço, o agente recebe uma recompensa atrasada na p...

Nos algoritmos de aprendizado por reforço, o agente recebe uma recompensa atrasada na próxima etapa de tempo para avaliar sua ação anterior; seu objetivo, então, é maximizar a recompensa.

C

Certo

E

Errado