Nos algoritmos de aprendizado por reforço, o agente receb...

Q2960947

Ano: 2023

Banca: Centro de Seleção e de Promoção de Eventos UnB - CESPE CEBRASPE

Prova: CESPE/CEBRASPE - Prefeitura de Fortaleza - Analista Fazendário - Área Ciências da computação - 2023

Nos algoritmos de aprendizado por reforço, o agente recebe uma recompensa atrasada na próxima etapa de tempo para avaliar sua ação anterior; seu objetivo, então, é maximizar a recompensa.

Certo

Errado

Nos algoritmos de aprendizado por reforço, o agente recebe uma recompensa atrasada na p...