Imagem de fundo

Referente à arquitetura original do Transformer (conforme o artigo “Attention is All Yo...

Referente à arquitetura original do Transformer (conforme o artigo “Attention is All You Need”, de Vaswani et. al. 2017), qual é a principal vantagem do uso do mecanismo Multi-Head Attention em comparação com uma única camada de atenção na arquitetura Transformer?


A

Reduzir o número de parâmetros treináveis do modelo.


B

Permitir que o modelo capture diferentes aspectos das relações entre as palavras em paralelo.


C

Eliminar a necessidade de normalização em camadas.


D

Aumentar a profundidade da rede sem adicionar camadas.


E

Ajustar funções específicas, sem a necessidade do uso global de funções como a sigmoid ou ReLU.