Mecanismo de Atenção em IA Generativa

Como os modelos como GPT e Transformer usam atenção para processar informações

O que é Atenção em IA?

O mecanismo de atenção é uma técnica que permite aos modelos de IA focar em partes específicas da entrada ao processar informações, similar a como humanos prestam atenção seletiva.

  • 1 Permite ao modelo pesar diferentes partes da entrada de forma diferente
  • 2 Facilita o aprendizado de dependências de longo alcance em sequências
  • 3 Torna o modelo mais interpretável (podemos visualizar padrões de atenção)

A atenção é o que permite aos modelos generativos entenderem contextos complexos e gerar respostas coerentes e relevantes.

Tipos de Mecanismos de Atenção

Atenção Global (Self-Attention)

Calcula relações entre todas as palavras na sequência simultaneamente.

Atenção Local

Foca apenas em uma janela de palavras próximas, melhorando eficiência.

Atenção Multi-Head

Múltiplos mecanismos de atenção em paralelo para capturar diferentes relações.

Visualização do Mecanismo de Atenção

Selecione uma palavra para ver como o mecanismo de atenção funciona:

Mapa de Atenção Visualizado

Como ler este diagrama: As linhas mostram quais palavras o modelo "presta atenção" quando processa a palavra selecionada. Linhas mais espessas e coloridas indicam maior atenção.

Como Funciona o Cálculo

1. Consultas, Chaves e Valores (Q, K, V)

Cada palavra é transformada em três vetores que representam diferentes aspectos.

2. Cálculo dos Scores de Atenção

Produto escalar entre consultas e chaves determina o quanto uma palavra deve focar em outra.

3. Aplicação do Softmax

Transforma os scores em probabilidades que somam 1.

4. Combinação dos Valores

Os valores são ponderados pelos pesos de atenção para produzir a saída final.

Benefícios do Mecanismo

Paralelização

Cálculos podem ser feitos em paralelo, diferente de RNNs.

Dependências de Longo Alcance

Captura relações entre palavras distantes na sequência.

Interpretabilidade

Podemos analisar os padrões de atenção para entender decisões.

Flexibilidade

Funciona bem para diversas tarefas (tradução, sumarização, etc.).

<Made with DeepSite LogoDeepSite - 🧬 Remix