Visao Profunda de Backpropagation

Entenda BP de forma sistematica: historia, derivacao matematica, intuicao e pratica de engenharia.

1. Historia e Importancia

Em 1986, Rumelhart, Hinton e Williams sistematizaram BP para redes multicamadas.

David E. Rumelhart

Primeiro autor do artigo classico sobre treinamento multicamadas.

Geoffrey E. Hinton

Um dos principais impulsionadores do deep learning moderno.

Ronald J. Williams

Coautor com contribuicoes teoricas e experimentais fundamentais.

2. Formulas Centrais

Chaves: regra da cadeia + reaproveitamento dinamico. Custo quase linear no numero de parametros.

3. Mini Laboratorio da Regra da Cadeia

Defina g(x)=a*x+b, y=g(x)^2 e observe a mudanca de dy/dx.

4. Visualizacao do Caminho de Backpropagation

A fase forward ativa os nos; a fase backward propaga erros. A taxa de aprendizado controla a intensidade.

Aguardando acao

5. Laboratorio de Estabilidade do Gradiente

Simule o produto encadeado para observar gradiente que desaparece/explode.

6. Fluxo do Algoritmo

  1. Executar forward para obter y_hat
  2. Calcular perda L(y_hat, y)
  3. Calcular delta[L] na saida
  4. Propagar delta[l] nas camadas ocultas
  5. Calcular dW, db e atualizar parametros
  6. Iterar ate convergir

7. Pontos de Engenharia

  • Ativacoes: ReLU/GELU para reduzir desaparecimento
  • Inicializacao: combinar He/Xavier com ativacao
  • Estabilidade: LayerNorm/BatchNorm + conexoes residuais
  • Otimizacao: AdamW + warmup + weight decay
  • Seguranca: gradient clipping, precisao mista, monitoramento de NaN

Backpropagation = regra da cadeia + atribuicao de credito. Sem ela, nao existiria deep learning moderno em escala.