A última década testemunhou um progresso incrível em Machine Learning (ML), impulsionado principalmente por poderosas arquiteturas de redes neurais e pelos algoritmos usados para treiná-las. No entanto, apesar do sucesso de grandes modelos de linguagem (LLMs), persistem alguns desafios fundamentais, especialmente em torno da aprendizagem contínua.
A aprendizagem contínua é a capacidade de um modelo adquirir ativamente novos conhecimentos e habilidades ao longo do tempo sem esquecer os antigos. O cérebro humano é o padrão nesse quesito, adaptando-se por meio da neuroplasticidade. Em contraste, o conhecimento dos LLMs atuais fica confinado ao contexto imediato de sua janela de entrada ou à informação estática que aprendem durante o pré-treinamento.
A abordagem simples de atualizar continuamente os parâmetros de um modelo com novos dados frequentemente leva ao “esquecimento catastrófico” (CF), onde a aprendizagem de novas tarefas sacrifica a proficiência em tarefas antigas. Tradicionalmente, os pesquisadores tentam combater o CF por meio de ajustes arquitetônicos ou melhores regras de otimização. No entanto, por muito tempo, tratamos a arquitetura do modelo (a estrutura da rede) e o algoritmo de otimização (a regra de treinamento) como duas coisas separadas.
Apresentando o Nested Learning
O Nested Learning (Aprendizagem Aninhada), é um novo paradigma que preenche essa lacuna. Apresentado por pesquisadores do Google em Novembro/2025, o Nested Learning trata um único modelo de Machine Learning não como um processo contínuo, mas sim como um sistema de problemas de aprendizagem interconectados e de múltiplos níveis que são otimizados simultaneamente.
A premissa central é que a arquitetura do modelo e as regras usadas para treiná-lo (o algoritmo de otimização) são fundamentalmente o mesmo conceito; eles são apenas diferentes “níveis” de otimização. O Nested Learning vê os modelos como um conjunto de problemas de otimização menores e aninhados, cada um com seu próprio fluxo de trabalho interno, o que ajuda a mitigar ou evitar completamente o esquecimento catastrófico.
Principais Características
• Estrutura Interna: Um modelo de ML complexo é, na verdade, um conjunto de problemas de otimização coerentes e interconectados, aninhados uns dentro dos outros ou rodando em paralelo. Cada um desses problemas internos possui seu próprio context flow, seu conjunto distinto de informações a partir do qual ele está tentando aprender.
• Novas Dimensões: Ao reconhecer essa estrutura inerente, o Nested Learning revela uma nova dimensão para projetar IA mais capaz, permitindo a construção de componentes de aprendizagem com maior profundidade computacional.
• Atualizações Multi-Escala: Semelhante aos principais componentes da aprendizagem contínua em humanos, o Nested Learning permite atualizações em múltiplas escalas de tempo.
Ao definir uma taxa de frequência de atualização (com que frequência os pesos de cada componente são ajustados), podemos ordenar esses problemas de otimização interconectados em “níveis,” formando o cerne do paradigma Nested Learning. Essa perspectiva também implica que os métodos de Deep Learning existentes funcionam essencialmente comprimindo seus fluxos de contexto internos.
Aplicações do Nested Learning
A perspectiva do Nested Learning oferece métodos baseados em princípios para aprimorar algoritmos e arquiteturas existentes.
Otimizadores Profundos (Deep Optimizers)
O Nested Learning permite aplicar princípios da perspectiva de memória associativa aos otimizadores (como os baseados em momento), pois os visualiza como módulos de memória associativa.
Muitos otimizadores padrão dependem de uma simples similaridade de produto escalar, cuja atualização não considera como diferentes amostras de dados se relacionam entre si. Ao alterar o objetivo do otimizador para uma métrica de perda mais padrão, como a perda de regressão L2 (que quantifica o erro somando os quadrados das diferenças entre valores previstos e verdadeiros), derivamos novas formulações para conceitos centrais como momento, tornando-os mais resilientes a dados imperfeitos.
Sistemas de Memória Contínuos (Continuum Memory Systems – CMS)
Em um Transformer padrão, o modelo de sequência atua como memória de curto prazo, e as redes neurais feedforward atuam como memória de longo prazo (armazenando conhecimento de pré-treinamento). O paradigma Nested Learning estende esse conceito para o que é chamado de “Sistema de Memória Contínuo” (CMS).
No CMS, a memória é vista como um espectro de módulos, cada um atualizando em uma taxa de frequência específica e diferente, o que cria um sistema de memória muito mais rico e eficaz para a aprendizagem contínua.
Hope: Uma Arquitetura de Auto-Modificação
Como prova de conceito, os pesquisadores do Google usaram os princípios do Nested Learning para projetar o Hope, uma variante da arquitetura Titans (referência ao final do post).
Embora as arquiteturas Titans gerenciem memórias priorizando aquelas que são mais surpreendentes, elas possuem apenas dois níveis de atualização de parâmetros. Hope, no entanto, é uma arquitetura recorrente de auto-modificação que aproveita níveis ilimitados de aprendizagem no contexto (in-context learning).
• Hope é aumentada com blocos CMS para escalar para janelas de contexto maiores.
• A arquitetura pode otimizar sua própria memória através de um processo de autorreferência, criando uma arquitetura com níveis de aprendizagem infinitos e em loop.
Os experimentos dos pesquisadores do Google confirmam o poder do Nested Learning, o design dos sistemas de memória contínuos e o desempenho de auto-modificação da arquitetura Hope. Em um conjunto diversificado de tarefas de modelagem de linguagem e raciocínio de senso comum, o Hope demonstrou menor perplexidade e maior precisão em comparação com modelos recorrentes modernos e Transformers padrão.
Além disso, Hope apresentou gerenciamento de memória superior em tarefas de Needle-In-Haystack (NIAH) de contexto longo, provando que os CMSs oferecem uma maneira mais eficiente e eficaz de lidar com sequências estendidas de informação.
Conclusão
O paradigma Nested Learning representa um avanço em nossa compreensão do Deep Learning. Ao tratar a arquitetura e a otimização como um sistema único e coerente de problemas de otimização aninhados, desbloqueamos uma nova dimensão para o design.
Modelos resultantes, como a arquitetura Hope, mostram que uma abordagem baseada em princípios para unificar esses elementos pode levar a algoritmos de aprendizagem mais expressivos, capazes e eficientes. Acreditamos que o paradigma Nested Learning oferece uma base robusta para reduzir a lacuna entre a natureza limitada e esquecida dos LLMs atuais e as notáveis habilidades de aprendizagem contínua do cérebro humano.
Assim como testemunhamos a arquitetura Transformers revolucionar a IA em 2017, podemos estar testemunhando mais uma evolução significativa e talvez a nova geração da IA.
Baseado no post original dos pesquisadores do Google:
Introducing Nested Learning: A new ML paradigm for continual learning
David Matos
Referências:
