Ainda não se sabe se o MLOps sobreviverá como uma disciplina independente do DevOps. Há quem acredite que o MLOps seja real e outros não. Mas e LLMOps? Existem indicadores de que os profissionais necessitam de maior controle operacional sobre grandes modelos linguísticos, incluindo os inputs que lhes são fornecidos, bem como as informações que geram.
O professor Luis Ceze se tornou um dos críticos mais ferrenhos do MLOps quando a ideia e o termo começaram a se tornar tendência há vários anos. MLOps não é necessário, argumentou o professor de ciência da computação da Universidade de Washington nos EUA, porque o desenvolvimento e a manutenção de modelos de aprendizado de máquina não estavam tão distantes do desenvolvimento de software tradicional que as tecnologias e técnicas usadas pelos desenvolvedores de software tradicionais – colocadas sob a rubrica de o bom e velho DevOps – foi suficiente para gerenciar o ciclo de vida de desenvolvimento de aprendizado de máquina.
“Por que deveríamos tratar um modelo de aprendizado de máquina como se fosse uma fera especial em comparação com qualquer módulo de software?” Ceze disse a Datanami em 2022 para o artigo “Os pássaros não são reais. E nem o MLOps.” “Não deveríamos dar um nome que tenha o mesmo significado do que as pessoas chamam de DevOps.”
Como um LLM (Large Language Model) é um tipo de modelo de aprendizado de máquina, pode-se supor que Ceze também seria contra o LLMOps como uma disciplina distinta. Mas esse não é realmente o caso. Na verdade, o fundador e CEO da OctoML, que lançou recentemente uma nova oferta de LLM como serviço, disse que é possível argumentar que os LLMs são suficientemente diferentes do aprendizado de máquina clássico que o DevOps não os cobre, e que algo mais é necessário para manter os aplicativos LLM no caminho certo.
Um dos principais impulsionadores do movimento LLMOps é o fato de que os usuários costumam unir vários LLMs para criar um aplicativo de IA. Seja respondendo a perguntas sobre uma pilha de texto, gerando uma história personalizada ou construindo um chatbot para responder às perguntas dos clientes, muitos (se não a maioria) dos aplicativos LLM afetarão vários modelos fundamentais, disse ele.
“Agora que o LLMOps está começando a se tornar uma realidade, [ele] aborda vários tópicos”, disse Ceze. “O que você acha do gerenciamento imediato? Como você gerencia a qualidade? Como você une diferentes LLMs ou diferentes modelos fundamentais para ter um recurso real com as propriedades que deseja? Tudo isso está emergindo como uma nova maneira de pensar sobre como unir modelos para fazê-los se comportar como você deseja.”
De acordo com a Databricks, o rápido crescimento dos LLMs exigiu a definição de melhores práticas quando se trata de construir, implantar e manter esses modelos especializados. Em comparação com os modelos tradicionais de aprendizado de máquina, trabalhar com LLMs é diferente porque eles exigem instâncias de computação muito maiores, são baseados em modelos pré-existentes ajustados usando aprendizagem por transferência, baseiam-se fortemente no aprendizado por reforço de feedback humano (RLHF) e eles têm metas e métricas de ajuste diferentes, diz Databricks em sua cartilha LLMOps.
Outros fatores a serem considerados em LLMs e LLMOps incluem engenharia imediata e bancos de dados de vetores. Ferramentas como o LangChain surgiram para ajudar a automatizar o processo de obtenção de informações dos clientes e convertê-las em prompts que podem ser inseridos no GPT e em outros LLMs. Os bancos de dados vetoriais também proliferaram graças à sua capacidade de armazenar a saída pré-gerada de LLMs, que pode então ser realimentada no prompt do LLM em tempo de execução para fornecer uma experiência melhor e mais personalizada, seja um mecanismo de pesquisa, um chatbot ou outro caso de uso LLM.
Embora seja fácil começar com LLMs e construir um protótipo rápido, a mudança para a implantação de produção é outra questão, diz Databricks.
“O ciclo de vida de desenvolvimento do LLM consiste em muitos componentes complexos, como ingestão de dados, preparação de dados, engenharia imediata, ajuste fino de modelo, implantação de modelo, monitoramento de modelo e muito mais”, afirma a empresa em sua cartilha LLMOps. “Também requer colaboração e transferência entre equipes, da engenharia de dados à ciência de dados e à engenharia de ML. É necessário um rigor operacional para manter todos esses processos sincronizados e funcionando juntos. LLMOps abrange a experimentação, iteração, implantação e melhoria contínua do ciclo de vida de desenvolvimento do LLM.”
Ceze concorda amplamente. “Muitas das coisas que consideramos certas na engenharia de software vão embora pela janela” com os LLMs, disse ele. “Quando você escreve um trecho de código e o executa, não importa se você atualiza, digamos, sua versão do Python ou se compila com um novo compilador. Você tem um comportamento esperado que isso não muda, certo?
“Mas agora, olhando para um prompt como parte de algo que você projeta, se for necessário o modelo – mesmo fazendo algumas atualizações de peso, você pode realmente fazer com que esse prompt não funcione mais tão bem”, continuou ele. “Então, gerenciar tudo isso eu acho que é muito importante. Estamos apenas na infância para fazer isso.”
Os usuários muitas vezes veem os modelos fundamentais como imutáveis, mas eles podem estar mudando mais do que a maioria das pessoas imagina. Por exemplo, um artigo divulgado recentemente por três pesquisadores, incluindo Matei Zaharia, cofundador da Databricks e professor assistente na Universidade de Stanford, encontrou uma quantidade razoável de variação ao longo do tempo no desempenho do GPT-3.5 e GPT-4. O desempenho do GPT-4 em problemas matemáticos, em particular, diminuiu 30% em relação à versão OpenAI lançada em abril em comparação com a lançada em junho, descobriram os pesquisadores.
Quando você leva em consideração todas as outras partes móveis na construção de aplicativos de IA com LLMs – desde a mudança dos modelos fundamentais até as diferentes palavras que as pessoas usam para solicitar uma resposta deles, e tudo mais – fica claro que há amplo espaço para erros a ser introduzido na equação.
No futuro, não está claro como as operações do modelo evoluirão para os LLMs. LLMOps pode ser um fenômeno temporário que desaparece assim que o desenvolvedor e a comunidade se reúnem em torno de um conjunto básico de APIs e comportamentos estabelecidos com modelos fundamentais, disse Ceze. Talvez seja agrupado em DevOps, como MLOps antes dele.
“Esse conjunto de modelos terá um comportamento cada vez mais confiável. É assim que está a tendência”, disse Ceze. “As pessoas estão melhorando na combinação dos resultados de cada uma dessas fontes e na produção de resultados de alta confiabilidade. Isso vai ser acompanhado de pessoas percebendo que isso se baseia em funcionalidades que nem sempre serão 100%, assim como o software não é hoje. Portanto, vamos melhorar em testá-lo e construir as salvaguardas certas para ele.”
O problema é que ainda não chegamos lá. O ChatGPT não tem nem um ano e toda a indústria de IA Generativa ainda está em sua infância. O valor comercial da IA Generativa e dos LLMs está sendo cutucado e estimulado, e as empresas estão procurando maneiras de colocar isso em prática. Há uma sensação de que esta é a tecnologia de IA que todos esperávamos, mas é necessário descobrir a melhor forma de aproveitá-la, daí a ideia de que LLMOPs será uma realidade.
“No momento, parece algo especial, porque uma API cujo comando é uma frase em inglês, em oposição a uma chamada estruturada e bem definida, é algo com o qual as pessoas estão construindo”, disse Ceze. “Mas é frágil. Estamos enfrentando alguns dos problemas agora e isso terá que ser resolvido. LLMOps parece ser o caminho natural.”
David Matos
Referências: