Model Collapse em LLMs: O Custo Oculto dos Dados Sintéticos

Quando a Meta AI reportou uma degradação de 23% no benchmark MMLU do Llama 2 após fine-tuning exclusivamente com dados sintéticos, o problema deixou de ser teórico. Model collapse — a degradação progressiva de modelos treinados em dados gerados por outros modelos — afeta diretamente pipelines de fine-tuning em produção.

A matemática por trás é contra-intuitiva: mesmo com apenas 10% de contaminação por dados sintéticos, benchmarks começam a mostrar degradação mensurável. Após cinco gerações de re-treinamento com outputs gerados por IA, modelos perdem 90% de sua diversidade original. O paper “The Curse of Recursion” (Shumailov et al., 2023) demonstrou o fenômeno experimentalmente e identificou dois tipos distintos de colapso: Early Model Collapse, onde a cauda da distribuição desaparece rapidamente, e Late Model Collapse, onde o modelo converge para uma distribuição completamente degenerada.

A Nature confirmou em julho de 2024 que essa degradação é irreversível após múltiplas gerações de treinamento recursivo. Para empresas construindo produtos com fine-tuning customizado, isso não é um problema futuro — é uma realidade operacional que exige estratégias de mitigação agora.

Por Que Dados Sintéticos Causam Colapso

A explicação técnica está na forma como modelos generativos distorcem distribuições de probabilidade. Quando um LLM gera texto, ele amostra de uma distribuição aprendida durante o treinamento — mas essa distribuição já é uma aproximação imperfeita da distribuição real de linguagem humana, com vieses, simplificações e omissões sistemáticas.

Treinar um novo modelo nesses outputs significa aprender não apenas os padrões originais, mas também os vieses e limitações do modelo gerador. Cada geração amplifica essas distorções. O estudo “Self-Consuming Generative Models Go MAD” documenta esse processo: a cada iteração, a representação de eventos raros (cauda longa da distribuição) diminui exponencialmente. Após algumas gerações, o modelo “esquece” completamente estruturas linguísticas que aparecem com baixa frequência nos dados sintéticos, mesmo que sejam comuns em linguagem humana real.

Dados sintéticos apresentam perplexidade 15-30% menor que dados humanos. Isso significa que o texto gerado é mais previsível, menos diverso. A Type-Token Ratio (proporção de palavras únicas sobre total de palavras) e outras métricas de diversidade léxica caem 40-60% em datasets contaminados. Essa uniformização causa o colapso: o modelo aprende uma versão simplificada e homogênea da linguagem, perdendo a capacidade de lidar com variação, criatividade e casos edge.

Um estudo da UC Berkeley (2024) documentou queda de 18% em performance de raciocínio matemático após fine-tuning com 50% de dados sintéticos. Não é apenas um problema de “estilo de escrita” — afeta capacidades cognitivas fundamentais do modelo.

Detecção Prática de Contaminação

Detectar dados sintéticos antes que contaminem seu pipeline não é trivial. Ferramentas como GPTZero e DetectGPT alcançam 85-95% de acurácia na identificação de texto gerado por LLM, analisando padrões estatísticos — uniformidade de perplexidade, estruturas sintáticas repetitivas, ausência de inconsistências típicas de escrita humana. A acurácia é alta, mas não suficiente para filtragem automática em larga escala: em um dataset de 1 milhão de exemplos, você ainda teria 50-150 mil falsos positivos ou negativos.

Watermarking técnico oferece detecção determinística. O método de Kirchenbauer et al. (2023) permite precisão >99.9% quando implementado durante a geração, inserindo padrões estatísticos imperceptíveis no processo de amostragem de tokens. Se você controla o modelo que gera dados sintéticos para augmentation, implementar watermarking é a estratégia mais confiável. Se você está consumindo dados de fontes externas, não há watermark para detectar.

Métricas de perplexidade e diversidade léxica servem como heurísticas complementares. Se um subset do seu dataset apresenta perplexidade consistentemente 15-30% menor que o resto, ou se métricas como MTLD (Measure of Textual Lexical Diversity) caem significativamente, você tem um indicador de contaminação — não é prova definitiva, mas justifica investigação mais profunda.

RedPajama-Data, o pipeline open-source que processou 100+ TB de dados web, remove 40% do conteúdo através de filtros de qualidade baseados em heurísticas: detecção de duplicatas, análise de perplexidade, verificação de coerência estrutural. A documentação é pública e os filtros são implementáveis. DataTrove da HuggingFace e Dolma Toolkit do Allen AI oferecem frameworks similares, todos com módulos específicos para detecção de conteúdo sintético.

CleanLab, focado em detecção de outliers e erros de label, mostra redução de 30% em erros quando aplicado antes do treinamento. Não detecta dados sintéticos diretamente, mas identifica exemplos problemáticos — o que frequentemente inclui outputs sintéticos de baixa qualidade.

O custo de usar LLM-as-judge (GPT-4 avaliando qualidade de exemplos individuais) é $0.03-0.05 por 1k exemplos. Para datasets médios (100k-500k exemplos), isso significa $3-25k — viável para fine-tuning de alto valor, inviável para pipelines de treinamento de base.

Estratégias de Mitigação com Evidências Reais

A Anthropic documentou que modelos treinados com mix 80/20 (real/sintético) mantiveram 95% da performance original. Essa proporção representa o threshold onde a diversidade de dados reais compensa a uniformização dos sintéticos.

Deduplicação é uma das defesas mais eficazes, mas tem custos. Exact deduplication via MinHash preserva apenas 60-70% dos dados originais. O RedPajama documenta esse trade-off explicitamente: você reduz repetições (que amplificam vieses sintéticos), mas descarta 30-40% de conteúdo potencialmente útil. Semantic deduplication usando embeddings é mais eficaz — Stanford (2024) mostrou que previne colapso melhor que deduplicação exata — mas o custo computacional de calcular embeddings para bilhões de exemplos é substancial.

Injeção contínua de dados reais funciona como “vacina” contra colapso. Se você fine-tuna com dados sintéticos mas periodicamente adiciona batches de dados humanos de alta qualidade, a degradação é contida. A questão prática? Custo. Dados humanos de alta qualidade são caros de obter, o que torna o threshold 80/20 da Anthropic relevante — você precisa de volume mínimo de dados reais para estabilizar a distribuição.

Temperature scaling durante geração sintética requer balanceamento cuidadoso. Valores entre 0.8-1.0 equilibram qualidade e diversidade — temperatures mais baixas produzem texto de maior qualidade mas menor diversidade (aceleram colapso), temperatures muito altas aumentam diversidade mas reduzem qualidade. Não há valor mágico; o ideal depende do domínio e do modelo gerador.

Mode collapse em modelos de imagem (Stable Diffusion fine-tuned em seus próprios outputs) aparece após 3-5 iterações, evidência cross-domain do fenômeno: não é específico de LLMs, é propriedade fundamental de sistemas generativos treinados em suas próprias predições.

O Que Ainda Não Sabemos

A documentação oficial não especifica thresholds validados empiricamente para proporção ideal de dados reais vs sintéticos em diferentes domínios. O 80/20 da Anthropic e recomendações gerais de 30-40% de dados reais são os únicos números públicos. Para domínios específicos — medicina, legal, código especializado — não existem benchmarks padronizados.

Métricas padronizadas da indústria para monitoramento contínuo de model collapse em produção simplesmente não existem ainda. Empresas estão criando soluções proprietárias, mas poucos case studies são públicos por questões de confidencialidade. A degradação reportada no GPT-4 pela Bloomberg (12% em tarefas de código, março-junho 2023) é possivelmente relacionada a contaminação, mas não há confirmação oficial da OpenAI.

Comparação sistemática de eficácia entre diferentes estratégias de mitigação está ausente da literatura. Fresh data injection é melhor que diversity sampling? Curriculum learning (expor o modelo gradualmente a dados sintéticos em complexidade crescente) funciona? Não há estudos controlados comparando essas abordagens.

Model collapse é reversível? Se um modelo já sofreu degradação parcial, fine-tuning adicional com dados reais de alta qualidade recupera a performance? Evidências não estão disponíveis publicamente.

Custos operacionais detalhados de implementar pipelines de detecção e filtragem em escala de produção são desconhecidos fora das empresas que os operam. O custo de $0.03-0.05 por 1k exemplos para LLM-as-judge é um dado isolado; custos de infraestrutura para deduplicação semântica ou sistemas de detecção em tempo real não são documentados.

Você está operando em território parcialmente mapeado. As estratégias documentadas funcionam — têm evidência empírica — mas não são completas nem universalmente aplicáveis. Adaptar para seu contexto específico vai exigir experimentação e validação própria.

Dados sintéticos não são inerentemente ruins. São ferramentas poderosas para augmentation, especialmente em domínios com escassez de dados reais. Mas usá-los sem estratégias de mitigação documentadas é abrir mão de performance futura. O colapso não é hipotético — é mensurável, progressivo e, conforme a evidência atual sugere, irreversível após múltiplas gerações. Construir pipelines que preservem a diversidade original da distribuição não é otimização prematura. É engenharia responsável.

Model Collapse em LLMs: Prevenindo Degradação com Dados Sintéticos

Model Collapse em LLMs: O Custo Oculto dos Dados Sintéticos

Por Que Dados Sintéticos Causam Colapso

Detecção Prática de Contaminação

Estratégias de Mitigação com Evidências Reais

O Que Ainda Não Sabemos