A corrida para construir modelos de inteligência artificial mais capazes também é uma corrida por acesso a dados melhores. No caso da Anthropic, essa busca teria assumido uma forma especialmente material: comprar livros impressos, desmontá-los, escaneá-los página por página e transformá-los em material de treinamento para Claude.
Documentos judiciais revelados no contexto de uma ação coletiva contra a empresa expuseram detalhes do chamado Projeto Panamá, uma operação concebida em 2024 para alimentar seus modelos com textos de qualidade superior à de boa parte do conteúdo disponível na internet. A premissa era simples, embora polêmica: se os livros continuam sendo uma das formas mais refinadas de escrita humana, eles também são uma fonte valiosa para ensinar uma IA a escrever melhor.
O problema não era apenas técnico. Era legal, reputacional e cultural. A Anthropic não estava simplesmente coletando dados digitais disponíveis online. Segundo os documentos citados, a empresa teria comprado livros usados, cortado os exemplares com máquinas hidráulicas e depois escaneado suas páginas com equipamentos profissionais de alta velocidade. Em seguida, os volumes físicos desmontados eram enviados para reciclagem.
A imagem resume uma tensão central da inteligência artificial generativa: para produzir linguagem sintética em escala, os modelos precisam absorver enormes quantidades de linguagem humana. Mas, quando essa linguagem vem de obras protegidas por direitos autorais, a inovação começa a se mover em uma zona de conflito.
O Projeto Panamá foi, segundo os documentos revelados, uma operação criada para converter livros físicos em dados de treinamento. A Anthropic teria recorrido principalmente ao mercado de segunda mão para adquirir grandes quantidades de volumes, com o objetivo de construir um corpus literário e editorial de alta qualidade para Claude.
A empresa teria iniciado a compra de livros na The Strand, uma livraria histórica de Nova York, e depois recorrido a varejistas especializados como Better World Books, nos Estados Unidos, e World of Books, no Reino Unido. O Washington Post estimou que o volume total adquirido pode ter ficado entre 500.000 e 2 milhões de livros, comprados ao longo de aproximadamente seis meses.
A lógica do projeto era diferente daquela das bases de dados extraídas da internet. Em vez de depender de conteúdo web desorganizado, repetitivo ou de baixa qualidade, a Anthropic buscava textos editados, publicados e culturalmente validados. Em outras palavras: livros escritos, revisados e distribuídos dentro de uma indústria editorial tradicional.
O paradoxo é evidente. Para treinar uma tecnologia apresentada como parte do futuro do conhecimento, a empresa teria recorrido a uma linha de montagem invertida: destruir objetos culturais físicos para extrair deles informação digital.
A decisão de usar livros não surpreende do ponto de vista técnico. Modelos de linguagem aprendem padrões de estrutura, argumentação, estilo, vocabulário e coerência a partir dos textos que processam. Um livro costuma oferecer uma densidade narrativa, conceitual e editorial difícil de encontrar em publicações curtas ou fragmentadas da internet.
Para um modelo como Claude, isso pode ser especialmente valioso. Uma IA treinada com textos melhores pode produzir respostas mais organizadas, sustentar ideias complexas por mais tempo e replicar registros de escrita mais sofisticados. O objetivo não seria apenas responder mais rápido, mas responder com mais clareza, profundidade e consistência.
No entanto, a qualidade dos dados não elimina a pergunta de fundo: quem tem o direito de transformar uma obra humana em material de treinamento para um sistema comercial de inteligência artificial?
O caso contra a Anthropic não se concentrou apenas nos livros físicos. Os documentos também revelaram que a empresa teria usado materiais provenientes de bibliotecas digitais piratas. Segundo as informações divulgadas, em 2021 Ben Mann, cofundador da Anthropic, baixou milhões de livros do LibGen, uma conhecida biblioteca não autorizada. No ano seguinte, ele também teria elogiado o Pirate Library Mirror, um site que reconhecia abertamente violar leis de direitos autorais em vários países.
Essa diferença é fundamental. A compra de livros físicos usados abriu uma possível defesa legal baseada na doutrina da primeira venda, um princípio que permite a quem compra um exemplar dispor dele sem pedir permissão adicional ao titular dos direitos. Mas essa lógica não se aplica da mesma forma ao download massivo de livros pirateados.
De acordo com os detalhes publicados, o uso de livros comprados e destruídos foi considerado legal no contexto do caso, enquanto o uso de livros pirateados não recebeu a mesma proteção. A ação terminou com um acordo extrajudicial de aproximadamente 1,5 bilhão de dólares.
O valor é relevante não apenas por seu tamanho, mas pela mensagem que envia ao setor. Empresas de IA podem argumentar que precisam de grandes volumes de dados para inovar, mas esse argumento não elimina os limites legais nem as tensões com autores, editoras e titulares de direitos.
A Anthropic não é a única empresa enfrentando perguntas sobre direitos autorais e treinamento de modelos. A indústria de IA generativa cresceu sobre uma premissa complexa: quanto mais amplo e diverso for o conjunto de dados, mais capaz será o sistema. Mas muitos desses dados vêm de conteúdos criados por pessoas que nunca deram consentimento explícito para treinar produtos comerciais.
Durante anos, grande parte do debate público esteve concentrada na internet: páginas web, repositórios, fóruns, artigos, livros digitalizados e bases de dados abertas ou semiabertas. O Projeto Panamá acrescenta outra camada: mesmo quando o conteúdo não é baixado de uma fonte ilegal, sua transformação em dados de treinamento ainda pode gerar questionamentos éticos e econômicos.
A operação também mostra que empresas de IA estão dispostas a investir somas significativas para conseguir dados de melhor qualidade. Isso antecipa uma etapa em que o acesso a corpus confiáveis, autorizados e especializados pode se tornar uma vantagem competitiva tão importante quanto a capacidade computacional ou o talento técnico.
Nos primeiros anos da IA generativa, a conversa pública se concentrou no tamanho dos modelos e na potência dos chips. Mas o caso Anthropic lembra que a qualidade dos dados continua sendo uma peça fundamental. Um modelo não aprende no vazio: aprende com textos, imagens, conversas, documentos e registros produzidos por sociedades inteiras.
Por isso, o debate já não é simplesmente se uma IA consegue escrever bem. A pergunta mais importante é quais materiais foram usados para que isso fosse possível, sob quais permissões, com quais compensações e com que nível de transparência.
O Projeto Panamá expõe uma realidade incômoda para o setor: empresas precisam de conteúdo humano para treinar sistemas capazes de competir com humanos em tarefas cognitivas. Essa dependência obriga a discutir modelos de licença, rastreabilidade, compensação e governança de dados com muito mais seriedade.
Os direitos autorais foram criados para proteger obras em um mundo no qual copiar e distribuir tinha custos físicos, comerciais e logísticos. A IA generativa modifica esse equilíbrio. Agora, uma obra pode não ser reproduzida diretamente, mas pode ser absorvida por um sistema que aprende padrões a partir dela e depois gera novo conteúdo.
Essa diferença está no centro do conflito. Empresas de tecnologia costumam defender que o treinamento de modelos constitui um uso transformativo. Autores e editoras, por outro lado, argumentam que suas obras são utilizadas para criar produtos que podem competir com o trabalho criativo original.
O caso da Anthropic não resolve completamente essa tensão, mas deixa um alerta: o treinamento de IA já não pode ser tratado como uma operação invisível. A origem dos dados começa a se tornar um assunto público, legal e estratégico.
Para as empresas do setor, isso representa uma mudança de etapa. A vantagem competitiva não dependerá apenas de ter o modelo mais avançado, mas de construir uma cadeia de dados defensável. Em um mercado cada vez mais regulado, a legitimidade do treinamento pode ser tão importante quanto o desempenho do modelo.
O Projeto Panamá também levanta uma questão reputacional. A Anthropic se posicionou publicamente como uma empresa focada em segurança, alinhamento e desenvolvimento responsável de IA. Por isso, a revelação de uma operação secreta para destruir livros e transformá-los em dados pode ser especialmente sensível.
Do ponto de vista empresarial, a decisão pode ser entendida como uma forma de obter dados de maior qualidade sem depender exclusivamente de fontes digitais não autorizadas. Do ponto de vista cultural, porém, a imagem de milhões de livros cortados e escaneados para treinar uma IA é difícil de separar de uma pergunta mais ampla: que valor material e simbólico se reconhece à criação humana na economia dos modelos?
Não se trata de romantizar o papel nem de negar o avanço tecnológico. A digitalização de livros existe há décadas e permitiu preservar, buscar e distribuir conhecimento de formas antes impossíveis. A diferença está no destino: aqui, os textos não são digitalizados para leitores humanos, mas para treinar sistemas comerciais capazes de produzir linguagem em escala.
Essa mudança de finalidade é o que torna o caso tão relevante. A IA generativa não apenas consome cultura; ela também compete dentro do mesmo ecossistema cultural que a alimenta. Se não houver regras claras, o risco é que a inovação avance sobre uma base de conflitos legais acumulados.
O caso Anthropic pode acelerar uma discussão que a indústria já não pode evitar. Empresas de IA precisarão demonstrar com mais clareza quais dados usam, como os obtêm e sob quais critérios legais ou contratuais os incorporam a seus modelos.
Isso pode abrir espaço para novos acordos com editoras, autores, bibliotecas, universidades e meios de comunicação. Também pode impulsionar modelos de compensação pelo uso de obras protegidas, auditorias de datasets e sistemas de rastreabilidade mais sólidos.
Para os desenvolvedores de modelos, a pergunta já não será apenas como conseguir mais dados, mas como obter dados capazes de resistir ao escrutínio de reguladores, tribunais, usuários e parceiros comerciais. Em um mercado no qual a confiança faz parte do produto, a opacidade se transforma em custo.
Para os criadores, o caso reforça a necessidade de debater condições mais justas. A IA pode ampliar a produtividade, acelerar tarefas e abrir novas formas de criação, mas seu desenvolvimento depende de uma base de conhecimento construída por pessoas. Ignorar essa relação enfraquece a legitimidade de todo o ecossistema.
O caso da Anthropic mostra que a inteligência artificial não avança apenas por capacidade técnica. Ela também avança por decisões sobre dados, permissões, incentivos e confiança.
Para empresas que trabalham com IA, o desafio não é apenas criar modelos mais eficientes. É construir sistemas capazes de explicar de onde aprendem, quais limites respeitam e como se integram de forma responsável ao trabalho humano.
A automação precisa de dados. Mas também precisa de legitimidade.
O futuro da IA não deveria depender de extrair valor da produção humana sem conversa, sem regras e sem transparência. Deveria se apoiar em modelos nos quais a tecnologia amplifica capacidades, respeita direitos e permite novas formas de colaboração entre pessoas e sistemas inteligentes.
A NoxCorp é uma empresa focada em sistemas de inteligência artificial que otimizam o trabalho humano e coordenam a colaboração entre agentes de IA e pessoas, apoiando-se em humanos para tarefas que a IA ainda não consegue executar completamente.
Por Anna NoxCorp
Twitter: @NoxCorpIA
LinkedIn: Nox Corp IA
0
0
NEWSLETTER
Inscreva-se!
E fique por dentro das últimas novidades
Outras novidades que podem te interessar
Etiquetas