Eventos

ARTÍCULO

Cómo Anthropic convirtió libros físicos en datos para entrenar a Claude

Anna NoxCorp

hace 21 horas

La evolución de los modelos frontera hacia sistemas de agentes autónomos en 2026.

CÓMO ANTHROPIC CONVIRTIÓ LIBROS FÍSICOS EN DATOS PARA ENTRENAR A CLAUDE

La carrera por construir modelos de inteligencia artificial más capaces también es una carrera por acceder a mejores datos. En el caso de Anthropic, esa búsqueda habría tomado una forma especialmente material: comprar libros físicos, desmembrarlos, escanearlos página por página y convertirlos en insumo para entrenar a Claude.

Documentos judiciales revelados en el marco de una demanda colectiva contra la compañía expusieron detalles del llamado Proyecto Panamá, una operación concebida en 2024 para alimentar sus modelos con textos de mayor calidad que los disponibles en buena parte de internet. La premisa era simple, aunque polémica: si los libros siguen siendo una de las formas más refinadas de escritura humana, entonces también son una fuente valiosa para enseñar a una IA a escribir mejor.

El problema no era solo técnico. Era legal, reputacional y cultural. Anthropic no estaba simplemente recopilando datos digitales disponibles en línea. Según los documentos citados, la empresa habría comprado libros usados, los habría cortado con maquinaria hidráulica y luego escaneado con equipos profesionales de alta velocidad. Después, los ejemplares físicos desmembrados eran enviados a reciclaje.

La imagen resume una tensión central de la inteligencia artificial generativa: para producir lenguaje sintético a gran escala, los modelos necesitan absorber enormes cantidades de lenguaje humano. Pero cuando ese lenguaje proviene de obras protegidas por derechos de autor, la innovación empieza a moverse en una zona de conflicto.

QUÉ FUE EL PROYECTO PANAMÁ

El Proyecto Panamá fue, según los documentos revelados, una operación diseñada para convertir libros físicos en datos de entrenamiento. Anthropic habría recurrido principalmente al mercado de segunda mano para adquirir grandes cantidades de volúmenes, con el objetivo de construir un corpus literario y editorial de alta calidad para Claude.

La empresa habría iniciado la compra de libros en The Strand, una librería histórica de Nueva York, y luego habría recurrido a minoristas especializados como Better World Books, en Estados Unidos, y World of Books, en Reino Unido. El Washington Post estimó que el volumen total adquirido pudo ubicarse entre 500,000 y 2 millones de libros, comprados durante un período aproximado de seis meses.

La lógica del proyecto era distinta a la de las bases de datos extraídas de internet. En lugar de depender de contenido web desordenado, repetitivo o de baja calidad, Anthropic buscaba textos editados, publicados y validados culturalmente. En otras palabras: libros escritos, revisados y distribuidos dentro de una industria editorial tradicional.

La paradoja es evidente. Para entrenar una tecnología presentada como parte del futuro del conocimiento, la compañía habría recurrido a una cadena de montaje inversa: destruir objetos culturales físicos para extraer de ellos información digital.

UNA ESTRATEGIA PARA MEJORAR LA CALIDAD DEL MODELO

La decisión de usar libros no resulta extraña desde una perspectiva técnica. Los modelos de lenguaje aprenden patrones de estructura, argumentación, estilo, vocabulario y coherencia a partir de los textos que procesan. Un libro suele ofrecer una densidad narrativa, conceptual y editorial difícil de encontrar en publicaciones breves o fragmentadas de internet.

Para un modelo como Claude, eso puede ser especialmente valioso. Una IA entrenada con mejores textos puede producir respuestas más ordenadas, sostener ideas complejas durante más tiempo y replicar registros de escritura más sofisticados. El objetivo no sería solo responder más rápido, sino responder con mayor claridad, profundidad y consistencia.

Sin embargo, la calidad del dato no elimina la pregunta de fondo: ¿quién tiene derecho a convertir una obra humana en material de entrenamiento para un sistema comercial de inteligencia artificial?

EL CONFLICTO LEGAL DETRÁS DE LOS LIBROS

El caso contra Anthropic no se centró únicamente en los libros físicos. Los documentos también revelaron que la empresa habría usado materiales provenientes de bibliotecas digitales piratas. Según la información difundida, en 2021 Ben Mann, cofundador de Anthropic, descargó millones de libros desde LibGen, una conocida biblioteca no autorizada. Al año siguiente, también habría elogiado Pirate Library Mirror, un sitio que reconocía abiertamente infringir leyes de derechos de autor en varios países.

Esta diferencia es clave. La compra de libros físicos usados abrió una posible defensa legal basada en la doctrina de la primera venta, un principio que permite a quien compra un ejemplar disponer de él sin pedir permiso adicional al titular de derechos. Pero esa lógica no se aplica de la misma manera a la descarga masiva de libros pirateados.

De acuerdo con los detalles publicados, el uso de libros comprados y destruidos fue considerado legal en el marco del caso, mientras que el uso de libros pirateados no tuvo la misma protección. La demanda terminó con un acuerdo extrajudicial de aproximadamente 1,500 millones de dólares.

La cifra es relevante no solo por su tamaño, sino por el mensaje que envía al sector. Las empresas de IA pueden argumentar que necesitan grandes volúmenes de datos para innovar, pero ese argumento no elimina los límites legales ni las tensiones con autores, editoriales y titulares de derechos.

Seleccionar el modelo adecuado es el pilar de la eficiencia operativa en 2026.

POR QUÉ EL CASO IMPORTA PARA TODA LA INDUSTRIA DE IA

Anthropic no es la única empresa enfrentada a preguntas sobre derechos de autor y entrenamiento de modelos. La industria de la IA generativa creció sobre una premisa compleja: cuanto más amplio y diverso sea el conjunto de datos, más capaz será el sistema. Pero muchos de esos datos provienen de contenidos creados por personas que nunca dieron consentimiento explícito para entrenar productos comerciales.

Durante años, gran parte del debate estuvo centrado en internet: páginas web, repositorios, foros, artículos, libros digitalizados y bases de datos abiertas o semiabiertas. El Proyecto Panamá agrega otra capa: incluso cuando el contenido no se descarga de una fuente ilegal, su transformación en datos de entrenamiento puede generar cuestionamientos éticos y económicos.

La operación también muestra que las compañías de IA están dispuestas a invertir sumas considerables para conseguir datos de mejor calidad. Esto anticipa una etapa en la que el acceso a corpus confiables, autorizados y especializados puede volverse una ventaja competitiva tan importante como la capacidad de cómputo o el talento técnico.

EL DATO DE CALIDAD SE VUELVE INFRAESTRUCTURA

En los primeros años de la IA generativa, la conversación pública se concentró en el tamaño de los modelos y la potencia de los chips. Pero el caso Anthropic recuerda que la calidad de los datos sigue siendo una pieza fundamental. Un modelo no aprende en el vacío: aprende de textos, imágenes, conversaciones, documentos y registros producidos por sociedades enteras.

Por eso, el debate ya no es simplemente si una IA puede escribir bien. La pregunta más importante es qué materiales fueron usados para que pudiera hacerlo, bajo qué permisos, con qué compensaciones y con qué grado de transparencia.

El Proyecto Panamá expone una realidad incómoda para el sector: las empresas necesitan contenido humano para entrenar sistemas capaces de competir con humanos en tareas cognitivas. Esa dependencia obliga a discutir modelos de licencia, trazabilidad, compensación y gobernanza de datos con mucha más seriedad.

UNA NUEVA FRONTERA PARA EL COPYRIGHT

El copyright fue diseñado para proteger obras en un mundo donde copiar y distribuir tenía costos físicos, comerciales y logísticos. La IA generativa modifica ese equilibrio. Ahora, una obra puede no ser reproducida directamente, pero sí puede ser absorbida por un sistema que aprende patrones de ella y luego genera contenido nuevo.

Esa diferencia es el centro del conflicto. Las empresas tecnológicas suelen defender que el entrenamiento de modelos constituye un uso transformativo. Autores y editoriales, en cambio, argumentan que sus obras son utilizadas para crear productos que pueden competir con el trabajo creativo original.

El caso de Anthropic no resuelve por completo esa tensión, pero sí marca una advertencia: el entrenamiento de IA ya no puede tratarse como una operación invisible. La procedencia de los datos empieza a convertirse en un asunto público, legal y estratégico.

Para las compañías del sector, esto implica un cambio de época. La ventaja competitiva no dependerá únicamente de tener el modelo más avanzado, sino de construir una cadena de datos defendible. En un mercado cada vez más regulado, la legitimidad del entrenamiento puede ser tan importante como el rendimiento del modelo.

EL COSTO REPUTACIONAL DE ENTRENAR CON OBRAS HUMANAS

El Proyecto Panamá también plantea una cuestión de reputación. Anthropic se ha posicionado públicamente como una empresa enfocada en seguridad, alineación y desarrollo responsable de IA. Por eso, la revelación de una operación secreta para destruir libros y convertirlos en datos puede resultar especialmente sensible.

Desde una mirada empresarial, la decisión puede entenderse como una forma de obtener datos de mayor calidad sin depender exclusivamente de fuentes digitales no autorizadas. Desde una mirada cultural, sin embargo, la imagen de millones de libros cortados y escaneados para entrenar una IA resulta difícil de separar de una pregunta más amplia: qué valor material y simbólico se le reconoce a la creación humana en la economía de los modelos.

No se trata de romantizar el papel ni de negar el avance tecnológico. La digitalización de libros existe desde hace décadas y ha permitido preservar, buscar y distribuir conocimiento de formas antes imposibles. La diferencia está en el destino: aquí los textos no se digitalizan para lectores humanos, sino para entrenar sistemas comerciales capaces de producir lenguaje a escala.

Ese cambio de finalidad es lo que vuelve el caso tan relevante. La IA generativa no solo consume cultura; también compite dentro del mismo ecosistema cultural que la alimenta. Si no existen reglas claras, el riesgo es que la innovación avance sobre una base de conflictos legales acumulados.

QUÉ PUEDE CAMBIAR DESPUÉS DE ESTE CASO

El caso Anthropic puede acelerar una discusión que la industria ya no puede evitar. Las empresas de IA necesitarán demostrar con mayor claridad qué datos usan, cómo los obtienen y bajo qué criterios legales o contractuales los incorporan a sus modelos.

Esto podría abrir espacio para nuevos acuerdos con editoriales, autores, bibliotecas, universidades y medios. También podría empujar a modelos de compensación por uso de obras protegidas, auditorías de datasets y sistemas de trazabilidad más sólidos.

Para los desarrolladores de modelos, la pregunta ya no será únicamente cómo conseguir más datos, sino cómo conseguir datos que puedan sostenerse ante reguladores, tribunales, usuarios y socios comerciales. En un mercado donde la confianza es parte del producto, la opacidad se vuelve un costo.

Para los creadores, el caso refuerza la necesidad de debatir condiciones más justas. La IA puede ampliar la productividad, acelerar tareas y abrir nuevas formas de creación, pero su desarrollo depende de una base de conocimiento construida por personas. Ignorar esa relación debilita la legitimidad de todo el ecosistema.

NOX CORP

LA VISIÓN DE NOXCORP

El caso de Anthropic muestra que la inteligencia artificial no avanza solo por capacidad técnica. También avanza sobre decisiones sobre datos, permisos, incentivos y confianza.

Para las empresas que trabajan con IA, el desafío no es únicamente crear modelos más eficientes. Es construir sistemas que puedan explicar de dónde aprenden, qué límites respetan y cómo se integran de forma responsable en el trabajo humano.

La automatización necesita datos. Pero también necesita legitimidad.

El futuro de la IA no debería depender de extraer valor de la producción humana sin conversación, sin reglas y sin transparencia. Debería apoyarse en modelos donde la tecnología amplifique capacidades, respete derechos y permita nuevas formas de colaboración entre personas y sistemas inteligentes.

SOBRE NOXCORP

NoxCorp es una empresa enfocada en sistemas de inteligencia artificial que optimizan el trabajo humano y coordinan la colaboración entre agentes de IA y personas, apoyándose en humanos para tareas que la IA aún no puede ejecutar completamente.

Por Anna NoxCorp

Twitter: @NoxCorpIA

LinkedIn: Nox Corp IA