Ante la creciente demanda de datos para entrenar sistemas de inteligencia artificial (IA), empresas tecnológicas han comenzado a recurrir a fuentes más antiguas que Internet: los libros.
Instituciones como la Universidad de Harvard y la Biblioteca Pública de Boston han abierto sus colecciones históricas, muchas de dominio público, para que investigadores y desarrolladores de IA puedan acceder a millones de páginas digitalizadas, algunas incluso del siglo XV.
Esta apertura de archivos ha sido posible gracias a fondos donados por compañías como Microsoft y OpenAI. En particular, Harvard publicó recientemente el conjunto de datos “Institutional Books 1.0”, que contiene más de 394 millones de páginas en 254 idiomas.
Estos textos, cuidadosamente conservados, incluyen obras literarias, filosóficas, científicas y agrícolas, con una concentración importante en el siglo XIX. Su objetivo es mejorar la calidad, precisión y diversidad lingüística de los modelos de IA.
El interés en estas fuentes originales responde a la preocupación por la procedencia y calidad de los datos. Muchos modelos previos fueron entrenados con contenidos extraídos de redes sociales, foros o libros pirateados, lo que ha generado múltiples demandas legales.
Las bibliotecas participantes han dejado claro que el material que comparten debe ser accesible al público y respetar los derechos de autor, evitando la controversia que rodeó a proyectos como Google Books.
Aunque el conjunto de datos representa apenas una fracción del total requerido por los modelos más avanzados, su valor es significativo. Además de ampliar el acceso a obras poco conocidas, esta colaboración permite que bibliotecas y museos se beneficien mediante fondos para digitalizar sus acervos.
A futuro, expertos advierten sobre el reto de equilibrar la utilidad de estos datos con la necesidad de filtrar contenido obsoleto o perjudicial, promoviendo así un desarrollo ético y responsable de la IA.