Las dos escuelas politécnicas suizas y su socio, el Centro Suizo de Computación Científica, lanzaron en septiembre Apertus. Este modelo de lenguaje se entrenó con palabras de 1 800 lenguas, entre otras el alemán suizo y el romanche. Aunque Apertus es criticado por sus errores, los expertos opinan que hay que darle tiempo.
Antoine Bosselut, de la EFPL, destaca la transparencia del modelo suizo de IA Apertus, y afirma que la IA debe “democratizarse”. Foto cedida a la revista
Recorremos las avenidas peatonales del campus de la Escuela Politécnica Federal de Lausana (EPFL) hasta llegar al lugar donde nos espera Antoine Bosselut, especialista en inteligencia artificial y en cuestiones multilingües aplicadas a los “modelos extensos de lenguaje” (LLM, por sus siglas en inglés). Al igual que ChatGPT, estos sistemas de inteligencia artificial alimentados con miles de millones de datos son capaces de contestar a una infinidad de preguntas. Antoine Bosselut, de 34 años, nacido en Francia y formado en Estados Unidos, es experto en el desarrollo de máquinas capaces de aprender y dominar idiomas tan diversos como el tibetano o el romanche. Bosselut es uno de los padres de la nueva IA suiza: Apertus.
A principios de septiembre, las dos escuelas politécnicas suizas y el Centro Suizo de Computación Científica (CSCS) anunciaron el lanzamiento del primer LLM multilingüe de código abierto desarrollado en Suiza. “Apertus representa un hito en materia de transparencia y diversidad en el ámbito de la inteligencia artificial generativa”, declararon sus creadores. ¿En qué se diferencia este nuevo LLM suizo de Llama 4 (desarrollado por Meta), de Grok (producido por Elon Musk) o, incluso, de ChatGPT, un sistema completo de IA? La respuesta es que los elementos que componen este modelo fundacional de IA suizo —sus algoritmos y sus parámetros de cálculo— son de libre acceso. Además, Apertus incluye un manual de instrucciones, mientras que ChatGPT se basa en un modelo de negocio que carece de transparencia. Otra diferencia es que Apertus no es un sistema de uso universal. “Los modelos comerciales no son lo suficientemente especializados para determinados usos. Cuanto más especializada es una IA, más potente es”, explica Antoine Bosselut. Por ejemplo, los hospitales podrían usar Apertus (sus algoritmos y su sistema de cálculo) a fin de entrenar el sistema para que analice miles de radiografías. La IA detecta diferencias en los datos que son difíciles de observar a simple vista.
En busca de datos fiables
El superordenador del CSCS entrenó Apertus con miles de millones de datos tomados de Internet. Estos datos conforman el léxico de base del LLM. Para este modelo solo se utilizaron datos cuyos propietarios no han prohibido explícitamente el uso de “rastreadores”, es decir, de robots que rastrean la red, precisa la EPFL en un comunicado. “Si, por ejemplo, el New York Times prohíbe a determinados rastreadores el acceso a sus artículos, excluimos esta fuente de nuestros datos”, señala el profesor. Para entrenar a Apertus, se utilizaron 15 mil millones de palabras procedentes de 1 800 idiomas (Internet contiene aproximadamente 50 mil millones de palabras). Los desarrolladores de este LLM garantizan a sus futuros usuarios (por ejemplo, a los empresarios) la fiabilidad ética y jurídica de sus datos, a diferencia de los proveedores comerciales de la IA, que se niegan a publicar sus datos de entrenamiento.
Por lo general, los grandes modelos de lenguaje se centran en las lenguas históricas presentes en la red: inglés, francés, chino, japonés, etc., cuya estructura descifran gracias a sus calculadoras y algoritmos. El LLM suizo, por el contrario, ha recopilado datos de idiomas con poca presencia en Internet, como el tibetano, el yoruba, el alemán suizo y el romanche. Dado que estas lenguas apenas se “hablan” en Internet, los contenidos tuvieron que crearse a partir de lenguas emparentadas. La idea subyacente es que, a pesar de la escasez de datos, el modelo puede aprender romanche porque también se ha entrenado en italiano, ya que ambos idiomas presentan similitudes, explica Bosselut. ¿Qué aplicaciones tienen en mente sus creadores? Una escuela en Nigeria, por ejemplo, utilizó Apertus para desarrollar cursos en un idioma que suele tener una representación limitada en otros modelos, lo cual corresponde al objetivo de la EPFL: “democratizar la IA”.
La administración municipal de Zúrich utiliza Apertus
Con vistas a su ulterior desarrollo, el LLM suizo fue sometido a cracks informáticos durante un hackatón, una especie de concurso cuyo objetivo es poner los sistemas a prueba. Algunos estudiantes utilizaron la herramienta para crear servicios: por ejemplo, programaron una interfaz para facilitar el aprendizaje de la lengua tibetana. Otros consiguieron programar un sistema al que llamaron “Mut zur Lücke” [“Atrévete a saltar algo”], que señala a los estudiantes qué clases pueden omitir sin correr el riesgo de comprometer su rendimiento académico. También la Municipalidad de Zúrich utiliza Apertus. “Soy ZüriCityGPT y sé (casi) todo sobre lo que se ha publicado en el sitio web del ayuntamiento”, anuncia esta página web. No obstante, la aplicación tiene sus limitaciones. A la pregunta de cuántos policías armados hay en la ciudad, el robot de Apertus responde: “Desgraciadamente, no le puedo ayudar”. GPT, en cambio, es algo más astuto: “Unos 1 700 policías están habilitados para la tenencia de un arma de servicio, pero ninguna fuente pública precisa cuántos agentes llevan realmente un arma de forma permanente”, responde esta IA.
Sorprendentemente, Apertus no cuenta con una interfaz que permita a los usuarios crear prompts. Pero ese no es su objetivo, porque el LLM sirve, en primer lugar, como materia prima, señalan sus creadores. No obstante, cada interesado puede testar Apertus por medio de un programa desarrollado por una organización estadounidense sin ánimo de lucro: publicai.co
Errores y críticas
En Suiza, los primeros comentarios sobre Apertus se centraron en algunos errores burdos. “Me acabo de enterar de que el castillo de Chillon era en sus orígenes una pequeña aldea fortificada construida sobre una roca de piedra caliza en medio del lago”, se burló en LinkedIn el periodista suizo francófono François Pilet, uno de los fundadores del sitio de investigación Gottham City.
Asimismo, Pilet cuestiona la relación calidad-precio del proyecto: “¡Mientras las EPF acaban de multiplicar por tres el precio de las matrículas a los estudiantes extranjeros, no han reparado en desembolsar diez millones de francos para financiar aquello que resulta ser una performance de arte contemporáneo!”, se mofa Pilet.
Esta crítica provocó la reacción de internautas como Maxime Derian, un experto francés en inteligencia artificial: “Los modelos de código abierto estadounidenses y chinos están un paso por delante. ¿Y qué? Es importante destacar que los primeros modelos de esos países tampoco eran perfectos. El modelo suizo ha sido desarrollado a nivel local. Sus próximas versiones serán más avanzadas y eficientes de aquí a dos o tres años”, pronosticó Derian.
El hecho de que Apertus cometa errores se debe a que el modelo aún necesita entrenarse más y no dispone de datos suficientes. Antoine Bosselut coincide en este punto: “Nos hemos encargado de la parte más costosa del trabajo: el desarrollo y el entrenamiento del modelo. Ahora, este es accesible de forma gratuita para los futuros usuarios”, justifica el profesor de la EPFL.
Comentarios