Cuando el pasado mes de marzo OpenAI anunció GPT-4, su último gran modelo de lenguaje causó conmoción en el mundo de la tecnología. Su capacidad para chatear, codificar y resolver todo tipo de problemas complejos, incluidas las tareas escolares, era claramente superior a la de todo lo visto hasta entonces.
El nuevo Claude
Anthropic, rival de OpenAI, ha anunciado hoy que ha realizado su propio avance en IA que mejorará los chatbots y otros casos de uso. Pero aunque el nuevo modelo es el mejor del mundo según algunas medidas, es más un paso adelante que un gran salto.
El nuevo modelo de Anthropic, llamado Claude 3.5 Sonnet, es una actualización de la familia Claude 3 de modelos de IA. Es más hábil resolviendo problemas matemáticos, de codificación y de lógica, según las mediciones más habituales. Anthropic declara que también es mucho más rápido, entiende mejor los matices del lenguaje e incluso tiene más sentido del humor.
Esto es sin duda útil para quienes intentan crear aplicaciones y servicios a partir de los modelos de IA de Anthropic. Pero la noticia de la empresa es también un recordatorio de que el mundo sigue esperando otro salto adelante en IA similar al que supuso GPT-4.
¿Dónde está el futuro?
Hace más de un año que se espera que OpenAI lance una secuela llamada GPT-5, y el CEO de la empresa, Sam Altman, ha alentado las especulaciones de que supondrá otra revolución en las capacidades de IA. El entrenamiento de GPT-4 costó más de 100 millones de dólares, y se espera que GPT-5 sea mucho mayor y más caro.
Aunque OpenAI, Google y otros desarrolladores de IA han lanzado nuevos modelos que superan a GPT-4, el mundo sigue esperando ese próximo gran salto. Últimamente, los avances en IA son más graduales y dependen más de las innovaciones en el diseño y el entrenamiento de los modelos que de la escalada de fuerza bruta del tamaño y el cálculo de los modelos, como ocurría con GPT-4.
Michael Gerstenhaber, jefe de producto de Anthropic, señala que el nuevo modelo Sonnet Claude 3.5 de la empresa es más grande que su predecesor, pero que gran parte de sus nuevas competencias se deben a innovaciones en el entrenamiento. Por ejemplo, el modelo ha recibido información para mejorar su capacidad de razonamiento lógico.
Anthropic afirma que Claude 3.5 Sonnet supera a los mejores modelos de OpenAI, Google y Facebook en pruebas de referencia de IA populares como GPQA, una prueba de nivel de posgrado de conocimientos de biología, física y química; MMLU, una prueba que abarca informática, historia y otros temas; y HumanEval, una medida de competencia en codificación. Sin embargo, las mejoras son cuestión de unos pocos puntos porcentuales.
Puede que estos últimos avances en IA no sean revolucionarios, pero sí rápidos: Anthropic anunció su anterior generación de modelos hace apenas tres meses: "Si te fijas en el ritmo de cambio de la inteligencia, te darás cuenta de lo rápido que avanzamos", indica Gerstenhaber.
¿Se puede saltar tanto?
Más de un año después de que GPT-4 provocara un frenesí de nuevas inversiones en IA, puede estar resultando más difícil producir nuevos grandes saltos en la inteligencia de las máquinas. Con GPT-4 y modelos similares entrenados en enormes cantidades de texto, imágenes y video en línea, cada vez es más difícil encontrar nuevas fuentes de datos para alimentar los algoritmos de aprendizaje automático. Se prevé que aumentar considerablemente el tamaño de los modelos para que tengan más capacidad de aprendizaje cueste miles de millones de dólares. Cuando OpenAI anunció su reciente actualización el mes pasado, con un modelo dotado de capacidades visuales y de voz llamado GPT-4o, se centró más en una interfaz más natural y parecida a la humana que en unas capacidades de resolución de problemas sustancialmente más inteligentes.
Calibrar el ritmo de progreso de la inteligencia artificial con parámetros convencionales, como los pregonados por Anthropic for Claude, puede ser engañoso. Los desarrolladores de IA están fuertemente incentivados para diseñar sus creaciones de modo que obtengan una puntuación alta en estos puntos de referencia, y los datos utilizados para estas pruebas estandarizadas pueden ser barridos en sus datos de entrenamiento. "Los puntos de referencia dentro de la comunidad de investigación están plagados de contaminación de datos, rúbricas e informes incoherentes y experiencia no verificada de los anotadores", aclara Summer Yue, director de investigación de Scale AI, una empresa que ayuda a muchas empresas de IA a entrenar sus modelos.
Scale está desarrollando nuevas formas de medir la inteligencia de la IA a través de su Laboratorio de Seguridad, Evaluación y Alineación. Esto implica el desarrollo de pruebas con base en datos que se mantienen en secreto y el examen de la experiencia de quienes proporcionan información sobre las capacidades de un modelo.
Yue confía en que las empresas intenten demostrar cada vez más la inteligencia de sus modelos de formas más significativas. Por ejemplo, "mostrando aplicaciones en el mundo real con un impacto empresarial medible, proporcionando métricas de rendimiento transparentes, estudios de casos y testimonios de clientes".
Anthropic está promocionando tales impactos para Claude 3.5 Sonnet. Gerstenhaber afirma que las empresas que utilizan la última versión han encontrado beneficiosas su nueva capacidad de respuesta y de resolución de problemas. Entre sus clientes se encuentra la compañía de inversiones Bridgewater Associates, que usa Claude para tareas de codificación. Otras empresas financieras, que Gerstenhaber no quiere revelar, utilizan el modelo para asesorar sobre inversiones: "La respuesta durante el período de acceso temprano ha sido enormemente positiva", refiere.
No está claro cuánto tiempo tendrá que esperar el mundo para el próximo gran salto de la IA. OpenAI ha declarado que ha empezado a entrenar su próximo gran modelo. Mientras tanto, tendremos que encontrar nuevas formas de medir la utilidad real de la tecnología.
Artículo publicado originalmente en WIRED. Adaptado por Mauricio Serfatty Godoy.