Estos son los modelos de Inteligencia Artificial más destacados
En el mercado actual, diversas empresas están incursionando en el campo de la Inteligencia Artificial (IA), ofreciendo servicios que prometen revolucionar la forma en que interactuamos con la tecnología. Entre los actores destacados se encuentran Meta, OpenAI, Cohere y Anthropic. Sin embargo, la incógnita que surge es: ¿cuál de estas empresas lidera la carrera tecnológica y cuál se queda rezagada en términos de innovación?
Con el objetivo de resolver este enigma, un grupo de investigadores de Arthur AI, una destacada institución dedicada a la investigación en IA, ha decidido someter a prueba los modelos emblemáticos de estas empresas: Llama 2 (de Meta), Cohere, GPT-4 (utilizado en ChatGPT de OpenAI) y Claude 2 (de Anthropic). El propósito es determinar cuál de estos modelos se posiciona en la cima del rendimiento y cuál se queda rezagado en la competencia tecnológica.
La evaluación se ha basado en dos aspectos fundamentales: la cobertura de respuestas y la detección de «alucinaciones» o errores persistentes en las respuestas generadas por los modelos. Este enfoque exhaustivo y riguroso permite evaluar no solo la capacidad de ofrecer respuestas completas, sino también la calidad y veracidad de las mismas.
«Esta iniciativa de investigación tiene como objetivo clasificar las fortalezas y debilidades de los modelos de lenguaje líderes de la industria, como OpenAI, Anthropic y Meta, así como otros modelos de código abierto», afirma Arthur AI en su portal oficial. De esta manera, se busca proporcionar una visión integral y equilibrada de los avances tecnológicos en el campo de la IA.
Adam Wenchel, fundador y CEO de Arthur AI, ha destacado la importancia de este informe al examinar minuciosamente las tasas de alucinaciones, en contraste con los enfoques tradicionales que se limitan a ofrecer una clasificación superficial basada en un único número. Este enfoque riguroso y detallado permite comprender mejor el desempeño real de los modelos de IA y su idoneidad para diversos casos de uso.
La pregunta crucial que surge es: ¿cuál es el mejor y peor modelo de IA, según los resultados obtenidos?
Para responder a esta interrogante, se ha sometido a todos los modelos a un conjunto de datos desafiante que abarca temas como matemáticas combinatorias, presidentes de Estados Unidos y líderes políticos marroquíes. El objetivo es evaluar la capacidad de cada modelo para ofrecer respuestas precisas y contextualmente adecuadas en diferentes dominios de conocimiento. En general, el modelo de Cohere ha mostrado el peor rendimiento en esta evaluación. Sin embargo, un portavoz de la empresa ha expresado su desacuerdo, argumentando que la tecnología de generación aumentada de recuperación de Cohere, que no fue evaluada en este estudio en particular, es altamente efectiva para proporcionar citas verificables que respalden las fuentes de información.
Por otro lado, el modelo Llama 2 de Meta ha mostrado un mayor número de alucinaciones en comparación con GPT-4 y Claude 2 de Anthropic, lo cual representa una limitación a tener en cuenta.
Sin embargo, el verdadero protagonista de esta evaluación ha sido el modelo GPT-4 de ChatGPT, desarrollado por OpenAI. Este modelo ha demostrado el mejor rendimiento en términos de calidad y precisión de respuestas. Los investigadores han observado una reducción significativa en las alucinaciones en comparación con su predecesor, GPT-3.5. Este avance representa un hito importante en el campo de la IA y destaca el continuo progreso y mejora de estos modelos.
Según Wenchel, los resultados obtenidos son de gran relevancia para comprender la idoneidad y eficacia de los modelos de IA en diferentes escenarios y casos de uso. Estos hallazgos proporcionan una base sólida para evaluar y comprender el desempeño real de estos modelos y su capacidad para cumplir con los objetivos planteados.