La precisión de GPT-4 en tareas de razonamiento gráfico es solo del 33%, generando preocupación

站长之家

Publicado elNoticias de IA · 2 minutos de lectura · Nov 21, 2023

Precisión de GPT-4 en tareas de razonamiento gráfico

Un nuevo estudio revela que GPT-4 solo alcanza una precisión del 33% en tareas de razonamiento gráfico, lo que ha generado preocupación sobre sus capacidades de procesamiento de imágenes. Los investigadores utilizaron el conjunto de datos ConceptARC para las pruebas, mostrando que la precisión media de los humanos en la misma tarea es del 91%, significativamente superior a la de GPT-4.

La metodología del estudio ha sido cuestionada, incluyendo aspectos como el reclutamiento de participantes y la forma de introducir la información. Esto pone de manifiesto las limitaciones de los grandes modelos de lenguaje en ciertas tareas y exige un examen más profundo de los métodos de investigación.

El modelo GLM-4-9B de Zhihu logra una tasa de alucinación de solo el 1.3%, liderando la evaluación mundial de modelos de lenguaje grandes

En el campo de la inteligencia artificial, el 'problema de alucinación' de los modelos de lenguaje grandes ha sido un desafío clave para la industria. Recientemente, los resultados de una prueba basada en el sistema de evaluación HHEM-2.1-Open muestran que el modelo GLM-4-9B de Zhihu AI ha presentado resultados notables. Los datos de la prueba muestran que, de los 85 modelos de lenguaje grandes que participaron en la evaluación, GLM-4-9B obtuvo el primer lugar con una tasa de consistencia de hechos del 98.7% y una tasa de respuesta del 100%. Cabe destacar que la tasa de alucinación de este modelo es de solo el 1.3%, un logro significativo.

NVIDIA y universidades presentan "FlashInfer": una nueva biblioteca de núcleos para mejorar la eficiencia de la inferencia de modelos de lenguaje grandes

Con la proliferación de los modelos de lenguaje grandes (LLM) en las aplicaciones modernas de inteligencia artificial, herramientas como los chatbots y los generadores de código dependen de las capacidades de estos modelos. Sin embargo, los problemas de eficiencia en el proceso de inferencia se están volviendo cada vez más pronunciados. Especialmente en el manejo de mecanismos de atención, como FlashAttention y SparseAttention, a menudo se enfrentan a desafíos con cargas de trabajo diversas, patrones de entrada dinámicos y limitaciones de recursos de GPU. Estos desafíos, junto con la alta latencia y los cuellos de botella de memoria

¡Ganar 1 millón de dólares en 20 meses! ¿Cómo lo logró TypingMind, la herramienta de chat con modelos de lenguaje grandes?

TypingMind es una herramienta de terceros diseñada para ofrecer a los usuarios una experiencia mejorada con ChatGPT. Creada por el desarrollador independiente Tony Dinh, admite varios modelos de lenguaje grandes, incluyendo GPT de OpenAI y Claude de Anthropic. Ofrece funciones básicas como chats, listas de múltiples conversaciones y plantillas de indicaciones, sin necesidad de descarga ni instalación, lo que facilita su uso. Esta herramienta también admite la implementación privada, ofreciendo protección de la privacidad de los datos; su modelo de negocio...

Noticias de IA

La precisión de GPT-4 en tareas de razonamiento gráfico es solo del 33%, generando preocupación

站长之家

Noticias de IA relacionadas recomendadas

ByteDance lanza AIBrix: un nuevo sistema de inferencia de código abierto diseñado para modelos de lenguaje grandes

El modelo GLM-4-9B de Zhihu logra una tasa de alucinación de solo el 1.3%, liderando la evaluación mundial de modelos de lenguaje grandes

NVIDIA y universidades presentan "FlashInfer": una nueva biblioteca de núcleos para mejorar la eficiencia de la inferencia de modelos de lenguaje grandes

¡Ganar 1 millón de dólares en 20 meses! ¿Cómo lo logró TypingMind, la herramienta de chat con modelos de lenguaje grandes?