Página de búsqueda de noticias y productos de IA

Tipo :

Información de Noticias
Aplicaciones de Productos
Casos de Monetización
Tutoriales de IA

2025-02-18 16:55:26.AIbase

OpenAI lanza el benchmark SWE-Lancer: evaluación del rendimiento de los modelos en trabajos de ingeniería de software freelance reales

En el campo de la ingeniería de software, los métodos tradicionales de evaluación se quedan cortos ante la evolución de los desafíos. El trabajo de ingeniería de software freelance es complejo y variable, y va mucho más allá de las tareas de codificación aisladas. Los ingenieros freelance deben gestionar bases de código completas, integrar múltiples sistemas y satisfacer las complejas necesidades de los clientes. Los métodos de evaluación tradicionales, que suelen centrarse en las pruebas unitarias, no reflejan adecuadamente el rendimiento de pila completa ni el impacto económico real de las soluciones. Por lo tanto, es crucial desarrollar métodos de evaluación más realistas. Para ello, OpenAI ha lanzado SWE-Lan

2024-12-10 11:31:07.AIbase

El benchmark ARC-AGI está a punto de ser superado, pero su creador advierte sobre fallas en el diseño de la prueba

Un importante benchmark en el campo de la inteligencia artificial, ARC-AGI, o "Corpus de Razonamiento y Abstracción para la Inteligencia Artificial General", está a punto de ser superado. Sin embargo, el creador de la prueba, François Chollet, advierte que, a pesar de las mejoras en los resultados, esto no significa que estemos cerca de lograr la Inteligencia Artificial General (AGI). Señala que la prueba en sí tiene fallas de diseño y que no revela un verdadero avance en la investigación. Desde que Chollet lanzó ARC-AGI en 2019, los sistemas de IA en la prueba

2024-12-05 14:45:53.AIbase

ByteDance lanza el nuevo benchmark de evaluación de modelos de código de fuente abierta "FullStack Bench"

El 5 de diciembre, el equipo de modelos grandes de ByteDance Doubao lanzó el nuevo benchmark de evaluación de modelos de código grande, FullStack Bench, que abarca más de 11 escenarios reales, admite 16 lenguajes de programación e incluye 3374 problemas. En comparación con los estándares de evaluación anteriores, este benchmark evalúa con mayor precisión la capacidad de desarrollo de código de los modelos grandes en un rango más amplio de áreas de programación, impulsando la optimización de los modelos en tareas de programación del mundo real. Los benchmarks de código principales actuales, como HumanEval y MBPP, suelen centrarse en aspectos básicos y avanzados.

2024-11-29 09:47:51.AIbase

¡Desconsolador! Epoch AI lanza FrontierMath, un nuevo benchmark matemático; los modelos de IA de primer nivel resuelven menos del 2%

En el vasto universo de la inteligencia artificial, las matemáticas se consideraban el último bastión de la inteligencia mecánica. Ahora, una nueva prueba de referencia llamada FrontierMath ha irrumpido en escena, llevando la capacidad de razonamiento matemático de la IA a límites sin precedentes. Epoch AI, junto con más de 60 de las mentes matemáticas más brillantes del mundo, han creado este campo de batalla para la IA, que se asemeja a unas 'Olimpiadas Matemáticas'. Esto no es solo una prueba tecnológica, sino la máxima prueba de la sabiduría matemática de la inteligencia artificial. Imagine un laboratorio lleno de matemáticos de talla mundial, que han diseñado cuidadosamente...

2024-11-25 15:09:04.AIbase

Meta lanza un nuevo benchmark Multi-IF para desafiar la capacidad de seguir instrucciones multilingües y de varias rondas

Meta ha publicado recientemente un nuevo benchmark llamado Multi-IF, diseñado para evaluar la capacidad de los modelos de lenguaje grande (LLM) para seguir instrucciones en diálogos multironda y entornos multilingües. Este benchmark abarca ocho idiomas, incluye 4501 tareas de diálogo de tres rondas y se centra en el rendimiento de los modelos actuales en escenarios complejos de varias rondas y multilingües. La mayoría de los estándares de evaluación existentes se centran en diálogos de una sola ronda y tareas monolingües, lo que dificulta la evaluación completa del rendimiento de los modelos en aplicaciones reales. El lanzamiento de Multi-IF busca precisamente solucionar esto.

2024-11-18 14:29:39.AIbase

¿Modelos de difusión para videojuegos? DIAMOND logra un nuevo SOTA en el benchmark Atari 100k

El aprendizaje por refuerzo ha logrado muchos éxitos en los últimos años, pero su baja eficiencia de muestreo limita su aplicación en el mundo real. Los modelos del mundo, como modelos generativos de entornos, ofrecen una solución prometedora a este problema. Pueden actuar como entornos simulados para entrenar agentes de aprendizaje por refuerzo con mayor eficiencia de muestreo. Actualmente, la mayoría de los modelos del mundo simulan la dinámica del entorno mediante secuencias de variables latentes discretas. Sin embargo, este método de compresión en representaciones discretas compactas puede ignorar detalles visuales cruciales para el aprendizaje por refuerzo. Al mismo tiempo, los modelos de difusión se han convertido en los protagonistas de la generación de imágenes.

2024-10-31 14:28:43.AIbase

OpenAI lanza SimpleQA, un nuevo benchmark de IA para evaluar la precisión fáctica de los modelos de lenguaje

Recientemente, OpenAI ha publicado un nuevo benchmark llamado SimpleQA, diseñado para evaluar la precisión fáctica de las respuestas generadas por los modelos de lenguaje. Con el rápido desarrollo de los modelos de lenguaje a gran escala, asegurar la precisión del contenido generado presenta numerosos desafíos, especialmente las llamadas 'alucinaciones', donde el modelo genera información que suena convincente pero que en realidad es incorrecta o inverificable. Esto es especialmente importante dado que cada vez más personas dependen de la IA para obtener información. SimpleQA se caracteriza por...

2024-10-14 14:51:30.AIbase

El equipo de investigación de Apple publica el nuevo benchmark GSM-Symbolic: ¡revela las deficiencias en el razonamiento matemático de los modelos lingüísticos grandes!

Recientemente, los investigadores de Apple realizaron un estudio profundo sobre la capacidad de razonamiento matemático de los modelos lingüísticos grandes (LLM), lanzando una nueva prueba de referencia llamada GSM-Symbolic. Esta nueva prueba de referencia se basa en GSM8K, que se utiliza principalmente para evaluar las habilidades matemáticas básicas. Aunque muchos LLM han mejorado su rendimiento en GSM8K, la comunidad científica todavía tiene dudas sobre la capacidad de razonamiento de estos modelos, considerando que los indicadores de evaluación existentes pueden no reflejar completamente sus capacidades reales. El estudio revela...

2024-10-11 09:35:13.AIbase

DeepMind presenta el nuevo benchmark Michelangelo: Revelando las deficiencias de la inferencia de LLM de contexto largo

Recientemente, los modelos de lenguaje grandes (LLM) con ventanas de contexto extra largas se han convertido en un tema candente de discusión. Estos modelos pueden procesar cientos de miles o incluso millones de tokens en una sola indicación, abriendo nuevas posibilidades para los desarrolladores. Sin embargo, ¿qué tan bien pueden estos LLM de contexto largo realmente comprender y utilizar la gran cantidad de información que reciben? Para abordar esta cuestión, los investigadores de Google DeepMind han presentado un nuevo benchmark llamado Michelangelo, diseñado para evaluar la capacidad de inferencia de contexto largo. Los resultados de la investigación muestran que...

2024-09-03 11:32:53.AIbase

CardBench: Google lanza un benchmark integral de IA con más de 20 bases de datos reales y miles de consultas

En las bases de datos relacionales modernas, la técnica de estimación de cardinalidad (CE) es crucial para optimizar el plan de ejecución de consultas, afectando directamente a la eficiencia de las consultas y al rendimiento de la base de datos. Los métodos tradicionales de estimación de cardinalidad se basan en supuestos simplificados, a menudo mostrando un rendimiento deficiente en la predicción de consultas complejas, mientras que los modelos CE de aprendizaje automático pueden proporcionar predicciones más precisas, pero se enfrentan a desafíos como largos tiempos de entrenamiento, necesidad de grandes cantidades de datos y falta de evaluación sistemática. Para abordar este desafío, el equipo de investigación de Google ha presentado el framework de benchmark CardBench, que integra más de 20 bases de datos del mundo real y miles de consultas.

2023-12-12 16:20:29.AIbase

智谱 AI lanza AlignBench, un benchmark de alineación para LLM en chino

智谱 AI ha lanzado AlignBench, un benchmark para evaluar modelos lingüísticos grandes en chino. AlignBench evalúa con precisión el nivel de alineación entre el modelo y la intención humana en múltiples dimensiones. El conjunto de datos se divide en 8 grandes categorías, incluyendo preguntas y respuestas de conocimiento, generación de escritura, juegos de rol y otros tipos de preguntas. Los desarrolladores pueden utilizar AlignBench para evaluar y utilizar modelos de puntuación con mayor capacidad de evaluación para puntuar. Se puede acceder al sitio web de AlignBench para enviar los resultados.

2023-11-02 15:21:41.AIbase

Ant Group publica un benchmark de modelos grandes para el ámbito de DevOps

Ant Group, en colaboración con la Universidad de Pekín, publica un benchmark para modelos de lenguaje grandes en el ámbito de DevOps. El benchmark incluye preguntas de opción múltiple de 8 categorías: planificación, codificación, construcción, pruebas, despliegue, etc. Con un total de 4850 preguntas, el benchmark también se centra en tareas AIOps. Los resultados de la evaluación muestran que las puntuaciones de los diferentes modelos son bastante similares.

2023-08-09 14:07:10.AIbase

Lanzamiento del primer benchmark sistemático para agentes de IA, liderado por un equipo de Tsinghua

El primer benchmark sistemático para agentes de IA ha sido lanzado, y los resultados de la evaluación exhaustiva de 25 modelos de lenguaje diferentes muestran que GPT-4 está en una liga propia. Los modelos de lenguaje comerciales de primer nivel sobresalen en entornos complejos, mostrando una ventaja significativa sobre los modelos de código abierto. El equipo de investigación recomienda mejorar aún más la capacidad de aprendizaje de los modelos de código abierto.

Busca la dinámica global de productos de IA

Busca información global de IA y descubre nuevas oportunidades de IA

OpenAI lanza el benchmark SWE-Lancer: evaluación del rendimiento de los modelos en trabajos de ingeniería de software freelance reales

El benchmark ARC-AGI está a punto de ser superado, pero su creador advierte sobre fallas en el diseño de la prueba

ByteDance lanza el nuevo benchmark de evaluación de modelos de código de fuente abierta "FullStack Bench"

¡Desconsolador! Epoch AI lanza FrontierMath, un nuevo benchmark matemático; los modelos de IA de primer nivel resuelven menos del 2%

Meta lanza un nuevo benchmark Multi-IF para desafiar la capacidad de seguir instrucciones multilingües y de varias rondas

¿Modelos de difusión para videojuegos? DIAMOND logra un nuevo SOTA en el benchmark Atari 100k

OpenAI lanza SimpleQA, un nuevo benchmark de IA para evaluar la precisión fáctica de los modelos de lenguaje

El equipo de investigación de Apple publica el nuevo benchmark GSM-Symbolic: ¡revela las deficiencias en el razonamiento matemático de los modelos lingüísticos grandes!

DeepMind presenta el nuevo benchmark Michelangelo: Revelando las deficiencias de la inferencia de LLM de contexto largo

CardBench: Google lanza un benchmark integral de IA con más de 20 bases de datos reales y miles de consultas

智谱 AI lanza AlignBench, un benchmark de alineación para LLM en chino

Ant Group publica un benchmark de modelos grandes para el ámbito de DevOps

Lanzamiento del primer benchmark sistemático para agentes de IA, liderado por un equipo de Tsinghua