Noticias de IA

No te pierdas ningún momento de la innovación global en IA

IA Diario

Tendencias diarias de la industria de la IA en tres minutos

Cronología de la IA

Hitos de la industria de la IA

Guía de Monetización de la IA

Últimos Casos

Compartiendo casos de monetización de IA

Colección de Imágenes

Casos de monetización de creación de imágenes con IA

Colección de Videos

Casos de monetización de creación de videos con IA

Colección de Audio

Casos de monetización de creación de audio con IA

Colección de Contenido

Casos de monetización de redacción de contenido con IA

Tutoriales de IA

Últimos Tutoriales

Compartiendo gratuitamente los últimos tutoriales de IA

Rankings de Productos de IA

Ranking de Productos de IA

Muestra el ranking de visitas totales de sitios web de IA

Ranking de Crecimiento de Tráfico de IA

Rastrea los sitios web de IA de más rápido crecimiento por tráfico

Ranking de Descenso de Tráfico de IA

Se centra en los sitios web de IA con descensos de tráfico significativos

Ranking Semanal de IA

Muestra el ranking semanal de visitas de sitios web de IA

Rankings de Países Populares

Estados Unidos

Sitios web de IA más populares entre los usuarios estadounidenses

China

Sitios web de IA más populares entre los usuarios chinos

India

Sitios web de IA más populares entre los usuarios indios

Brasil

Sitios web de IA más populares entre los usuarios brasileños

Rankings de Categorías Populares

Generación de Imágenes

Ranking total de visitas de sitios web de generación de imágenes con IA

Asistente Personal

Ranking total de visitas de sitios web de asistentes personales con IA

Generación de Personajes

Ranking total de visitas de sitios web de generación de personajes con IA

Generación de Videos

Ranking total de visitas de sitios web de generación de videos con IA

Rankings de Datos de Código Abierto Populares

Ranking de Proyectos de IA

Proyectos de IA populares en GitHub por estrellas totales

Ranking de Crecimiento de Proyectos de IA

Proyectos de IA populares en GitHub por tasa de crecimiento

Ranking de Desarrolladores de IA

Ranking de desarrolladores de IA populares en GitHub

Ranking de Organizaciones de IA

Ranking de organizaciones de IA populares en GitHub

Categorías de Código Abierto Populares

Deepseek

Proyectos de código abierto de Deepseek populares en GitHub

TTS

Proyectos de código abierto de TTS populares en GitHub

LLM

Proyectos de código abierto de LLM populares en GitHub

ChatGPT

Proyectos de código abierto de ChatGPT populares en GitHub

Biblioteca de Proyectos de Código Abierto de IA

Visión General

Visión general de los proyectos de código abierto de IA populares en GitHub

Biblioteca de productos Navegación de herramientas

Lanzamiento del primer benchmark sistemático para agentes de IA, liderado por un equipo de Tsinghua

学生头条

Publicado elNoticias de IA · 1 minutos de lectura · Aug 9, 2023

Resultados del Benchmark AgentBench

Un equipo de la Universidad Tsinghua y otros colaboradores han publicado AgentBench, el primer benchmark sistemático para agentes de IA, que evalúa exhaustivamente 25 modelos de lenguaje diferentes. Los resultados de la investigación muestran que GPT-4 destaca en entornos complejos, y que los modelos de lenguaje comerciales de primer nivel presentan una ventaja significativa sobre los modelos de código abierto. El equipo de investigación recomienda mejorar aún más la capacidad de aprendizaje de los modelos de código abierto.

Agente de IA Benchmark Universidad Tsinghua

Este artículo proviene de AIbase Daily

¡Bienvenido a la columna [AI Diario]! Aquí está tu guía diaria para explorar el mundo de la inteligencia artificial. Todos los días te presentamos el contenido más destacado en el campo de la IA, centrándonos en los desarrolladores para ayudarte a comprender las tendencias tecnológicas y conocer las aplicaciones innovadoras de productos de IA.

—— Creado por el grupo AIbase Daily

Noticias de IA relacionadas recomendadas

OpenAI lanza PaperBench, un benchmark para evaluar agentes de IA

Apr 3, 2025

OpenAI lanza el benchmark SWE-Lancer: evaluación del rendimiento de los modelos en trabajos de ingeniería de software freelance reales

En el campo de la ingeniería de software, los métodos tradicionales de evaluación se quedan cortos ante la evolución de los desafíos. El trabajo de ingeniería de software freelance es complejo y variable, y va mucho más allá de las tareas de codificación aisladas. Los ingenieros freelance deben gestionar bases de código completas, integrar múltiples sistemas y satisfacer las complejas necesidades de los clientes. Los métodos de evaluación tradicionales, que suelen centrarse en las pruebas unitarias, no reflejan adecuadamente el rendimiento de pila completa ni el impacto económico real de las soluciones. Por lo tanto, es crucial desarrollar métodos de evaluación más realistas. Para ello, OpenAI ha lanzado SWE-Lan

Feb 18, 2025

1.9k

El benchmark ARC-AGI está a punto de ser superado, pero su creador advierte sobre fallas en el diseño de la prueba

Un importante benchmark en el campo de la inteligencia artificial, ARC-AGI, o "Corpus de Razonamiento y Abstracción para la Inteligencia Artificial General", está a punto de ser superado. Sin embargo, el creador de la prueba, François Chollet, advierte que, a pesar de las mejoras en los resultados, esto no significa que estemos cerca de lograr la Inteligencia Artificial General (AGI). Señala que la prueba en sí tiene fallas de diseño y que no revela un verdadero avance en la investigación. Desde que Chollet lanzó ARC-AGI en 2019, los sistemas de IA en la prueba

Dec 10, 2024

1.8k

ByteDance lanza el nuevo benchmark de evaluación de modelos de código de fuente abierta "FullStack Bench"

El 5 de diciembre, el equipo de modelos grandes de ByteDance Doubao lanzó el nuevo benchmark de evaluación de modelos de código grande, FullStack Bench, que abarca más de 11 escenarios reales, admite 16 lenguajes de programación e incluye 3374 problemas. En comparación con los estándares de evaluación anteriores, este benchmark evalúa con mayor precisión la capacidad de desarrollo de código de los modelos grandes en un rango más amplio de áreas de programación, impulsando la optimización de los modelos en tareas de programación del mundo real. Los benchmarks de código principales actuales, como HumanEval y MBPP, suelen centrarse en aspectos básicos y avanzados.

Dec 5, 2024

2.3k

¡Desconsolador! Epoch AI lanza FrontierMath, un nuevo benchmark matemático; los modelos de IA de primer nivel resuelven menos del 2%

En el vasto universo de la inteligencia artificial, las matemáticas se consideraban el último bastión de la inteligencia mecánica. Ahora, una nueva prueba de referencia llamada FrontierMath ha irrumpido en escena, llevando la capacidad de razonamiento matemático de la IA a límites sin precedentes. Epoch AI, junto con más de 60 de las mentes matemáticas más brillantes del mundo, han creado este campo de batalla para la IA, que se asemeja a unas 'Olimpiadas Matemáticas'. Esto no es solo una prueba tecnológica, sino la máxima prueba de la sabiduría matemática de la inteligencia artificial. Imagine un laboratorio lleno de matemáticos de talla mundial, que han diseñado cuidadosamente...

Nov 29, 2024

2.8k

Meta lanza un nuevo benchmark Multi-IF para desafiar la capacidad de seguir instrucciones multilingües y de varias rondas

Meta ha publicado recientemente un nuevo benchmark llamado Multi-IF, diseñado para evaluar la capacidad de los modelos de lenguaje grande (LLM) para seguir instrucciones en diálogos multironda y entornos multilingües. Este benchmark abarca ocho idiomas, incluye 4501 tareas de diálogo de tres rondas y se centra en el rendimiento de los modelos actuales en escenarios complejos de varias rondas y multilingües. La mayoría de los estándares de evaluación existentes se centran en diálogos de una sola ronda y tareas monolingües, lo que dificulta la evaluación completa del rendimiento de los modelos en aplicaciones reales. El lanzamiento de Multi-IF busca precisamente solucionar esto.

Nov 25, 2024

1.8k

¿Modelos de difusión para videojuegos? DIAMOND logra un nuevo SOTA en el benchmark Atari 100k

El aprendizaje por refuerzo ha logrado muchos éxitos en los últimos años, pero su baja eficiencia de muestreo limita su aplicación en el mundo real. Los modelos del mundo, como modelos generativos de entornos, ofrecen una solución prometedora a este problema. Pueden actuar como entornos simulados para entrenar agentes de aprendizaje por refuerzo con mayor eficiencia de muestreo. Actualmente, la mayoría de los modelos del mundo simulan la dinámica del entorno mediante secuencias de variables latentes discretas. Sin embargo, este método de compresión en representaciones discretas compactas puede ignorar detalles visuales cruciales para el aprendizaje por refuerzo. Al mismo tiempo, los modelos de difusión se han convertido en los protagonistas de la generación de imágenes.

Nov 18, 2024

1.4k

OpenAI lanza SimpleQA, un nuevo benchmark de IA para evaluar la precisión fáctica de los modelos de lenguaje

Recientemente, OpenAI ha publicado un nuevo benchmark llamado SimpleQA, diseñado para evaluar la precisión fáctica de las respuestas generadas por los modelos de lenguaje. Con el rápido desarrollo de los modelos de lenguaje a gran escala, asegurar la precisión del contenido generado presenta numerosos desafíos, especialmente las llamadas 'alucinaciones', donde el modelo genera información que suena convincente pero que en realidad es incorrecta o inverificable. Esto es especialmente importante dado que cada vez más personas dependen de la IA para obtener información. SimpleQA se caracteriza por...

Oct 31, 2024

1.9k

El equipo de investigación de Apple publica el nuevo benchmark GSM-Symbolic: ¡revela las deficiencias en el razonamiento matemático de los modelos lingüísticos grandes!

Recientemente, los investigadores de Apple realizaron un estudio profundo sobre la capacidad de razonamiento matemático de los modelos lingüísticos grandes (LLM), lanzando una nueva prueba de referencia llamada GSM-Symbolic. Esta nueva prueba de referencia se basa en GSM8K, que se utiliza principalmente para evaluar las habilidades matemáticas básicas. Aunque muchos LLM han mejorado su rendimiento en GSM8K, la comunidad científica todavía tiene dudas sobre la capacidad de razonamiento de estos modelos, considerando que los indicadores de evaluación existentes pueden no reflejar completamente sus capacidades reales. El estudio revela...

Oct 14, 2024

3.2k

DeepMind presenta el nuevo benchmark Michelangelo: Revelando las deficiencias de la inferencia de LLM de contexto largo

Recientemente, los modelos de lenguaje grandes (LLM) con ventanas de contexto extra largas se han convertido en un tema candente de discusión. Estos modelos pueden procesar cientos de miles o incluso millones de tokens en una sola indicación, abriendo nuevas posibilidades para los desarrolladores. Sin embargo, ¿qué tan bien pueden estos LLM de contexto largo realmente comprender y utilizar la gran cantidad de información que reciben? Para abordar esta cuestión, los investigadores de Google DeepMind han presentado un nuevo benchmark llamado Michelangelo, diseñado para evaluar la capacidad de inferencia de contexto largo. Los resultados de la investigación muestran que...

Oct 11, 2024

1.3k