Página de búsqueda de noticias y productos de IA

Tipo :

Información de Noticias
Aplicaciones de Productos
Casos de Monetización
Tutoriales de IA

2025-03-12 15:28:43.AIbase

El modelo de lenguaje grande de Ant Group para la atención médica obtiene el primer lugar en la evaluación de MedBench, marcando una nueva era para la IA médica

Recientemente, la plataforma de evaluación de modelos de lenguaje grandes para la atención médica MedBench, líder en China, publicó su clasificación más reciente. En ella, el modelo de lenguaje grande para la atención médica desarrollado por el equipo de Ant Group obtuvo el primer lugar tanto en la clasificación general como en la clasificación de autoevaluación, con puntuaciones de 97.5 y 98.2 respectivamente, atrayendo una gran atención de la industria. El éxito del modelo de lenguaje grande para la atención médica de Ant Group se debe a los continuos esfuerzos del equipo en el desarrollo de modelos de razonamiento médico. Recientemente, el equipo ha adoptado una tecnología basada en el aprendizaje por refuerzo para crear una nueva generación de modelos de razonamiento médico. Esta innovación permite que el modelo...

2025-02-26 09:56:15.AIbase

El 92% de los estudiantes universitarios británicos dependen de la IA para sus tareas, ¡los sistemas de evaluación universitaria se enfrentan a un nuevo desafío!

2025-02-18 16:55:26.AIbase

OpenAI lanza el benchmark SWE-Lancer: evaluación del rendimiento de los modelos en trabajos de ingeniería de software freelance reales

En el campo de la ingeniería de software, los métodos tradicionales de evaluación se quedan cortos ante la evolución de los desafíos. El trabajo de ingeniería de software freelance es complejo y variable, y va mucho más allá de las tareas de codificación aisladas. Los ingenieros freelance deben gestionar bases de código completas, integrar múltiples sistemas y satisfacer las complejas necesidades de los clientes. Los métodos de evaluación tradicionales, que suelen centrarse en las pruebas unitarias, no reflejan adecuadamente el rendimiento de pila completa ni el impacto económico real de las soluciones. Por lo tanto, es crucial desarrollar métodos de evaluación más realistas. Para ello, OpenAI ha lanzado SWE-Lan

2025-01-10 15:49:29.AIbase

El modelo GLM-4-9B de Zhihu logra una tasa de alucinación de solo el 1.3%, liderando la evaluación mundial de modelos de lenguaje grandes

En el campo de la inteligencia artificial, el 'problema de alucinación' de los modelos de lenguaje grandes ha sido un desafío clave para la industria. Recientemente, los resultados de una prueba basada en el sistema de evaluación HHEM-2.1-Open muestran que el modelo GLM-4-9B de Zhihu AI ha presentado resultados notables. Los datos de la prueba muestran que, de los 85 modelos de lenguaje grandes que participaron en la evaluación, GLM-4-9B obtuvo el primer lugar con una tasa de consistencia de hechos del 98.7% y una tasa de respuesta del 100%. Cabe destacar que la tasa de alucinación de este modelo es de solo el 1.3%, un logro significativo.

2025-01-02 14:30:40.AIbase

¿Microsoft revela accidentalmente los parámetros del modelo OpenAI en un nuevo artículo? Una evaluación de IA médica expone que 4o-mini solo tiene 8B

En un artículo de investigación centrado en la evaluación de IA médica, Microsoft parece haber revelado 'sin querer' el tamaño de los parámetros de varios modelos lingüísticos grandes de primer nivel. Este artículo, publicado el 26 de diciembre, no solo revela datos sobre los parámetros de modelos de varias compañías, incluyendo OpenAI y Anthropic, sino que también ha generado un debate en la industria sobre la arquitectura de los modelos y su capacidad tecnológica. Según el artículo, el modelo o1-preview de OpenAI tiene aproximadamente 300B parámetros, GPT-4o alrededor de 200B, y GPT-4o-mini...

2024-12-26 10:54:51.AIbase

El modelo Star grande de China Telecom seleccionado para la evaluación anual de "artefactos nacionales", creando un nuevo estándar para la IA nacional

En la evaluación anual de los "Diez principales artefactos nacionales" iniciada por el Centro de Noticias de la Comisión Estatal de Administración de Activos, el modelo Star grande, desarrollado de forma independiente por China Telecom, ha sido seleccionado con éxito gracias a sus logros tecnológicos innovadores. Como el primer sistema de modelos básicos de tamaño completo, multimodal y de producción nacional en China, el modelo Star grande ha demostrado una excelente capacidad en los campos de la semántica, el habla, la visión y la multimodalidad. En el campo de la semántica, el modelo Star grande ha logrado un importante avance. Basado en un clúster de decenas de miles de tarjetas nacionales y un marco de entrenamiento, el modelo ha alcanzado más del 93% de la potencia de cálculo equivalente de NVIDIA, y el tiempo de entrenamiento es aún más...

2024-12-19 17:47:00.AIbase

Plataforma de evaluación de modelos grandes CompassArena actualizada: nueva función Judge Copilot

CompassArena (arena de grandes modelos), la plataforma de evaluación de modelos grandes lanzada conjuntamente por el equipo de OpenCompass de Shanghai Artificial Intelligence Laboratory y ModelScope, ha recibido una actualización reciente para ofrecer a los usuarios una experiencia de evaluación de modelos más científica e integral. Desde su lanzamiento, la plataforma ha atraído a una gran cantidad de usuarios de la comunidad que han participado y contribuido con datos. Basándose en estos datos, CompassArena ha seguido optimizándose. Esta actualización incluye la nueva función Judge Copilot y mejoras en el algoritmo de clasificación.

2024-12-05 14:45:53.AIbase

ByteDance lanza el nuevo benchmark de evaluación de modelos de código de fuente abierta "FullStack Bench"

El 5 de diciembre, el equipo de modelos grandes de ByteDance Doubao lanzó el nuevo benchmark de evaluación de modelos de código grande, FullStack Bench, que abarca más de 11 escenarios reales, admite 16 lenguajes de programación e incluye 3374 problemas. En comparación con los estándares de evaluación anteriores, este benchmark evalúa con mayor precisión la capacidad de desarrollo de código de los modelos grandes en un rango más amplio de áreas de programación, impulsando la optimización de los modelos en tareas de programación del mundo real. Los benchmarks de código principales actuales, como HumanEval y MBPP, suelen centrarse en aspectos básicos y avanzados.

2024-10-15 16:28:44.AIbase

Informe de evaluación tecnológica de PDFtoChat: Sistema de preguntas y respuestas de PDF inteligente basado en IA

Palabras clave: PDFtoChat IA Preguntas y respuestas Procesamiento del lenguaje natural Procesamiento de PDF Código abierto Langchain MongoDB Together AI Mixtral I. Descripción general del producto PDFtoChat (https://www.aibase.com/tool/33735) es un sistema de preguntas y respuestas de PDF inteligente basado en inteligencia artificial que permite a los usuarios interactuar con documentos PDF mediante conversaciones para obtener rápidamente la información que necesitan.

2024-10-12 11:38:17.AIbase

OpenAI lanza MLE-bench: un conjunto de evaluación para agentes de IA

En un estudio reciente, el equipo de investigación de OpenAI presentó MLE-bench, un nuevo conjunto de evaluación para evaluar el rendimiento de los agentes de IA en ingeniería de aprendizaje automático. Este estudio se centra específicamente en 75 competiciones de ingeniería de aprendizaje automático de Kaggle, con el objetivo de probar las diversas habilidades necesarias para los agentes en el mundo real, incluyendo el entrenamiento de modelos, la preparación de conjuntos de datos y la ejecución de experimentos. Para una mejor evaluación, el equipo de investigación utilizó datos de la clasificación pública de Kaggle para establecer una base para cada

2024-10-10 11:00:51.AIbase

Nuevo estándar de seguridad para vehículos: China lanza su primer sistema de evaluación de seguridad inteligente para automóviles

Ayer, se lanzó oficialmente en Chongqing el primer sistema de evaluación de seguridad inteligente para automóviles de China. Este sistema evaluará los automóviles inteligentes en múltiples dimensiones, incluyendo la percepción ambiental, el control de decisiones y la respuesta a emergencias, representando un gran avance en el campo de la evaluación de seguridad de vehículos inteligentes en China. Se entiende que el sistema de evaluación de seguridad inteligente para automóviles se centra en la seguridad de las situaciones de uso de los automóviles inteligentes, e innovadoramente propone un reglamento de evaluación de seguridad inteligente para automóviles de conducción autónoma. A través de más de 50 evaluaciones, se ha formado una matriz de evaluación de seguridad integral para los sistemas de conducción autónoma. Los expertos afirman que la seguridad de los vehículos inteligentes en escenarios complejos es un aspecto crucial.

2024-09-29 15:33:05.AIbase

Salesforce AI lanza la familia de modelos de evaluación de lenguaje grande SFR-Judge, basada en Llama 3

En el campo del procesamiento del lenguaje natural, el desarrollo de los modelos de lenguaje grandes (LLM) ha sido rápido y ha logrado avances significativos en múltiples áreas. Sin embargo, a medida que aumenta la complejidad de los modelos, la evaluación precisa de sus resultados se vuelve crucial. Tradicionalmente, hemos dependido de la evaluación humana, pero este método es lento y difícil de escalar, incapaz de seguir el ritmo del rápido desarrollo de los modelos. Para cambiar esta situación, el equipo de investigación de Salesforce AI ha presentado SFR-Judge, una familia compuesta por tres modelos de lenguaje grandes que evalúan…

2024-09-03 13:42:26.AIbase

DingTalk lanza varias "súper asistentes", incluyendo asistente de órdenes de trabajo súper y asistente de evaluación súper

Recientemente, DingTalk anunció el lanzamiento de varios productos nuevos que integran capacidades de inteligencia artificial (IA), con el objetivo de ayudar a las pequeñas y medianas empresas a utilizar la tecnología de IA de una manera más económica y rápida. Entre ellos, el "asistente de órdenes de trabajo súper", creado con la tecnología de IA de DingTalk y tablas multidimensionales, es particularmente llamativo.

2024-08-23 09:05:19.AIbase

Baidu Smart Cloud Keyue pasa la evaluación del Instituto de Tecnología de las Telecomunicaciones de China sobre "Servicio de atención al cliente inteligente basado en modelos grandes"

Los resultados de la evaluación del Instituto de Tecnología de las Telecomunicaciones de China muestran que el producto de servicio de atención al cliente inteligente Baidu Smart Cloud Keyue ha recibido la calificación más alta en el primer lote de "Servicio de atención al cliente inteligente basado en modelos grandes", lo que indica que la capacidad tecnológica y la práctica de aplicación de Baidu en este campo han recibido el reconocimiento oficial. El servicio de atención al cliente inteligente, como una aplicación importante de la inteligencia artificial, tiene un significado importante para los sectores financiero, gubernamental y de operadores de telecomunicaciones, y puede ayudar a las instituciones a reducir costes y mejorar la eficiencia. Keyue, como el primer producto de servicio de atención al cliente inteligente basado en modelos grandes de China, tiene ventajas como funciones completas, rendimiento superior y sistema maduro, y puede resolver problemas complejos de manera eficiente y mejorar la resolución autónoma de problemas.

2024-08-16 09:50:38.AIbase

Geekbench lanza herramienta de prueba de rendimiento de IA: un nuevo estándar para la evaluación de la capacidad de IA de los dispositivos

Geekbench AI es una nueva herramienta multiplataforma diseñada para evaluar el rendimiento de los dispositivos en cargas de trabajo intensivas de IA. Prueba la CPU, la GPU y la NPU para determinar la capacidad del dispositivo para manejar aplicaciones de aprendizaje automático. Admite varios frameworks de IA, como ONNX, CoreML, TensorFlow Lite y OpenVINO, y evalúa el rendimiento en dos dimensiones: velocidad y precisión, proporcionando tres puntuaciones: precisión completa, precisión de media precisión y precisión cuantificada. Además, los resultados de las pruebas de Geekbench AI...

2024-08-15 14:53:25.AIbase

OpenAI lanza SWE-bench Verified: Mejora la evaluación de la capacidad de ingeniería de software de la IA

OpenAI ha publicado SWE-bench Verified, con el objetivo de evaluar con mayor precisión el rendimiento de la IA en tareas de ingeniería de software. Esto soluciona las limitaciones de evaluación del SWE-bench original, como las pruebas unitarias demasiado estrictas, las descripciones de problemas poco claras y los entornos de desarrollo difíciles de configurar. El nuevo benchmark, mediante la introducción de un entorno Docker contenedorizado, ha mejorado la consistencia y la fiabilidad de la evaluación, aumentando significativamente las puntuaciones de rendimiento de los modelos de IA. GPT-4o resolvió el 33,2% de las muestras en el nuevo benchmark, mientras que el mejor framework de agente de código abierto A...

2024-08-13 08:11:01.AIbase

Compass Arena, plataforma de evaluación de modelos grandes, añade una sección de competición para modelos multimodales

El equipo de OpenCompass de Shanghai AI Lab, en colaboración con ModelScope, ha lanzado Compass Multi-Modal Arena, una nueva sección de la plataforma de evaluación de modelos grandes centrada en modelos multimodales. Los usuarios pueden cargar una imagen y plantear una pregunta, permitiendo que dos modelos multimodales anónimos generen respuestas. Posteriormente, se realiza una evaluación subjetiva de la calidad del contenido generado para elegir el modelo con mejor rendimiento. La plataforma ofrece una interfaz fácil de usar y un banco de preguntas especial, cuyo contenido se detalla más adelante.

2024-07-23 08:09:28.AIbase

百度智能云 lanza la aplicación de entidad inteligente financiera "智金" con funciones de evaluación inteligente de activos

En la Exposición Internacional de Finanzas de China 2024, Baidu Smart Cloud lanzó la aplicación de entidad inteligente financiera "智金", diseñada para mejorar la eficiencia y los ingresos de las instituciones financieras. Dirigida a cuatro escenarios principales: gestión de patrimonios, evaluación de activos, cumplimiento normativo y operaciones extrabursátiles, la aplicación incluye funciones de asesoramiento inteligente de patrimonios, evaluación inteligente de activos, juicio inteligente de cumplimiento y supervisión inteligente de transacciones, proporcionando asistencia operativa inteligente y eficiente. Estas aplicaciones inteligentes se han implementado con éxito en instituciones bancarias, aseguradoras y de valores líderes, acelerando la mejora de la calidad y la eficiencia de los servicios financieros. Baidu Smart Cloud, a través de un modelo de co-creación ecológica, colabora con socios del sector para desarrollar entidades inteligentes en más escenarios.

2024-07-12 11:10:22.AIbase

OpenAI revela por primera vez sus estándares de evaluación para AGI: ChatGPT solo está en el primer nivel

Según Bloomberg, OpenAI ha creado una escala interna para rastrear el progreso de sus grandes modelos de lenguaje en inteligencia artificial general (AGI). Esta iniciativa no solo muestra la ambición de OpenAI en el campo de la AGI, sino que también proporciona a la industria un nuevo estándar para medir el desarrollo de la IA.

2024-07-10 08:39:22.AIbase

Anthropic lanza una herramienta de evaluación de indicaciones para ayudar a los desarrolladores a optimizar la calidad de las indicaciones de forma más rápida y eficiente

Anthropic ha lanzado una nueva función para su plataforma de desarrollo de IA para simplificar el proceso de desarrollo de aplicaciones de IA. Los aspectos más destacados incluyen la capacidad de generar, probar y evaluar indicaciones de IA en la consola, la generación automática de casos de prueba y la función de comparación de salidas, y un generador de indicaciones impulsado por Claude 3.5 Sonnet. Los desarrolladores simplemente describen la tarea y Claude genera indicaciones de alta calidad. La actualización también introduce una función de generación de conjuntos de pruebas, que permite a los usuarios agregar o importar casos de prueba y ejecutar todas las pruebas con un solo clic, ajustando los parámetros. Incluye una herramienta de evaluación de respuestas.

Busca la dinámica global de productos de IA

Busca información global de IA y descubre nuevas oportunidades de IA

El modelo de lenguaje grande de Ant Group para la atención médica obtiene el primer lugar en la evaluación de MedBench, marcando una nueva era para la IA médica

El 92% de los estudiantes universitarios británicos dependen de la IA para sus tareas, ¡los sistemas de evaluación universitaria se enfrentan a un nuevo desafío!

OpenAI lanza el benchmark SWE-Lancer: evaluación del rendimiento de los modelos en trabajos de ingeniería de software freelance reales

El modelo GLM-4-9B de Zhihu logra una tasa de alucinación de solo el 1.3%, liderando la evaluación mundial de modelos de lenguaje grandes

¿Microsoft revela accidentalmente los parámetros del modelo OpenAI en un nuevo artículo? Una evaluación de IA médica expone que 4o-mini solo tiene 8B

El modelo Star grande de China Telecom seleccionado para la evaluación anual de "artefactos nacionales", creando un nuevo estándar para la IA nacional

Plataforma de evaluación de modelos grandes CompassArena actualizada: nueva función Judge Copilot

ByteDance lanza el nuevo benchmark de evaluación de modelos de código de fuente abierta "FullStack Bench"

Informe de evaluación tecnológica de PDFtoChat: Sistema de preguntas y respuestas de PDF inteligente basado en IA

OpenAI lanza MLE-bench: un conjunto de evaluación para agentes de IA

Nuevo estándar de seguridad para vehículos: China lanza su primer sistema de evaluación de seguridad inteligente para automóviles

Salesforce AI lanza la familia de modelos de evaluación de lenguaje grande SFR-Judge, basada en Llama 3

DingTalk lanza varias "súper asistentes", incluyendo asistente de órdenes de trabajo súper y asistente de evaluación súper

Baidu Smart Cloud Keyue pasa la evaluación del Instituto de Tecnología de las Telecomunicaciones de China sobre "Servicio de atención al cliente inteligente basado en modelos grandes"

Geekbench lanza herramienta de prueba de rendimiento de IA: un nuevo estándar para la evaluación de la capacidad de IA de los dispositivos

OpenAI lanza SWE-bench Verified: Mejora la evaluación de la capacidad de ingeniería de software de la IA

Compass Arena, plataforma de evaluación de modelos grandes, añade una sección de competición para modelos multimodales

百度智能云 lanza la aplicación de entidad inteligente financiera "智金" con funciones de evaluación inteligente de activos

OpenAI revela por primera vez sus estándares de evaluación para AGI: ChatGPT solo está en el primer nivel

Anthropic lanza una herramienta de evaluación de indicaciones para ayudar a los desarrolladores a optimizar la calidad de las indicaciones de forma más rápida y eficiente