Noticias de IA

No te pierdas ningún momento de la innovación global en IA

IA Diario

Tendencias diarias de la industria de la IA en tres minutos

Cronología de la IA

Hitos de la industria de la IA

Al hardware

lista todos los productos de hardware AI.

Guía de Monetización de la IA

Últimos Casos

Compartiendo casos de monetización de IA

Colección de Imágenes

Casos de monetización de creación de imágenes con IA

Colección de Videos

Casos de monetización de creación de videos con IA

Colección de Audio

Casos de monetización de creación de audio con IA

Colección de Contenido

Casos de monetización de redacción de contenido con IA

Tutoriales de IA

Últimos Tutoriales

Compartiendo gratuitamente los últimos tutoriales de IA

Rankings de Productos de IA

Ranking de Productos de IA

Muestra el ranking de visitas totales de sitios web de IA

Ranking de Crecimiento de Tráfico de IA

Rastrea los sitios web de IA de más rápido crecimiento por tráfico

Ranking de Descenso de Tráfico de IA

Se centra en los sitios web de IA con descensos de tráfico significativos

Ranking Semanal de IA

Muestra el ranking semanal de visitas de sitios web de IA

Rankings de Países Populares

Estados Unidos

Sitios web de IA más populares entre los usuarios estadounidenses

China

Sitios web de IA más populares entre los usuarios chinos

India

Sitios web de IA más populares entre los usuarios indios

Brasil

Sitios web de IA más populares entre los usuarios brasileños

Rankings de Categorías Populares

Generación de Imágenes

Ranking total de visitas de sitios web de generación de imágenes con IA

Asistente Personal

Ranking total de visitas de sitios web de asistentes personales con IA

Generación de Personajes

Ranking total de visitas de sitios web de generación de personajes con IA

Generación de Videos

Ranking total de visitas de sitios web de generación de videos con IA

Rankings de Datos de Código Abierto Populares

Ranking de Proyectos de IA

Proyectos de IA populares en GitHub por estrellas totales

Ranking de Crecimiento de Proyectos de IA

Proyectos de IA populares en GitHub por tasa de crecimiento

Ranking de Desarrolladores de IA

Ranking de desarrolladores de IA populares en GitHub

Ranking de Organizaciones de IA

Ranking de organizaciones de IA populares en GitHub

Categorías de Código Abierto Populares

Deepseek

Proyectos de código abierto de Deepseek populares en GitHub

TTS

Proyectos de código abierto de TTS populares en GitHub

LLM

Proyectos de código abierto de LLM populares en GitHub

ChatGPT

Proyectos de código abierto de ChatGPT populares en GitHub

Biblioteca de Proyectos de Código Abierto de IA

Visión General

Visión general de los proyectos de código abierto de IA populares en GitHub

Biblioteca de productos Navegación de herramientas

Anthropic lanza un nuevo programa para financiar el desarrollo de pruebas comparativas de IA de próxima generación

AIbase

Publicado elNoticias de IA · 7 minutos de lectura · Jul 2, 2024

Anthropic ha lanzado un programa para financiar el desarrollo de nuevos tipos de pruebas de referencia para evaluar el rendimiento y el impacto de los modelos de IA, incluidos los modelos generativos como su propio Claude.

Anthropic anunció este programa el lunes, y proporcionará financiación a organizaciones externas que puedan "medir eficazmente las capacidades avanzadas de los modelos de IA", según explicó la empresa en una entrada de blog. Los interesados pueden presentar sus solicitudes, que se evaluarán de forma continua.

Claude2, Anthropic, inteligencia artificial, chatbot

“Nuestra inversión en estas evaluaciones tiene como objetivo mejorar todo el campo de la seguridad de la IA, proporcionando herramientas valiosas que beneficien a todo el ecosistema”, escribió Anthropic en su blog oficial. “El desarrollo de evaluaciones de alta calidad relacionadas con la seguridad sigue siendo un desafío, y la demanda supera la oferta.”

Como hemos destacado anteriormente, existe un problema con las pruebas de referencia de la IA. Las pruebas de referencia más citadas hoy en día a menudo no reflejan la forma en que una persona promedio utiliza realmente el sistema que se está probando. Además, algunas pruebas de referencia, especialmente las publicadas antes del auge de la IA generativa moderna, pueden no medir lo que afirman medir debido a su antigüedad.

La solución propuesta por Anthropic, de alto nivel y aparentemente compleja, consiste en crear pruebas de referencia desafiantes mediante nuevas herramientas, infraestructura y métodos, centrándose en la seguridad y el impacto social de la IA.

La empresa solicita específicamente pruebas que evalúen la capacidad de los modelos para realizar tareas como llevar a cabo ciberataques, "mejorar" armas de destrucción masiva (como armas nucleares) y manipular o engañar a las personas (por ejemplo, mediante deepfakes o desinformación). En cuanto a los riesgos de la IA relacionados con la seguridad nacional y la defensa, Anthropic afirma que está comprometida con el desarrollo de un "sistema de alerta temprana" para identificar y evaluar los riesgos, aunque no se revela en la entrada del blog qué podría incluir dicho sistema.

Anthropic también afirma que pretende apoyar, a través del nuevo programa, la investigación de pruebas de referencia y tareas "de extremo a extremo", explorando el potencial de la IA en la investigación científica, la comunicación multilingüe y la reducción de sesgos arraigados y la toxicidad de la autocensura.

Para lograr este objetivo, Anthropic prevé nuevas plataformas que permitan a los expertos en la materia desarrollar sus propias evaluaciones e involucrar pruebas a gran escala de modelos con "miles" de usuarios. La empresa afirma haber contratado a un coordinador a tiempo completo para el programa y que posiblemente adquiera o amplíe proyectos con potencial.

Los esfuerzos de Anthropic para apoyar nuevas pruebas de referencia de IA son encomiables, siempre que, por supuesto, haya suficiente financiación y personal. Sin embargo, teniendo en cuenta las ambiciones comerciales de la empresa en la carrera de la IA, confiar plenamente en ella puede ser difícil.

Anthropic también afirma que espera que su programa sea "un catalizador para el progreso, para lograr un futuro en el que la evaluación integral de la IA se convierta en un estándar de la industria". Esta es una misión con la que muchos esfuerzos abiertos e independientes de la empresa pueden estar de acuerdo. Sin embargo, queda por ver si estos esfuerzos estarán dispuestos a colaborar con un proveedor de IA cuya lealtad reside en última instancia en sus accionistas.

Puntos clave:
- 📌Anthropic lanza un programa para financiar nuevos tipos de pruebas de referencia para evaluar el rendimiento y el impacto de los modelos de IA.
- 📌El programa tiene como objetivo crear pruebas de referencia desafiantes que se centren en la seguridad y el impacto social de la IA.
- 📌Anthropic espera que su programa sea "un catalizador para el progreso, para lograr un futuro en el que la evaluación integral de la IA se convierta en un estándar de la industria."

Evaluación de modelos de IA Anthropic Claude Prueba básica

Este artículo proviene de AIbase Daily

¡Bienvenido a la columna [AI Diario]! Aquí está tu guía diaria para explorar el mundo de la inteligencia artificial. Todos los días te presentamos el contenido más destacado en el campo de la IA, centrándonos en los desarrolladores para ayudarte a comprender las tendencias tecnológicas y conocer las aplicaciones innovadoras de productos de IA.

—— Creado por el grupo AIbase Daily

Noticias de IA relacionadas recomendadas

Claude 3.5 revoluciona el mundo de los LLM: cada aplicación es más alucinante que GPT-4

La llegada de Claude 3.5 Sonnet+Artifacts ha supuesto, sin duda, un tsunami en el campo de la inteligencia artificial, reescribiendo por completo el guion del desarrollo de los modelos lingüísticos grandes (LLM). Esta tecnología ha demostrado un potencial inmenso aún por explotar, mostrando que la humanidad apenas ha arañado la superficie, con un nivel de desarrollo inferior al 1%.

Jun 27, 2024

3.4k