Aibase logo

搜索全球AI产品动态

  • 新闻资讯
  • 产品应用
  • 变现案例
  • AI教程
2025-02-20 09:14:14.AIbase

​AI大语言模型幻觉排行榜:Gemini 2.0 Flash幻觉最低

2025-02-18 16:55:26.AIbase

​OpenAI 推出 SWE-Lancer 基准测试:评估真实世界自由软件工程工作的模型性能

2025-01-16 10:42:26.AIbase

阿里巴巴Qwen 团队发布新型过程奖励模型,数学推理再进化

2024-12-26 09:58:14.AIbase

人工智能解说足球赛:可以识别犯规、评估严重程度并对进行评论

2024-12-19 14:07:19.AIbase

AI并非万能:最新研究揭示顶尖AI模型出现类似早期痴呆的认知障碍

2024-12-19 09:21:18.AIbase

谷歌Gemini正在迫使外包人员评估专业领域外的 AI 响应

2024-12-15 10:23:35.AIbase

阿里推新 AI 基准测试 “PROCESSBENCH”,评估数学推理中的错误识别能力

2024-12-05 14:45:53.AIbase

字节开源全新代码大模型评估基准“FullStack Bench”

2024-09-30 14:08:02.AIbase

智源研究院推出全球首个中文大模型辩论平台FlagEval Debate

2024-09-29 15:33:05.AIbase

​Salesforce AI 推全新大语言模型评估家族SFR-Judge 基于Llama3构建

2024-09-10 11:03:27.AIbase

AI 评估不再难!Hugging Face 推出 LightEval,让你轻松掌控模型表现!

2024-08-16 14:03:40.AIbase

​Geekbench 推出新AI基准测试,评估设备处理AI任务的性能

2024-08-16 09:50:38.AIbase

Geekbench推出AI性能测试工具:设备AI能力评估迎来新标准

2024-08-15 14:53:25.AIbase

OpenAI推出SWE-bench Verified:提升AI软件工程能力评估

2024-08-09 09:16:52.AIbase

OpenAI 表示其最新的 GPT-4o 模型风险评级为“中等”

2024-08-07 14:14:43.AIbase

Meta推“自学评估器”: 无需人工注释NLP模型评估,优于 GPT-4 等常用的LLM

2024-07-18 09:09:48.AIbase

蚂蚁集团联合新京报发布大模型产品“贝壳财经·智引ESG”

2024-07-12 11:10:22.AIbase

OpenAI首次披露AGI评估标准:ChatGPT仅为第一级

2024-07-10 08:39:22.AIbase

Anthropic推出提示词评估工具 帮助开发者更快、更高效地优化提示词质量

2024-07-02 09:07:20.AIbase

Anthropic启动计划资助人工智能评估基准开发