2024-09-30 14:08:02.AIbase.
智源研究院推出全球首个中文大模型辩论平台FlagEval Debate
2024-09-29 15:33:05.AIbase.
Salesforce AI 推全新大语言模型评估家族SFR-Judge 基于Llama3构建
2024-09-10 11:03:27.AIbase.
AI 评估不再难!Hugging Face 推出 LightEval,让你轻松掌控模型表现!
2024-08-16 14:03:40.AIbase.
Geekbench 推出新AI基准测试,评估设备处理AI任务的性能
2024-08-16 09:50:38.AIbase.
Geekbench推出AI性能测试工具:设备AI能力评估迎来新标准
2024-08-15 14:53:25.AIbase.
OpenAI推出SWE-bench Verified:提升AI软件工程能力评估
2024-08-09 09:16:52.AIbase.
OpenAI 表示其最新的 GPT-4o 模型风险评级为“中等”
2024-08-07 14:14:43.AIbase.
Meta推“自学评估器”: 无需人工注释NLP模型评估,优于 GPT-4 等常用的LLM
2024-07-18 09:09:48.AIbase.
蚂蚁集团联合新京报发布大模型产品“贝壳财经·智引ESG”
2024-07-12 11:10:22.AIbase.
OpenAI首次披露AGI评估标准:ChatGPT仅为第一级
2024-07-10 08:39:22.AIbase.
Anthropic推出提示词评估工具 帮助开发者更快、更高效地优化提示词质量
2024-07-02 09:07:20.AIbase.
Anthropic启动计划资助人工智能评估基准开发
2024-06-27 09:28:40.AIbase.
Hugging Face更新排行榜评估规则,AI评估进入新阶段
2024-03-07 03:52:56.AIbase.
人工智能模型评估公司指出GPT-4侵权问题严重 微软工程师担忧图像生成功能
2024-01-04 17:01:43.AIbase.
科学家称AI存在5%的概率导致人类灭绝
2023-12-12 14:30:58.AIbase.
智谱 AI 发布 CritiqueLLM 评分模型,可评估文本生成模型性能
2023-11-30 09:52:30.AIbase.
亚马逊AWS推出人类基准测试团队,改进人工智能模型评估
2023-11-02 10:51:40.AIbase.
美国政府拟出台新规定,要求对使用人工智能的算法进行评估和监管
2023-11-01 11:01:01.AIbase.
研究称人工智能评估某些癌症准确度高于活检
2023-09-18 10:57:43.AIbase.