AI新闻和产品搜索页

类型 :

新闻资讯
产品应用
变现案例
AI教程

2025-02-20 09:14:14.AIbase

搜索全球AI产品动态

搜索全球AI信息，发现AI新机遇

AI大语言模型幻觉排行榜：Gemini 2.0 Flash幻觉最低

OpenAI 推出 SWE-Lancer 基准测试:评估真实世界自由软件工程工作的模型性能

阿里巴巴Qwen 团队发布新型过程奖励模型，数学推理再进化

人工智能解说足球赛：可以识别犯规、评估严重程度并对进行评论

AI并非万能：最新研究揭示顶尖AI模型出现类似早期痴呆的认知障碍

谷歌Gemini正在迫使外包人员评估专业领域外的 AI 响应

阿里推新 AI 基准测试 “PROCESSBENCH”，评估数学推理中的错误识别能力

字节开源全新代码大模型评估基准“FullStack Bench”

智源研究院推出全球首个中文大模型辩论平台FlagEval Debate

Salesforce AI 推全新大语言模型评估家族SFR-Judge 基于Llama3构建

AI 评估不再难！Hugging Face 推出 LightEval，让你轻松掌控模型表现！

Geekbench 推出新AI基准测试，评估设备处理AI任务的性能

Geekbench推出AI性能测试工具：设备AI能力评估迎来新标准

OpenAI推出SWE-bench Verified:提升AI软件工程能力评估

OpenAI 表示其最新的 GPT-4o 模型风险评级为“中等”

Meta推“自学评估器”: 无需人工注释NLP模型评估，优于 GPT-4 等常用的LLM

蚂蚁集团联合新京报发布大模型产品“贝壳财经·智引ESG”

OpenAI首次披露AGI评估标准：ChatGPT仅为第一级

Anthropic推出提示词评估工具帮助开发者更快、更高效地优化提示词质量

Anthropic启动计划资助人工智能评估基准开发

搜索全球AI产品动态

搜索全球AI信息，发现AI新机遇

​AI大语言模型幻觉排行榜：Gemini 2.0 Flash幻觉最低

​OpenAI 推出 SWE-Lancer 基准测试:评估真实世界自由软件工程工作的模型性能

阿里巴巴Qwen 团队发布新型过程奖励模型，数学推理再进化

人工智能解说足球赛：可以识别犯规、评估严重程度并对进行评论

AI并非万能：最新研究揭示顶尖AI模型出现类似早期痴呆的认知障碍

谷歌Gemini正在迫使外包人员评估专业领域外的 AI 响应

阿里推新 AI 基准测试 “PROCESSBENCH”，评估数学推理中的错误识别能力

字节开源全新代码大模型评估基准“FullStack Bench”

智源研究院推出全球首个中文大模型辩论平台FlagEval Debate

​Salesforce AI 推全新大语言模型评估家族SFR-Judge 基于Llama3构建

AI 评估不再难！Hugging Face 推出 LightEval，让你轻松掌控模型表现！

​Geekbench 推出新AI基准测试，评估设备处理AI任务的性能

Geekbench推出AI性能测试工具：设备AI能力评估迎来新标准

OpenAI推出SWE-bench Verified:提升AI软件工程能力评估

OpenAI 表示其最新的 GPT-4o 模型风险评级为“中等”

Meta推“自学评估器”: 无需人工注释NLP模型评估，优于 GPT-4 等常用的LLM

蚂蚁集团联合新京报发布大模型产品“贝壳财经·智引ESG”

OpenAI首次披露AGI评估标准：ChatGPT仅为第一级

Anthropic推出提示词评估工具 帮助开发者更快、更高效地优化提示词质量

Anthropic启动计划资助人工智能评估基准开发

AI大语言模型幻觉排行榜：Gemini 2.0 Flash幻觉最低

OpenAI 推出 SWE-Lancer 基准测试:评估真实世界自由软件工程工作的模型性能

Salesforce AI 推全新大语言模型评估家族SFR-Judge 基于Llama3构建

Geekbench 推出新AI基准测试，评估设备处理AI任务的性能

Anthropic推出提示词评估工具帮助开发者更快、更高效地优化提示词质量