Berkeley Function-Calling Leaderboard

评估大型语言模型调用函数能力的排行榜

普通产品编程AI评估编程

Berkeley Function-Calling Leaderboard（伯克利函数调用排行榜）是一个专门用来评估大型语言模型（LLMs）准确调用函数（或工具）能力的在线平台。该排行榜基于真实世界数据，定期更新，提供了一个衡量和比较不同模型在特定编程任务上表现的基准。它对于开发者、研究人员以及对AI编程能力有兴趣的用户来说是一个宝贵的资源。

Best AI Websites & Tools

Berkeley Function-Calling Leaderboard

Berkeley Function-Calling Leaderboard 替代品

CodeOrbital — 一个在线代码编辑器，支持多种编程语言，提供代码片段分享和Web开发功能。

The Ultra-Scale Playbook — 一个专注于超大规模系统设计和优化的工具，提供高效解决方案。

Kie.ai — 在Kie.ai上集成DeepSeek R1和V3 API，提供安全且可扩展的AI解决方案。

Nia — Nia 是一款协作式 AI 开发工具，帮助开发者理解代码库、构建自定义应用并优化工作流程。

Grok 3 — xAI推出的最新旗舰AI模型Grok 3，具备强大的推理和多模态处理能力。

SWE-Lancer — SWE-Lancer 是一个包含 1400 多个自由软件工程任务的基准测试，总价值 100 万美元。

小艺 — 小艺是华为推出的智能助手，提供聊天、写作、编程等多种AI服务。

OmniParser V2 — OmniParser V2 是一种将任何 LLM 转化为计算机使用代理的技术。

cursor-tools — 为 Cursor Agent 提供 AI 团队和高级技能，增强代码开发和自动化能力。

CheapUI — AI驱动的网站组件生成器，快速生成高质量的UI组件，助力高效开发。

WebDev Arena — 一个AI驱动的网站开发竞技平台，用户可以挑战构建最佳网站。

Gemini 2.0 Family — Gemini 2.0 是谷歌推出的最新一代生成式 AI 模型，包含 Flash、Flash-Lite 和 Pro 版本。

Gemini 2.0 Pro — Gemini Pro 是 Google DeepMind 推出的高性能 AI 模型，专注于复杂任务处理和编程性能。

DeepSeek提示库 — DeepSeek提示库提供多种提示词样例，帮助用户快速实现代码生成、内容分析、文案创作等功能。

rag-chat-component — 一个为RAG（检索增强生成）AI助手设计的React组件，可快速集成到Next.js应用中。

OpenAI o3-mini — OpenAI o3-mini 是 OpenAI 推出的最新高性价比推理模型，专为 STEM 领域优化。

Junie — JetBrains推出的编程辅助工具，帮助开发者更高效地完成代码任务。

Stagehand.dev — Stagehand 是一个 AI 网页浏览框架，可将 Playwright 扩展为自然语言自动化浏览器。

DeepSeek-Manim-Animation-Generator — 一个基于DeepSeek API的Manim动画生成工具，用于快速创建数学和科学动画。

Monokai Pro — 为专业开发者设计的代码编辑器主题，提供美观且功能强大的配色方案。

DeepSeek-R1-Zero — DeepSeek-R1-Zero 是一款通过大规模强化学习训练的推理模型，无需监督微调即可实现卓越推理能力。

Momodel.cn — 在线学习Python、AI、大模型、AI写作绘画课程，零基础轻松入门。

Trae — Trae 是一款适应性 AI IDE，通过与开发者协作提升工作效率。

RLLoggingBoard — 一个用于强化学习人类反馈训练过程可视化的工具，帮助深度理解与调试。

Smolagents.org — HuggingFace的全新AI代理框架，助力开发者轻松创建强大AI代理。

openai-realtime-api-nextjs — 基于WebRTC的语音AI流应用，使用OpenAI实时API和WebRTC开发。

DeepSeek APP — AI智能对话助手，搜索写作阅读解题翻译工具。

Llama-3-Patronus-Lynx-70B-Instruct — 一个用于检测幻觉的开源评估模型，基于Llama-3架构，拥有700亿参数。

Bakery — 一个开源AI模型微调与变现平台，助力AI初创企业、机器学习工程师和研究人员。