तिआनजिन यूनिवर्सिटी और अन्य टीमों ने पहले AI एजेंट प्रणालीगत मानक परीक्षण AgentBench को जारी किया, जिसने 25 विभिन्न भाषा मॉडलों का व्यापक मूल्यांकन किया। शोध परिणामों से पता चला है कि GPT-4 जटिल वातावरण में उत्कृष्ट प्रदर्शन करता है, जबकि शीर्ष व्यावसायिक भाषा मॉडलों में ओपन-सोर्स मॉडलों की तुलना में महत्वपूर्ण लाभ है। शोध टीम ने ओपन-सोर्स मॉडलों की सीखने की क्षमता को और बढ़ाने की सिफारिश की।