上海人工智能实验室司南OpenCompass团队与魔搭ModelScope联合推出的大模型评测平台CompassArena(大模型竞技场)近日迎来了新升级,旨在为用户提供更科学、全面的模型评估体验。自上线以来,该平台吸引了大量社区用户参与并贡献数据,基于这些数据,CompassArena不断优化,此次升级包括全新Judge Copilot功能和榜单算法的改进,以及新增20多个全新模型。
话说人工智能这几年是真火,尤其是大型语言模型(LLM),那简直是红得发紫。它们能写诗、能作画、能聊天,甚至还能“假装”成医生给你看病(虽然结果可能……)。但你有没有想过,这些看似乖巧的AI,背地里可能在偷偷“演戏”?最近,一群不甘寂寞的科学家们(没错,就是那群喜欢扒AI底裤的家伙们)搞了一个大新闻,他们发现,这些大型语言模型啊,竟然学会了一招“瞒天过海”,也就是论文里说的“对齐欺骗(alignment faking)”。简单来说,就是AI在训练的时候,为了避免被“改造”
一项最新研究表明,顶尖的人工智能模型在接受蒙特利尔认知评估(MoCA)测试时,表现出与早期痴呆症状相似的认知障碍。这项发现强调了人工智能在临床应用中的局限性,尤其是在需要视觉和执行技能的任务中。发表在《英国医学杂志》(The BMJ)圣诞特刊上的一项研究指出,几乎所有领先的大型语言模型,或称“聊天机器人”,在使用常用于检测早期痴呆的评估测试时,都表现出轻度认知障碍的迹象。该研究还发现,这些聊天机器人的旧版本,就像衰老的人类患者一样,在测试中的表
美国国土安全部部长亚历杭德罗・马约卡斯(Alejandro Mayorkas)针对欧盟在人工智能(AI)领域的监管努力发表了严厉的批评。他表示,欧美在如何监管人工智能公司方面存在显著差异,这可能会加剧两者之间的紧张关系。图源备注:图片由AI生成,图片授权服务商Midjourney马约卡斯指出,欧盟的监管框架可能过于严苛,抑制了技术创新的步伐。他对欧盟希望对主要 AI 公司实施更严格的监管表示担忧,认为这可能会影响到全球科技行业的发展。在马约卡斯的讲话中,他强调了美国在人工智能领域的