图源备注:图片由AI生成,图片授权服务商Midjourney
《纽约时报》批准员工使用 AI 工具,但版权之争仍在继续

图源备注:图片由AI生成,图片授权服务商Midjourney
在人工智能领域,语言模型的快速发展引发了语音理解语言模型(SULMs)的广泛关注。近日,西北工业大学 ASLP 实验室发布了开放语音理解模型 OSUM,旨在探索在学术资源有限的情况下,如何有效训练和利用语音理解模型,以推动学术界的研究与创新。OSUM 模型融合了 Whisper 编码器与 Qwen2语言模型,支持8种语音任务,包括语音识别(ASR)、带时间戳的语音识别(SRWT)、语音事件检测(VED)、语音情感识别(SER)、说话风格识别(SSR)、说话人性别分类(SGC)、说话人年龄预测(SAP)及语音转文本聊天(STTC)。
在近期于班加罗尔举办的 “投资卡纳塔克2025” 会议上,众多科技行业的领导者聚集一堂,探讨人工智能在印度的变革潜力及其影响。谷歌DeepMind的高级董事马尼什・古普塔(Manish Gupta)在会上发表了重要讲话,强调在推动技术创新的同时,应建立相应的规章制度,以确保负责任的发展。图源备注:图片由AI生成,图片授权服务商Midjourney古普塔指出,随着印度在构建基础性人工智能模型方面取得显著进展,大家都在关注人工智能对就业市场的影响。他表示,科技行业的责任在于开发可以增
在工业自动化和智能制造日益受到重视的今天初创公司Augury宣布成功融资7500万美元,估值超过10亿美元。这一融资将用于吸引新客户并进一步研发其核心技术。Augury专注于利用人工智能监测机器运行状态,通过测量振动、声音和温度等多个因素,及时识别设备的故障及维修需求。Augury自成立以来,已经监测了超过五亿小时的机器操作,覆盖了多种设备制造商和处理工艺。其创始人兼首席执行官萨尔・约斯科维茨(Saar Yoskovitz)在接受采访时表示:“我们拥有迄今为止最大的数据集,能准确描
近日,谷歌宣布推出一款全新的视觉 - 语言模型(Vision-Language Model, VLM),名为 PaliGemma2Mix。这款模型融合了图像处理与自然语言处理的能力,能够同时理解视觉信息和文本输入,并根据需求生成相应的输出,标志着人工智能技术在多任务处理方面的进一步突破。PaliGemma2Mix 的功能非常强大,它集成了图像描述、光学字符识别(OCR)、图像问答、目标检测和图像分割等多种视觉 - 语言任务,适用于多种应用场景。开发者可以通过预训练检查点(checkpoints)直接使用这款模型,或根据自己的需求