据媒体报道,微软亚洲研究院前首席研究经理谭旭已于8月加入大模型创业公司月之暗面,主要负责研发端到端语音模型。谭旭加入后,其中一项重要目标是为该公司打造类似GPT-4o的语音体验。
月之暗面方面暂无回应,但内部知情人士已确认谭旭已入职公司,目前尚未确定具体的职级信息。
公开资料显示,谭旭研究领域为深度学习、语言/语音/音乐处理以及AI内容生成,在AI学术会议发表论文100余篇,出版学术专著《神经语音合成》。他的研究成果受到学界关注并应用于微软重要产品中,如Azure、Bing等。
据媒体报道,微软亚洲研究院前首席研究经理谭旭已于8月加入大模型创业公司月之暗面,主要负责研发端到端语音模型。谭旭加入后,其中一项重要目标是为该公司打造类似GPT-4o的语音体验。
月之暗面方面暂无回应,但内部知情人士已确认谭旭已入职公司,目前尚未确定具体的职级信息。
公开资料显示,谭旭研究领域为深度学习、语言/语音/音乐处理以及AI内容生成,在AI学术会议发表论文100余篇,出版学术专著《神经语音合成》。他的研究成果受到学界关注并应用于微软重要产品中,如Azure、Bing等。
阿里云百炼大模型服务平台最近推出了“音视频实时互动”功能,使用户能够轻松搭建多模态AI应用,无需编程知识。这一新功能使得用户可以快速将AI模型集成到Web、iOS和Android应用中,并与他人分享。用户可以通过简单的步骤来搭建智能体应用:首先新建智能体应用,然后在阿里云百炼平台上选择并配置所需的文本、语音或视觉理解大模型。平台提供了200多种大模型,包括具备强大视觉智能体能力的阿里云Qwen2-VL大模型。接下来,用户需要编写提示词,设置音视频API-KEY,并发布自己的专属AI应用。
在人工智能领域竞争日益激烈的背景下,谷歌近日宣布推出 Gemini2.0 Flash Thinking模型。这一多模态推理模型具备快速且透明的处理能力,能够应对复杂问题。谷歌首席执行官桑达尔・皮查伊在社交媒体 X 上表示:“这是我们迄今为止最具深度的模型。” 根据开发者文档,Gemini2的Flash Thinking比基础版本的 Gemini2.0Flash模型具备更强的推理能力。新模型支持32,000个输入标记(大约50到60页文本),输出响应可以达到8,000个标记。谷歌在其 AI 工作室的侧边面板中表示,这一模型特别适用于 “多模态
昨日,闪极科技宣布推出国内首款量产AI拍摄眼镜——闪极AI拍拍镜,这款AI拍拍镜的售价为1499元,而首批5万台共创版的价格更是优惠至999元,并且提供了300天打卡200天返全款的促销活动。闪极AI拍拍镜在业内首次搭载了索尼1600万像素、123度超广角装置摄像头模组,并配备了紫光展锐旗舰级低功耗ARM平台。这款眼镜还拥有6500mAh增程环,支持HI-FI级耳边音箱,具备头部相机、智能助手、录音笔、AI云盘、AI闪记等多种功能。
国家电网有限公司近日宣布推出我国电力行业的首个千亿级人工智能大模型——光明电力大模型,并与百度集团、阿里巴巴集团签署了战略合作框架协议。官方表示,将与签约各方共同建设光明电力大模型,推动能源电力科技创新与产业创新的融合发展。