谷歌Gemini 2.0版正式发布：2.0 Flash现已支持多模态输出

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2024年12月12号 8:19

277

谷歌公司及其母公司Alphabet的首席执行官桑达尔·皮查伊宣布，公司推出了最新人工智能模型——Gemini2.0，这标志着谷歌在构建通用AI助理领域迈出了重要一步。Gemini2.0在多模态输入处理和原生工具使用方面展现了显著进步，使得AI代理能够更深入地理解周围世界，并在用户监督下代表用户采取行动。

Gemini2.0基于其前身Gemini1.0和1.5开发，后者首次实现了原生多模态处理能力，能够理解包括文本、视频、图像、音频和代码在内的多种信息类型。目前，已有数百万开发者使用Gemini进行开发，推动谷歌重新构想其产品，包括服务20亿用户的7款产品，并创造新产品。NotebookLM便是多模态和长上下文能力的一个例证，受到了广泛喜爱。

微信截图_20241212080452.png

Gemini2.0的推出预示着谷歌进入了一个新的代理时代，该模型具备原生图像和音频输出能力，以及原生工具使用能力。谷歌已经开始将Gemini2.0提供给开发者和受信任的测试者，并计划快速将其整合到产品中，首先是Gemini和搜索。从即日起，Gemini2.0Flash实验模型将向所有Gemini用户开放。同时，谷歌还推出了名为Deep Research的新功能，它使用先进的推理和长上下文能力，充当研究助理，代表用户探索复杂主题并编制报告。该功能目前已在Gemini Advanced中提供。

搜索作为受AI影响最大的产品之一，谷歌的AI概览现已覆盖10亿人，使他们能够提出全新的问题，迅速成为谷歌最受欢迎的搜索功能之一。作为下一步，谷歌将把Gemini2.0的先进推理能力带入AI概览，以解决更复杂的主题和多步骤问题，包括高级数学方程、多模态查询和编码。本周已开始限量测试，并计划在明年初更广泛地推出。谷歌还将继续在未来一年将AI概览带到更多国家和语言。

谷歌还通过Gemini2.0的原生多模态能力展示了其代理研究的前沿成果。Gemini2.0Flash在1.5Flash的基础上进行了改进，1.5Flash是迄今为止最受开发者欢迎的模型，具有类似的快速响应时间。值得注意的是，2.0Flash甚至在关键基准测试中以两倍的速度超越了1.5Pro。2.0Flash还带来了新的能力。除了支持图像、视频和音频等多模态输入外，2.0Flash现在还支持多模态输出，如与文本混合的原生生成图像和可控制的多语言文本转语音（TTS）音频。它还可以原生调用工具，如谷歌搜索、代码执行以及第三方用户定义函数。

微信截图_20241212080808.png

Gemini2.0Flash现在作为实验模型向开发者提供，通过谷歌AI Studio和Vertex AI的Gemini API，所有开发者都可以使用多模态输入和文本输出，而文本转语音和原生图像生成则提供给早期访问合作伙伴。普通可用性将在1月份跟进，同时还会推出更多模型尺寸。

为了帮助开发者构建动态和交互式应用，谷歌还发布了一个新的多模态实时API，该API具有实时音频、视频流输入能力，并能够使用多个组合工具。

从今天开始，全球的Gemini用户可以通过在桌面和移动网页上的模型下拉菜单中选择它来访问2.0Flash实验的聊天优化版本，它将很快在Gemini移动应用中提供。明年初，谷歌将把Gemini2.0扩展到更多的谷歌产品。

Veo 2震撼登场！Freepik携手谷歌全球首发AI视频新体验

全球知名创意资源平台Freepik宣布与科技巨头谷歌合作，率先在全球范围内推出最新一代AI视频模型——Veo 2。这一重磅消息迅速引发了广泛关注，不少用户纷纷表示，这可能是目前最先进的AI视频生成工具。据介绍，Veo2 由谷歌DeepMind团队研发，是其前代模型Veo的全面升级版。它不仅能生成高达4K分辨率的视频，还能实现长达数分钟的画面内容。更令人惊叹的是，Veo2 在真实感和动画流畅性上达到了新的高度。无论是模拟真实世界的物理效果，还是呈现细腻的人物动作和表情，这款工具都能做

谷歌DeepMind高管：AI 应助力人类能力，而非取代

在近期于班加罗尔举办的 “投资卡纳塔克2025” 会议上，众多科技行业的领导者聚集一堂，探讨人工智能在印度的变革潜力及其影响。谷歌DeepMind的高级董事马尼什・古普塔（Manish Gupta）在会上发表了重要讲话，强调在推动技术创新的同时，应建立相应的规章制度，以确保负责任的发展。图源备注：图片由AI生成，图片授权服务商Midjourney古普塔指出，随着印度在构建基础性人工智能模型方面取得显著进展，大家都在关注人工智能对就业市场的影响。他表示，科技行业的责任在于开发可以增

谷歌发布AI科研助手:Gemini2.0驱动的虚拟科学家

谷歌日前正式宣布推出基于Gemini2.0的AI科研助手系统——AI co-scientist，旨在为科学家提供虚拟协作，从而生成新颖的研究假设和建议。这套系统不仅具备常规的文献审查和总结功能，更突破性地加入了原创知识发掘能力。AI co-scientist能够模拟科学方法的推理过程，根据已有证据和具体研究目标，为科研人员提供新颖的研究假设和建议方案。在实际应用方面，AI共同科学家已在三个关键生物医学领域取得了显着的成果。首先，在急性髓系白血病的药物再利用研究中，AI系统提出了新型药物候选

谷歌发布全新视觉语言模型 PaliGemma 2 Mix 集成多种功能助力开发者

近日，谷歌宣布推出一款全新的视觉 - 语言模型（Vision-Language Model， VLM），名为 PaliGemma2Mix。这款模型融合了图像处理与自然语言处理的能力，能够同时理解视觉信息和文本输入，并根据需求生成相应的输出，标志着人工智能技术在多任务处理方面的进一步突破。PaliGemma2Mix 的功能非常强大，它集成了图像描述、光学字符识别（OCR）、图像问答、目标检测和图像分割等多种视觉 - 语言任务，适用于多种应用场景。开发者可以通过预训练检查点(checkpoints)直接使用这款模型，或根据自己的需求

AI新闻资讯