谷歌近日宣布,旗下最新的图像生成模型 ——Imagen3,现已通过 Gemini API 向开发者开放。这个模型不仅具备强大的图像生成能力,还能根据输入的文本提示创造出多种艺术风格的图像,涵盖从超现实主义到动漫角色的广泛范畴。

Imagen3的使用非常简单,开发者只需通过 API 提交文本描述,模型便会迅速生成高质量图像。每张图像的生成成本仅为0.03美元,适合需要批量图像生成的开发者和企业。通过这一合理的定价策略,谷歌旨在降低创意工作的门槛,让更多人能够享受 AI 带来的艺术创作乐趣。

image.png

在生成图像时,Imagen3展现了卓越的能力。无论是细腻的色彩,还是复杂的细节,模型都能精准地实现用户的想法。为了提升用户体验,Imagen3还引入了改进的提示跟踪功能,用户提供的描述越具体,生成的图像越符合预期。例如,描述一只动物的外貌和背景,模型能生成极为贴合的图像,满足用户的创意需求。

此外,Imagen3也考虑到了图像生成的版权和误用问题。每张生成的图像都会附带一个不可见的数字水印,称为 SynthID。这种水印无法被肉眼识别,但可以通过专门的技术进行验证,确保图像是由 AI 生成的,从而有效遏制虚假信息和不当使用的风险。

对于开发者而言,开始使用 Imagen3也非常简单。通过一个简单的 Python 代码示例,用户可以快速与 API 进行交互,生成心仪的图像。随着谷歌计划未来将更多生成模型接入 Gemini API,开发者将能够创建更具互动性的内容,推动创意产品的多样化发展。

谷歌正在积极探索生成式媒体与语言模型的结合,未来的应用场景将更加广泛,开发者能够利用这些技术在内容创作和工具开发上发挥更大的潜力。

文档:https://ai.google.dev/gemini-api/docs/imagen-prompt-guide?hl=zh-cn