今日,豆包大模型团队正式发布文生图技术报告,首次公开Seedream2.0图像生成模型的技术细节,涵盖数据构建、预训练框架、后训练RLHF全流程,在文生图领域投下一颗“重磅炸弹”。Seedream2.0自2024年12月初在豆包APP和即梦上线后,已服务上亿C端用户,深受专业设计师青睐。与Ideogram2.0、Midjourney V6.1等主流模型相比,它解决了文本渲染不佳、对中国文化理解不足等问题,在中英文双语理解、美感和指令遵循等方面实现全面提升。通过Bench-240评测基准测试,其英文提示词生成内容的结构合理性
3月7日,QQ浏览器宣布推出AI问答功能——“元宝快答”,旨在为用户提供更快速、更精炼的搜索答案体验。该功能基于腾讯混元的“快思考”模型Turbo S,结合了搜索增强技术,能够快速检索全网实时信息,包括公众号等优质内容,并自动提炼重点,为用户提供简洁明了的回答。
腾讯宣布开源其新研发的图像转视频生成框架 ——HunyuanVideo-I2V。该模型的发布是在其成功开源 HunyuanVideo 之后的又一重要进展,旨在推动开放源代码社区的深入探索。HunyuanVideo-I2V 结合了先进的视频生成技术,能够将静态图像转换为生动的视频内容,为创作者提供了更多的可能性。HunyuanVideo-I2V 利用了一个预训练的多模态大语言模型作为文本编码器,显著增强了模型对输入图像语义内容的理解能力。这意味着,用户输入的图像能够通过模型生成语义图像标记,这些标记与视频潜在标记相结
智谱AI最新开源文生图模型CogView4正式亮相,CogView4不仅在参数数量上达到了6亿,还全面支持中文输入和中文文本到图像的生成,被称其为“首个能在画面中生成汉字的开源模型”。CogView4以支持中英双语提示词输入为核心亮点,尤其擅长理解和遵循复杂的中文指令,成为中文内容创作者的福音。作为首个能在图像中生成汉字的开源文生图模型,它填补了开源领域的一大空白。此外,该模型支持生成任意宽高图片,并能处理任意长度的提示词输入,展现出极高的灵活性。CogView4的双语能力得