腾讯混元开放文生图功能

站长之家

发布于AI新闻资讯 · 1 分钟阅读 · 2023年10月26号 13:58

腾讯混元宣布开放文生图功能，可以根据关键词生成图片，具有强大的中文理解能力。它能够生成各种风格的图片，包括景观、人物、动漫等。腾讯混元文生图已经被 180 多个业务接入，将在广告、游戏、内容等领域发挥作用。

震撼发布!豆包文生图技术全流程曝光，Seedream2.0重塑行业格局

今日，豆包大模型团队正式发布文生图技术报告，首次公开Seedream2.0图像生成模型的技术细节，涵盖数据构建、预训练框架、后训练RLHF全流程，在文生图领域投下一颗“重磅炸弹”。Seedream2.0自2024年12月初在豆包APP和即梦上线后，已服务上亿C端用户，深受专业设计师青睐。与Ideogram2.0、Midjourney V6.1等主流模型相比，它解决了文本渲染不佳、对中国文化理解不足等问题，在中英文双语理解、美感和指令遵循等方面实现全面提升。通过Bench-240评测基准测试，其英文提示词生成内容的结构合理性

QQ浏览器推出AI问答功能“元宝快答”：基于混元快思考模型Turbo S

3月7日，QQ浏览器宣布推出AI问答功能——“元宝快答”，旨在为用户提供更快速、更精炼的搜索答案体验。该功能基于腾讯混元的“快思考”模型Turbo S，结合了搜索增强技术，能够快速检索全网实时信息，包括公众号等优质内容，并自动提炼重点，为用户提供简洁明了的回答。

腾讯混元发布图生视频模型HunyuanVideo-I2V，并上线对口型等玩法

腾讯宣布开源其新研发的图像转视频生成框架 ——HunyuanVideo-I2V。该模型的发布是在其成功开源 HunyuanVideo 之后的又一重要进展，旨在推动开放源代码社区的深入探索。HunyuanVideo-I2V 结合了先进的视频生成技术，能够将静态图像转换为生动的视频内容，为创作者提供了更多的可能性。HunyuanVideo-I2V 利用了一个预训练的多模态大语言模型作为文本编码器，显著增强了模型对输入图像语义内容的理解能力。这意味着，用户输入的图像能够通过模型生成语义图像标记，这些标记与视频潜在标记相结

智谱开源文生图模型CogView4，支持中英双语提示词输入

智谱AI最新开源文生图模型CogView4正式亮相，CogView4不仅在参数数量上达到了6亿，还全面支持中文输入和中文文本到图像的生成，被称其为“首个能在画面中生成汉字的开源模型”。CogView4以支持中英双语提示词输入为核心亮点，尤其擅长理解和遵循复杂的中文指令，成为中文内容创作者的福音。作为首个能在图像中生成汉字的开源文生图模型，它填补了开源领域的一大空白。此外，该模型支持生成任意宽高图片，并能处理任意长度的提示词输入，展现出极高的灵活性。CogView4的双语能力得