ComfyGen：AI驱动的智能图像工作流生成器

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2024年10月14号 17:06

230

近日，来自Nvidia和特拉维夫大学的研究人员推出了一款名为ComfyGen的创新AI工具，为图像生成领域带来了新的突破。ComfyGen能够基于简单的文本提示自动生成复杂的图像工作流程，极大地简化了高质量图像生成的过程。

ComfyGen的核心优势在于其多步骤工作流程approach。不同于传统的单一模型文本转图像方法，ComfyGen能够智能地选择合适的模型、制定精确的提示，并结合其他工具（如图像放大器）来实现最佳效果。这种approach模仿了经验丰富的提示工程师的工作方式，能够根据不同的文本内容和所需图像风格灵活调整生成策略。

该工具利用先进的语言模型（如Claude3.5Sonnet）来理解用户的文本提示，并自动生成相应的工作流程。研究人员采用了两种方法来实现这一功能:

上下文学习:利用现有语言模型，通过提供不同提示类别及其平均得分的工作流程表，帮助模型为新的提示选择最合适的工作流程。

微调:对语言模型（如Llama-3.1-8B和-70B）进行特定训练，使其能够根据给定的提示和目标分数预测合适的工作流程。

在与传统单一模型（如Stable Diffusion XL）和固定工作流程的比较中，ComfyGen在自动评分和用户研究中均表现出色。研究显示，ComfyGen生成的工作流程能够很好地匹配提示类别，例如在处理"人物"类提示时更倾向于选择面部放大模型，而在处理"动漫"类提示时则更多使用解剖学正确模型。

ComfyGen的另一个优势是其适应性强。它建立在现有工作流程和社区创建的评分模型之上，能够快速适应新的技术发展。然而，这也带来了一定的局限性，即目前系统主要依赖于已知的训练数据进行选择，可能限制了生成工作流程的多样性和原创性。

展望未来，研究团队计划进一步发展ComfyGen，使其能够生成全新的工作流程，并将应用范围扩展到图像到图像的任务中。他们还提出了将这一approach与基于代理的方法结合的想法，通过用户对话来迭代优化工作流程，这可能成为未来研究的一个新方向。

ComfyGen的出现为AI图像生成领域带来了新的可能性:

降低入门门槛:通过自动化复杂的工作流程，ComfyGen可以帮助初学者更容易地生成高质量图像。

提高效率:对于专业用户来说，ComfyGen可以大大减少手动调整工作流程的时间，提高工作效率。

个性化输出:通过智能选择模型和参数，ComfyGen能够根据不同的需求生成更加个性化的图像。

推动技术创新:ComfyGen的approach可能激发更多在AI图像生成领域的创新，促进更智能、更灵活的工具开发。

跨领域应用:这种智能工作流生成的concept可能被应用到其他领域，如音频处理、视频编辑等。

虽然目前ComfyGen的代码和演示还未公开发布，但其潜力已经引起了业界的广泛关注。随着这项技术的进一步发展和完善，我们可以期待看到更多基于AI的智能创作工具涌现，为创意产业带来新的变革和机遇。

新一代生物AI模型Evo 2揭开基因密码，助力疾病研究

近日，由 Arc Institute 和 Nvidia 联合开发的 Evo2生物 AI 模型正式发布。这一基础模型基于超过10万种生物的 DNA 数据，旨在深度解码生物学中的各种复杂现象。Evo2能够在不同生物体的基因序列中识别出研究者们需要花费多年时间才能发现的模式，极大提升了疾病相关突变的识别能力，并可以设计出与简单细菌相当的全新基因组。Evo2的训练涉及超过93万亿个核苷酸的处理，远超其前身 Evo1。其开发团队来自 Nvidia 和位于加州帕洛阿尔托的非营利生物医学研究机构 Arc Institute，还与斯坦福大学、加州

OpenAI最新基准测试:AI编程能力达人类四分之一，显现局限性

OpenAI近日发布了一项重要的AI编程能力评估报告，通过价值100万美元的实际开发项目揭示了AI在软件开发领域的现状。这项名为SWE-Lancer的基准测试涵盖了1，400个来自Upwork的真实项目，全面评估AI在直接开发和项目管理两大领域的表现。测试结果显示，表现最佳的AI模型Claude3.5Sonnet在编码任务中的成功率为26.2%，在项目管理决策方面达到44.9%。虽然这一成绩与人类开发者仍有差距，但在经济效益方面已展现出可观潜力。数据显示，仅在公开的Diamond数据集中，该模型就能完成价值208，050美元的项

NVIDIA和Arc研究所联合发布全球最大生物学 AI 模型 Evo2，助力基因组研究与设计

日前，Arc Institute 与 NVIDIA 合作，联合斯坦福大学、加州大学伯克利分校和加州大学旧金山分校的研究人员，共同推出了全球最大的生物学人工智能模型 ——Evo2。该模型以超过128，000个基因组的数据为基础，训练了9.3万亿个核苷酸，使其规模与最强大的生成性 AI 语言模型相媲美。Evo2的深度学习能力使其能够快速识别不同生物体基因序列中的模式，研究人员无需耗费数年时间。该模型能够准确识别引起人类疾病的突变，并有能力设计出与简单细菌基因组长度相当的新基因组。Evo2的开发团队

马斯克的xAI正式推出深度推理模型Grok 3，引入思维链、未来两年搭载到SpaceX火箭

今日，埃隆·马斯克领导的 xAI 正式推出其最新模型 Grok3，马斯克称称其是目前“地球上最聪明的AI”。它将与 ChatGPT、Gemini、DeepSeek 和 Claude 等进行竞争。发布会上，xAI 展示了很多基准测试，其中 Grok3在数学、科学和编码基准测试中优于 Gemini2Pro、Claude3.5Sonnet、GPT4o 和 DeepSeek V3。埃隆·马斯克和他的团队透露，Grok3也将具有与 DeepSeek R1和 OpenAI o3Mini 类似的推理能力。与 DeepSeek R1和现在的 ChatGPT o3Mini 一样，Grok3将显示详细的思维链，让用户可以看到聊天机器人是如何思考问题的。马斯克证实，