在当今科技领域,CLIP(Contrastive Language-Image Pre-training)是一个重要的多模态基础模型。它通过在大规模图像 - 文本对上使用对比学习损失,将视觉信号和文本信号结合到一个共享的特征空间中。CLIP 作为检索器,能够支持零 - shot 分类、检测、分割和图像 - 文本检索等多种任务。同时,作为特征提取器,它在几乎所有跨模态表示任务中占据主导地位,例如图像理解、视频理解以及文本到图像或视频生成。CLIP 的强大之处在于它能够将图像与自然语言相连接,并捕捉人类知识,这得益于其在大
腾讯今日发布开源MOE大语言模型Hunyuan-large,总参数量达398B,激活参数量52B。公开测评结果显示,腾讯混元Large在CMMLU、MMLU、CEva1、MATH等多学科综合评测集以及中英文NLP任务、代码和数学等9大维度全面领先,超过Llama3.1、Mixtral等一流的开源大模型。据了解,该模型在技术创新上可实现高质量合成数据,通过使用合成数据增强训练,有效应对自然数据的不足。在上下文处理能力方面,预训练模型支持高达256K的文本序列,显著增强了处理长上下文任务的能力。同时,腾讯混元宣布,为填补行业
EasyRec是一款基于语言模型的推荐系统,由香港大学团队开发。其独特之处在于通过文本行为对齐框架分析用户行为故事中的情感和细节,预测用户喜好,无需大量用户数据。该系统结合对比学习和协同语言模型,能准确预测新用户和新商品的喜好,特别是在零样本推荐场景中表现出色。EasyRec的即插即用特性使其易于集成到现有推荐系统中,提升性能。论文展示了EasyRec在多个真实世界数据集上的优秀表现,证明了其在推荐准确性上的优势。随着技术的不断发展,EasyRec有望在商业推荐系统和学术研究中发挥更大作用。
["MIT和Google的研究人员合作开发了StableRep技术,通过AI生成图像训练详细高效的AI图像模型。","StableRep采用多正对比学习方法,使用数百万标记的合成图像进行训练,取得在ImageNet分类上的显著成就。","尽管取得成功,StableRep生成图像速度较慢,存在语义不匹配问题,底层模型需要在真实数据上进行初始训练。","技术已在GitHub上开源,可用于商业用途,但生成图像时间长,使用成本可能较高。"]