字节大模型Depth Anything V2 被苹果官方收入Core ML模型库

AIbase

发布于AI新闻资讯 · 1 分钟阅读 · 2024年7月11号 16:37

362

字节跳动的大模型团队又立了一功，他们的Depth Anything V2模型被苹果公司收入了Core ML模型库。这个成果不仅在技术上取得了突破，更让人瞩目的是，这个项目的领头人，竟然是一位实习生。

Depth Anything V2是一个单目深度估计模型，它能够从单张图片中估算出场景的深度信息。这个模型从2024年初的V1版本到现在的V2，参数量从25M扩展到了1.3B，应用范围覆盖了视频特效、自动驾驶、3D建模、增强现实等多个领域。

QQ截图20240711163254.jpg

这个模型在GitHub上已经获得了8.7k的Star，V2版本发布不久就有2.3k Star，而V1版本更是收获了6.4k Star。这样的成绩，对于任何一个技术团队来说都是值得骄傲的，更何况这背后的主力是一位实习生。

苹果公司将Depth Anything V2收入Core ML模型库，这是对模型性能和应用前景的高度认可。Core ML作为苹果的机器学习框架，能够让机器学习模型在iOS、MacOS等设备上高效运行，即使在无互联网连接的情况下也能执行复杂的AI任务。

Depth Anything V2的Core ML版本采用了至少25M的模型，经过HuggingFace官方工程优化，在iPhone12Pro Max上的推理速度达到了31.1毫秒。这与FastViT、ResNet50、YOLOv3等其他入选模型一起，涵盖了从自然语言处理到图像识别的多个领域。

在大模型的浪潮中，Scaling Laws的价值被越来越多的人认同。Depth Anything团队选择了构建一个简单但功能强大的基础模型，在单一任务上实现更好的效果。他们认为，利用Scaling Laws解决一些基础问题更具实际价值。深度估计作为计算机视觉领域中的重要任务之一，从图像中推断出场景内物体的距离信息，对于自动驾驶、3D建模、增强现实等应用至关重要。Depth Anything V2不仅在这些领域有广泛的应用前景，还能作为中间件整合进视频平台或剪辑软件中，支持特效制作、视频编辑等功能。Depth Anything项目的一作是团队的实习生，这位新星在Mentor的指导下，从项目设想到论文撰写，不到一年时间就完成了大部分工作。公司和团队提供了自由的研究氛围和充分的支持，鼓励实习生深入研究更难、更本质的问题。

这位实习生的成长和Depth Anything V2的成功，不仅展现了个人的努力和才华，也体现了字节跳动在视觉生成及大模型相关领域的深入探索和人才培养。

项目地址:https://top.aibase.com/tool/depth-anything-v2

AI音乐生成模型MusiConGen:用Transformer生成音乐，精确控制节奏和和弦

MusiConGen模型是在预训练的MusicGen-melody框架基础上进行微调的，主要用于生成各种风格的音乐片段。研究团队通过设置和弦和节奏的控制参数，展示了模型生成的音乐样本，涵盖了五种不同风格:休闲布鲁斯、平滑酸爵士、经典摇滚、高能放克以及重金属。

日本超市开始用AI技术监控员工微笑网友直呼大可不必

日本永旺超市利用AI系统"Smile-Kun"监控员工微笑，旨在通过量化员工的微笑及声音分析，提升服务技能。该系统要求员工通过特定方式打招呼，依据450个微表情点评分，满分为100分，并实时反馈，此外分析音量、流畅度和语气提供改进建议。员工反应显示微笑比例显著提升。然而，此举引发争议，部分网友批评做法过度量化员工个性情感，难以体现真诚服务。批评者认为基于上下级或同事评估更为合理。此做法虽旨在提高效率，但需考虑如何在追求效时兼顾员工感受与尊严，反思员工服务的真实性和人性化管理。

马斯克的xAI将于下月发布Grok 2，Grok 3预计12月推出

Elon Musk宣布xAI公司将于下月发布性能与GPT-4相当的AI模型Grok2，预计12月推出更强大的Grok3，该模型正在孟菲斯数据中心进行15000+GPU的大规模训练。虽仅部分特斯拉视频数据尚未应用于模型训练，但如ChatGPT对比显示Grok在某些方面仍见不足，밤收购语境下的追赶仍需时间。

小红书开首家“AI便利店” 为优秀AI笔记内容提供3W到50W流量扶持

小红书近日上线“科技薯”账号，启动全球首间AI便利店创业项目。通过与全网优质创作者和科技公司合作，提供AI前沿应用、干货、情感体验等内容，该便利店内售卖包括@赵纯想等人的创意AI产品，例如吃饭辅助、AI式泡面教程、AI颈椎病治疗、林亦LYi的祖传AI治疗、AI帮老妈完成未竟之事等。科技薯还开设活动，邀请笔记写手用 "#AI便利店" 发布AI相关笔记，可获得三万到五十万流量扶持、科技薯官方推荐和小米机器狗等惊喜奖励。此活动不仅整合AI内容，还通过激励机制催生更多AI创意内容。

AI新闻资讯

字节大模型Depth Anything V2 被苹果官方收入Core ML模型库

AIbase

相关AI新闻推荐

​AI音乐生成模型MusiConGen:用Transformer生成音乐，精确控制节奏和和弦

日本超市开始用AI技术监控员工微笑 网友直呼大可不必

马斯克的xAI将于下月发布Grok 2，Grok 3预计12月推出

小红书开首家“AI便利店” 为优秀AI笔记内容提供3W到50W流量扶持

AI音乐生成模型MusiConGen:用Transformer生成音乐，精确控制节奏和和弦

日本超市开始用AI技术监控员工微笑网友直呼大可不必