社交媒体Bluesky用户数据遭抓取：一百万公开帖子被用于 AI 训练

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2024年11月29号 10:24

275

最近，社交媒体平台 Bluesky 面临了一次重大的数据抓取事件。一位机器学习图书管理员丹尼尔・范斯特林（Daniel van Strien）从 Bluesky 的 API 接口上抓取了超过一百万条公开的用户帖子，并将这些数据上传至 AI 公司 Hugging Face。

该数据集包含了用户的去中心化标识符（DID）以及一系列可以搜索特定用户内容的功能。范斯特林表示，这个数据集的主要目的是用于语言模型和自然语言处理的开发，此外还包括社交媒体趋势分析、内容审核及发布模式的研究。

这项数据抓取行动引发了广泛关注，因为 Bluesky 的用户并未同意将其内容用于此类用途。虽然平台并没有明确禁止这种行为，但它的火灾 API 提供了一个 “聚合的、按时间顺序排列的公共数据流”，包括帖子、点赞、关注、账号变更等信息。因此，Bluesky 的内容在理论上是对第三方开发者开放的。

对此，Bluesky 的一位代表表示:“Bluesky 是一个开放和公共的社交网络，就像互联网上的其他网站一样。

虽然 robots.txt 文件并不能总是阻止外部公司抓取这些网站，但情况是类似的。我们希望能够找到一种方式，让 Bluesky 用户可以向外部组织 / 开发者传达他们是否同意使用其数据，并希望外部组织尊重用户的同意，我们正在积极讨论如何实现这一目标。”

这起事件引起了用户的担忧，特别是许多用户是因竞争平台 X 的新 AI 训练政策而转投 Bluesky 的。值得注意的是，在该报道发布后不久，范斯特林从 Hugging Face 上删除了这个数据集。

他在 Bluesky 上表示:“我已从该仓库中删除 Bluesky 数据。虽然我想支持该平台的工具开发，但我意识到这种做法违反了数据收集中的透明度和同意原则。对此，我深感抱歉。”

划重点:
🌐1. 一位机器学习专家抓取了一百万条 Bluesky 的公开帖子，并上传至 AI 公司 Hugging Face，目的是用于机器学习研究。
🔍2. Bluesky 的用户未曾同意使用其数据，平台也并未明确禁止此类数据抓取行为。
🚫3. 数据抓取事件引发用户担忧，范斯特林已将相关数据从 Hugging Face 删除，并对此表示歉意。

CMU 团队推出元强化微调：提升大语言模型推理能力的新范式

在人工智能领域，大语言模型（LLM）正在不断进化，最近，卡内基梅隆大学(CMU)与 HuggingFace 的研究者们共同提出了一种名为 “元强化微调”(Meta Reinforcement Fine-Tuning，简称 MRT)的新方法。这一方法旨在优化大语言模型在测试时的计算效率，尤其是在解决复杂推理问题时，表现尤为突出。研究表明，现有的大语言模型在推理过程中常常消耗过多的计算资源，而 MRT 的目标是让模型在给定的计算预算内，实现更高效的答案发现。该方法将大语言模型的输出分割成多个片段，以便在探索与利用之间

Remade AI 开源 8 款 Wan2.1 特效 LoRA，掀起 AI 视频创作新热潮

3 月 12 日，AI创新团队Remade AI 在Hugging Face平台震撼发布 8 款基于Wan2. 1 模型的开源特效LoRA，引发科技圈广泛关注。这 8 款特效包括“挤压”（Squish）、“蛋糕化”（Cakeify）、“膨胀”（Inflate）、“缩小”（Deflate）、“射击”（Shooting）、“旋转”（Rotate）、“肌肉增强”（Muscle）和“压扁”（Crush），为AI视频生成注入全新创意可能。Wan2. 1 作为阿里巴巴开源的顶尖视频生成模型，以其高效性和多功能性备受推崇。Remade AI此次推出的LoRA模块，基于Wan2.1 14B I2V 480p模型训练，能够将静态图像转

外媒：Manus 可能不是中国的第二个“DeepSeek 时刻”

最近，一款名为 Manus 的中国 AI 智能体平台在网络上引起了广泛关注。该平台自上周预览推出以来，迅速吸引了大量用户，Hugging Face 的产品负责人称其为 “我见过的最令人印象深刻的 AI 工具”。与此同时，AI 政策研究者 Dean Ball 也表示 Manus 是 “最复杂的计算机 AI”。Manus 的官方 Discord 服务器在短短几天内吸引了超过138，000名成员，甚至在中国二手平台 Xianyu 上，Manus 的邀请码被炒至数千美元。然而，这样的热度是否真的值得呢?Manus 并不是完全从零开始开发的。根据社交媒体上的报道，该

阿里通义千问推理大模型QwQ-32B勇夺全球开源社区榜首

在全球最大的 AI 开源社区 HuggingFace 的最新更新中，阿里巴巴近期推出的通义千问推理模型 QwQ-32B 成功夺得了大模型榜单的第一名。这一模型在刚发布后便引起了广泛关注，超越了诸如微软的 Phi-4和 DeepSeek-R1等知名模型，展现出了强大的性能。QwQ-32B 模型在数学、代码处理及通用能力等多个方面都取得了质的飞跃，特别是其参数数量较小的特点，使得其整体性能能够与 DeepSeek-R1相媲美。此外，该模型的设计让用户能够在消费级显卡上实现本地部署，极大降低了模型应用的成本。这一突破为更

AI新闻资讯