Claude 3.5 Sonnet模型增加PDF 文件处理功能可分析文档图像、图表和表格

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2024年11月4号 9:46

389

近日，人工智能公司 Anthropic 宣布，在其 Claude 3.5 Sonnet 模型中增加了 PDF 文件处理的功能，目前该功能已进入公共测试阶段。用户现在可以使用该模型分析 PDF 文档中的文本和视觉元素，包括图像、图表和表格等，适用于金融报告、法律文件以及文档翻译等多种场景。

Claude 3.5 Sonnet 的 PDF 处理过程分为三个步骤。首先，系统会从文档中提取文本内容。接着，每一页文档会被转换为图像，以便进行更深入的分析。这样一来，用户不仅可以获取文本信息，还能够洞悉 PDF 文件中的视觉信息。

值得一提的是，Claude 的 PDF 功能还可以与其他功能结合使用，比如提取特定信息并将其用作工具输入。需要注意的是，上传的文件必须小于 32MB，且页面数量不得超过 100 页。该系统目前不支持加密或密码保护的文档。

处理 PDF 文件的费用会根据文档的长度和内容密度有所不同。通常，每页文档会消耗 1，500 到 3，000 个 tokens，而不收取超过标准 token 费用的额外费用。用户可以通过 Claude Chat 功能预览和 API 访问来使用这一新特性，API 请求中需要使用特定的请求头 “anthropic-beta: pdfs-2024-09-25”。Anthropic 计划未来将此功能扩展到 Amazon Bedrock 和 Google Vertex AI 平台。

为了提高处理效果，Anthropic 建议用户确保文档中有清晰可读的文本，以及页面布局正确。此外，在引用特定内容时，用户应使用 PDF 阅读器中显示的页码。而在 API 使用过程中，PDF 文件应放置在文本之前。如果文档较大，超过了限制，Anthropic 建议将其拆分为较小的部分。最后，当多次分析同一文档时，用户还可以考虑使用提示缓存，以提高处理效率。

划重点：
📄 Anthropic 推出 Claude 3.5 Sonnet，增加 PDF 文件处理功能，支持文本和图像分析。
🖼️ 处理过程分为提取文本、转换页面为图像和综合分析三个步骤。
💰 处理费用根据文档长度和内容密度而异，用户需遵循文件大小和页数限制。

抖音副总裁否认AI团队大变阵：都是不实信息

李亮指出，一篇题为《字节AI团队大变阵》的文章中存在多处不实信息。文章中提及的技术副总裁杨震原即将退休、冯佳时将离职创业等说法，均为错误信源所致。此外，关于张一鸣拜访豌豆荚创始人王俊煜及上海模速空间创业公司的报道，同样与事实不符。

OpenAI 在全球扩展人工智能代理服务Operator，提升用户体验

OpenAI 于上周五宣布，正在为澳大利亚、巴西、加拿大、印度、日本、新加坡、韩国、英国等多个国家的 ChatGPT Pro 用户推出其最新的人工智能代理工具 ——Operator。这一工具的推出标志着 OpenAI 在人工智能领域的一次重要扩展，旨在帮助用户更高效地完成各种日常任务。Operator 自今年1月在美国首次推出以来，便备受关注，成为市场上少数能够代表用户执行任务的 “人工智能代理” 之一。它能够完成多种操作，包括订票、预订餐厅、提交费用报告，甚至在电子商务网站上购物。这些功能不仅

OpenAI宣布面向多个国家推出AI代理 Operator

OpenAI 于周五宣布，将在包括澳大利亚、巴西、加拿大、印度、日本、新加坡、韩国和英国等多个国家，为 ChatGPT Pro 用户推出一款名为 “Operator” 的人工智能代理工具。此工具旨在帮助用户更高效地完成各类任务，包括订票、预订餐厅、提交费用报告和网上购物等。“Operator” 最初于今年1月在美国推出，作为市场上几款 “人工智能代理” 工具之一，OpenAI 希望通过这一产品，为用户提供更便捷的服务。需要注意的是，这一工具目前仅对每月付费200美元的 ChatGPT Pro 用户开放，用户可以通过

马斯克的xAI游戏工作室或将颠覆游戏行业：Grok 3助力快速游戏开发

埃隆·马斯克（Elon Musk）旗下的人工智能公司xAI宣布，其新成立的游戏工作室将彻底改变游戏行业的现状。据悉，该工作室将利用最新发布的AI模型Grok3，让游戏开发变得前所未有的高效与便捷。用户现已能够在短短几分钟内通过Grok3生成完整的游戏，甚至只需简单提问即可提升游戏的图形质量。图源备注：图片由AI生成，图片授权服务商MidjourneyxAI游戏工作室的这一创新引发了业界广泛关注。报道称，Grok3已展示出强大的游戏生成能力，其中包括10款由AI驱动的游戏范例。值得一提的是，首款

AI新闻资讯