Crawl4LLM

一个用于LLM预训练的高效网络爬虫工具，专注于高效爬取高质量网页数据。

普通产品编程LLM网络爬虫

Crawl4LLM是一个开源的网络爬虫项目，旨在为大型语言模型（LLM）的预训练提供高效的数据爬取解决方案。它通过智能选择和爬取网页数据，帮助研究人员和开发者获取高质量的训练语料。该工具支持多种文档评分方法，能够根据配置灵活调整爬取策略，以满足不同的预训练需求。项目基于Python开发，具有良好的扩展性和易用性，适合在学术研究和工业应用中使用。

Best AI Websites & Tools

Crawl4LLM

Crawl4LLM 最新流量情况

Crawl4LLM 访问量趋势

Crawl4LLM 访问地理位置分布

Crawl4LLM 流量来源

Crawl4LLM 替代品

Crawl4LLM — 一个用于LLM预训练的高效网络爬虫工具，专注于高效爬取高质量网页数据。

Scrapegraph-ai — 基于AI的Python网络爬虫库，自动化提取网页信息。

MM1 — 苹果发布多模态LLM模型MM1

Basic Memory — 通过与LLM对话构建持久知识，存于本地Markdown文件

openai-agents-python — 一个轻量级且强大的多智能体工作流框架

Awesome-LLM-Post-training — 一个关于大型语言模型（LLM）后训练方法的教程、调查和指南资源库。

l1m — 一个用于从文本和图像中提取结构化数据的代理API，基于LLMs实现。

Firecrawl LLMs.txt generator — 为LLM训练和推理生成网站整合文本文件的工具

Hugo Translator — 基于LLM的文章翻译工具，自动翻译并创建多语言Markdown文件。

Aviator Agents — 基于LLM的代理框架，用于在代码库中执行大规模代码迁移。

llm-commit — 一个为LLM生成Git提交信息的插件

hallucination-leaderboard — 一个用于比较大型语言模型在总结短文档时产生幻觉的排行榜。

VisionAgent — VisionAgent是一个用于生成代码以解决视觉任务的库，支持多种LLM提供商。

OmniParser V2 — OmniParser V2 是一种将任何 LLM 转化为计算机使用代理的技术。

Supametas.AI — 非结构化数据处理平台，助力企业快速构建行业数据集并集成到LLM RAG知识库

stocks-insights-ai-agent — 基于LLM和LangChain的全栈应用，用于检索股票数据和新闻

OpenDeepResearcher — 一个基于AI的深度研究工具，能够持续搜索信息直至满足用户查询需求。

DocETL — 一个由LLM驱动的数据处理系统。

DocWrangler — 一个开源的交互式开发环境，用于构建和优化基于LLM的数据处理管道。

Nemotron-CC — 将Common Crawl转化为精细的长期预训练数据集

中文互联网语料资源平台 — 提供高质量中文语料资源，助力人工智能大模型预训练。

llm-datasets — 高质量的数据集、工具和概念，用于大型语言模型的微调。

FlashInfer — FlashInfer是一个用于大型语言模型服务的高性能GPU内核库。

llmstxt-generator — 用于生成LLM训练和推理的网站内容整合文本文件的工具

CodebaseToPrompt — 将本地文件转换为大型语言模型的结构化提示工具

ModernBERT-large — 高性能的双向编码器Transformer模型

YuLan-Mini — 一款高效率的2.4亿参数轻量级语言模型

Document Inlining — 利用复合AI技术，将文档内联处理，跨越模态差距。

IdentityRAG — 客户数据搜索、统一和检索的LLM工具

LangWatch — 监控、评估和优化你的LLM应用