Best AI Websites & Tools

AI产品榜

AI产品榜

ModernBERT-large

高性能的双向编码器Transformer模型

普通产品编程BERTTransformer

ModernBERT-large是一个现代化的双向编码器Transformer模型（BERT风格），在2万亿个英文和代码数据上预训练，具有长达8192个token的原生上下文长度。该模型采用了最新的架构改进，如旋转位置嵌入（RoPE）以支持长上下文，局部-全局交替注意力以提高长输入的效率，以及无填充和Flash Attention以提高推理效率。ModernBERT-long适合处理需要处理长文档的任务，如检索、分类和大型语料库中的语义搜索。模型训练数据主要是英文和代码，因此可能在其他语言上的表现会较低。

ModernBERT-large

目标受众为自然语言处理（NLP）领域的研究人员和开发者，特别是那些需要处理长文本和代码数据的专业人士。ModernBERT-large的长上下文处理能力和高效率使其成为大型语料库和复杂NLP任务的理想选择。

在大规模语料库中进行文本和代码的语义搜索。
用于长文档的检索和分类任务。
在代码搜索和StackQA等代码检索任务中达到新的最佳性能。

1. 安装transformers库：使用pip安装最新的transformers库。
2. 加载模型和分词器：使用AutoTokenizer和AutoModelForMaskedLM从预训练模型加载分词器和模型。
3. 输入文本处理：将输入文本通过分词器处理，得到模型需要的输入格式。
4. 模型推理：将处理后的输入文本传递给模型，进行推理。
5. 获取预测结果：从模型输出中获取预测结果，例如填充[mask]的预测词。

ModernBERT-large 最新流量情况

月总访问量

29742941

跳出率

44.20%

平均页面访问数

5.9

平均访问时长

00:04:44

ModernBERT-large 访问量趋势

ModernBERT-large 访问地理位置分布

ModernBERT-large 流量来源

ModernBERT-large 替代品

ModernBERT

ModernBERT — ModernBERT是新一代的编码器模型，性能卓越。

编程•BERT•Transformer

ModernBERT-base — 高效处理长文本的双向编码器模型

编程•BERT•长文本处理

QwQ-32B — QwQ-32B 是一款强大的推理模型，专为复杂问题解决和文本生成设计，性能卓越。

生产力•推理•文本生成

ART

ART — 一种用于可变多层透明图像生成的匿名区域变换器技术。

图像•图像生成•多层透明图像

Crawl4LLM — 一个用于LLM预训练的高效网络爬虫工具，专注于高效爬取高质量网页数据。

编程•LLM•网络爬虫

MoBA — MoBA 是一种用于长文本上下文的混合块注意力机制，旨在提升大语言模型的效率。

生产力•大语言模型•注意力机制

Janus-Pro-1B — Janus-Pro-1B 是一个统一多模态理解和生成的自回归框架。

图像•多模态•图像生成

Nemotron-CC — 将Common Crawl转化为精细的长期预训练数据集

编程•数据集•预训练

中文互联网语料资源平台 — 提供高质量中文语料资源，助力人工智能大模型预训练。

其他•语料库•预训练

ViTPose — 基于Transformer实现的ViTPose模型集合

图像•计算机视觉•人体姿态估计

YuLan-Mini — 一款高效率的2.4亿参数轻量级语言模型

编程•语言模型•自然语言处理

POINTS-Yi-1.5-9B-Chat — 视觉语言模型的最新进展，集成微信AI的新技术

生产力•视觉语言模型•微信AI

FineWeb2 — 多语言预训练数据集

编程•多语言•预训练

Llama-3.3-70B-Instruct — 70亿参数的多语言大型语言模型

编程•大型语言模型•多语言

OLMo 2 13B

OLMo 2 13B — 高性能的英文学术基准语言模型

生产力•语言模型•自然语言处理

Star-Attention — 高效长序列大型语言模型推理技术

编程•NVIDIA•大型语言模型

Qwen2.5-Coder-1.5B-Instruct-GPTQ-Int8 — Qwen2.5-Coder系列的1.5B参数代码生成模型

编程•代码生成•代码推理

Qwen2.5-Coder-3B-Instruct-GPTQ-Int8 — Qwen2.5-Coder系列中的3B参数量指令调优模型

编程•代码生成•代码推理

TableGPT2 — 大型多模态模型，集成表格数据

生产力•多模态模型•表格数据

MobileLLM-1B — Meta 开发的子十亿参数语言模型，适用于设备端应用。

编程•语言模型•Transformer

MobileLLM-600M — 高效优化的600M参数语言模型，专为设备端应用设计。

编程•语言模型•Transformer

MobileLLM-350M — 高效优化的子十亿参数语言模型，专为设备端应用设计

编程•语言模型•Transformer

kelindar/search — Go语言库，用于嵌入式向量搜索和语义嵌入

编程•搜索引擎•GPU

Oasis

Oasis — 基于Transformer的实时开放世界AI模型

视频•Transformer•实时互动

SLM_Survey — 小型语言模型调研、测量与洞察

教育•小型语言模型•Transformer

ACE: All-round Creator and Editor Following Instructions via Diffusion Transformer

ACE: All-round Creator and Editor Following Instructions via Diffusion Transformer — 全能的创造者和编辑器，通过扩散变换遵循指令

图像•视觉生成•扩散模型

Llama-3.2-1B — 多语言大型语言模型

生产力•多语言•文本生成

OpenCity — 开源时空基础模型，用于交通预测

生产力•交通预测•时空模型

AI21-Jamba-1.5-Large — 先进的混合SSM-Transformer指令遵循基础模型

生产力•文本生成•长上下文