Nemotron-CC

Convierte Common Crawl en un conjunto de datos de preentrenamiento a largo plazo y de alta calidad

Producto ComúnProgramaciónInteligencia ArtificialConjunto de Datos

Nemotron-CC es un conjunto de datos de 6,3 billones de tokens basado en Common Crawl. A través de la integración de clasificadores, la reescritura de datos sintéticos y una menor dependencia de filtros heurísticos, convierte Common Crawl en inglés en un conjunto de datos de preentrenamiento a largo plazo de 6,3 billones de tokens, que incluye 4,4 billones de tokens originales globales deduplicados y 1,9 billones de tokens sintéticos generados. Este conjunto de datos logra un mejor equilibrio entre precisión y cantidad de datos, lo que resulta de gran importancia para el entrenamiento de modelos de lenguaje a gran escala.

Best AI Websites & Tools

Nemotron-CC

Nemotron-CC Situación del tráfico más reciente

Nemotron-CC Tendencia de visitas

Nemotron-CC Distribución geográfica de las visitas

Nemotron-CC Fuentes de tráfico

Nemotron-CC Alternativas

Nemotron-CC — Convierte Common Crawl en un conjunto de datos de preentrenamiento a largo plazo y de alta calidad

ImageInWords — Un modelo para generar descripciones de imágenes extremadamente detalladas, utilizado para entrenar modelos de lenguaje visual.

FineWeb — Conjunto de datos web en inglés de alta calidad

Instella — Instella es un modelo de lenguaje de código abierto de alto rendimiento desarrollado por AMD, diseñado para acelerar el desarrollo de modelos de lenguaje de código abierto.

Clon — Clon es un robot humanoide con tecnología revolucionaria de músculos artificiales Myofiber, capaz de caminar de forma natural.

Migician — Migician es un modelo de lenguaje multimodal de gran tamaño centrado en la localización de múltiples imágenes, capaz de realizar una localización precisa de múltiples imágenes de forma libre.

IndexTTS — Sistema de texto a voz (TTS) de muestra cero, eficiente y controlable de grado industrial

tablegpt-agent — Agente preconstruido de TableGPT2 para tareas de preguntas y respuestas basadas en tablas.

Qwen — Qwen Chat es una herramienta de chat de inteligencia artificial basada en un modelo de lenguaje avanzado, que ofrece conversaciones inteligentes y múltiples funciones.

Signs — Plataforma que utiliza la inteligencia artificial para ayudar a aprender y contribuir al lenguaje de señas americano (ASL).

kg-gen — Herramienta de inteligencia artificial que extrae grafos de conocimiento de cualquier texto.

hallucination-leaderboard — Una tabla de clasificación para comparar la tasa de alucinaciones de modelos lingüísticos grandes (LLM) al resumir documentos cortos.

Concierge IA — Interactúa con tus aplicaciones mediante lenguaje natural, mejorando la eficiencia y la comodidad.

Zyphra — Zyphra es una empresa especializada en tecnología de inteligencia artificial que ofrece modelos de chat y servicios relacionados.

RAG-FiT — RAG-FiT es una biblioteca diseñada para mejorar la capacidad de los LLMs (Modelos de Lenguaje Grande) de utilizar información externa mediante el ajuste fino del modelo con un conjunto de datos RAG (Recuperación Aumentada de Generación) especialmente creado.

Qwen2.5-Max — Qwen2.5-Max es un modelo de mezcla de expertos (MoE) a gran escala, diseñado para mejorar la inteligencia del modelo.

SCNet DeepSeek — DeepSeek es un asistente de chat inteligente que ofrece un servicio de conversación de inteligencia artificial eficiente.

Xwen-Chat — Xwen-Chat es un conjunto de modelos de lenguaje grande enfocados en la conversación en chino, que ofrece modelos de varias versiones y servicios de generación de lenguaje.

Dolphin R1 — Dolphin R1 es un conjunto de datos para entrenar modelos de inferencia, que contiene 800.000 muestras.

Tülu 3 405B — Tülu 3 405B es un modelo de lenguaje abierto de gran escala, cuyo rendimiento se ha mejorado mediante aprendizaje por refuerzo.

SpeechGPT 2.0-versión preliminar — Primer sistema de interacción en tiempo real a nivel humano orientado a la inteligencia contextual, que admite la interacción de voz con múltiples emociones y estilos.

Tarsier — Tarsier es un modelo de lenguaje de video a gran escala desarrollado por ByteDance para generar descripciones de video de alta calidad.

Baichuan-M1-14B — Modelo de lenguaje extenso de código abierto desarrollado por Baichuan Intelligence, optimizado específicamente para escenarios médicos. Posee una capacidad general excepcional y un rendimiento superior en el ámbito médico.

UPDF IA — UPDF IA ayuda a los usuarios a resumir, traducir, explicar, reescribir y generar ideas a partir de documentos PDF, mejorando la eficiencia de lectura.

WebWalker — WebWalker es un marco de evaluación de referencia diseñado para evaluar la capacidad de los modelos de lenguaje grandes (LLM) para navegar por páginas web.

MiniMax-01 — Potente modelo de lenguaje con 4560 mil millones de parámetros totales, capaz de procesar contextos de hasta 4 millones de tokens.

Plataforma de Recursos de Corpus en Internet Chino — Proporciona recursos de corpus en chino de alta calidad para ayudar al preentrenamiento de grandes modelos de IA.

Sonus-1 — Sonus-1: Inaugurando una nueva era para los modelos de lenguaje grandes (LLM)

StoryWeaver — Modelo de mundo unificado para la personalización de personajes de historias con conocimiento aumentado

YuLan-Mini — Un modelo de lenguaje ligero y de alta eficiencia con 240 millones de parámetros.