DeepSeek-R1-Zero
DeepSeek-R1-Zero es un modelo de inferencia entrenado con aprendizaje por refuerzo a gran escala que ofrece una capacidad de razonamiento excepcional sin necesidad de ajuste fino supervisado.
Selección NacionalProgramaciónAprendizaje por refuerzoModelo de inferencia
DeepSeek-R1-Zero es un modelo de inferencia desarrollado por el equipo de DeepSeek, enfocado en mejorar la capacidad de razonamiento del modelo mediante el aprendizaje por refuerzo. Sin necesidad de ajuste fino supervisado, este modelo muestra un potente comportamiento de inferencia, como autoverificación, reflexión y generación de cadenas de razonamiento extensas. Sus principales ventajas incluyen una eficiente capacidad de inferencia, la posibilidad de usarse sin preentrenamiento y un rendimiento excepcional en tareas matemáticas, de codificación y de razonamiento. Desarrollado sobre la arquitectura DeepSeek-V3, admite tareas de inferencia a gran escala y es adecuado para aplicaciones de investigación y comerciales.
DeepSeek-R1-Zero Situación del tráfico más reciente
Total de visitas mensuales
29742941
Tasa de rebote
44.20%
Páginas promedio por visita
5.9
Duración promedio de la visita
00:04:44