Los flujos de trabajo de datos modernos se enfrentan a desafíos cada vez mayores a medida que los conjuntos de datos crecen y la complejidad del procesamiento distribuido aumenta. Muchas organizaciones descubren que los sistemas tradicionales de procesamiento de datos tienen importantes deficiencias en tiempo de procesamiento, limitaciones de memoria y gestión de tareas distribuidas. En este contexto, los científicos e ingenieros de datos suelen dedicar mucho tiempo al mantenimiento del sistema en lugar de extraer información valiosa de los datos. Claramente, el mercado necesita urgentemente una herramienta que simplifique los procesos sin sacrificar el rendimiento.

QQ_1741226770776.png

Recientemente, DeepSeek AI lanzó Smallpond, un framework de procesamiento de datos ligero basado en DuckDB y 3FS. Smallpond tiene como objetivo ampliar el análisis SQL eficiente en memoria de DuckDB a entornos distribuidos. Combinado con 3FS, un sistema de archivos distribuido de alto rendimiento optimizado para SSD modernos y redes RDMA, Smallpond ofrece una solución práctica para el procesamiento de grandes conjuntos de datos, evitando la complejidad y los altos costos de infraestructura de los servicios de larga ejecución.

El framework Smallpond tiene un diseño simple y modular, es compatible con Python 3.8 a 3.12 y se puede instalar rápidamente mediante pip, permitiendo a los usuarios comenzar a procesar datos rápidamente. Una de las características más destacadas es la compatibilidad con la partición manual de datos; los usuarios pueden particionar según el número de archivos, el número de filas o el valor hash de una columna específica. Esta flexibilidad permite a los usuarios personalizar el procesamiento según sus datos e infraestructura.

A nivel técnico, Smallpond aprovecha al máximo el rendimiento de las consultas SQL nativas de DuckDB y se integra con Ray para el procesamiento paralelo de nodos de cálculo distribuidos. Esta combinación no solo simplifica las operaciones de escalado, sino que también garantiza un procesamiento eficiente de la carga de trabajo entre varios nodos. Además, al evitar los servicios persistentes, Smallpond reduce los gastos operativos generalmente asociados con los sistemas distribuidos.

En las pruebas de rendimiento, Smallpond obtuvo excelentes resultados en la prueba de referencia GraySort, ordenando 110.5 TiB de datos en poco más de 30 minutos, con un rendimiento promedio de 3.66 TiB por minuto. Estos indicadores de rendimiento muestran que Smallpond puede satisfacer las necesidades de las organizaciones que procesan datos desde terabytes hasta petabytes. Como proyecto de código abierto, Smallpond también da la bienvenida a la participación de usuarios y desarrolladores para lograr una mayor optimización y adaptación a diversos escenarios de uso.

Smallpond representa un paso importante en el procesamiento de datos distribuidos. Al ampliar la eficiencia de DuckDB a entornos distribuidos y combinar la alta capacidad de procesamiento de 3FS, proporciona una herramienta práctica para científicos e ingenieros de datos. Ya sea para procesar conjuntos de datos pequeños o para escalar a operaciones de petabytes, Smallpond es un framework eficiente y fácil de usar.

Proyecto: https://github.com/deepseek-ai/smallpond?tab=readme-ov-file

Puntos clave:

🌟 Smallpond es un framework de procesamiento de datos ligero lanzado por DeepSeek AI, basado en DuckDB y 3FS.

⚙️ Compatible con Python 3.8 a 3.12; los usuarios pueden instalarlo rápidamente y personalizar el procesamiento de datos de forma flexible.

🚀 En la prueba de referencia GraySort, Smallpond demostró su capacidad para procesar datos de terabytes con un rendimiento excepcional.