En el contexto de una competencia cada vez más feroz en el campo de la inteligencia artificial, Google ha anunciado recientemente el lanzamiento del modelo Gemini 2.0 Flash Thinking. Este modelo de razonamiento multimodal cuenta con una capacidad de procesamiento rápida y transparente, capaz de abordar problemas complejos. El CEO de Google, Sundar Pichai, declaró en la red social X: "Este es nuestro modelo más profundo hasta la fecha."
Según la documentación para desarrolladores, Gemini 2 Flash Thinking posee una capacidad de razonamiento superior a la del modelo base Gemini 2.0 Flash. El nuevo modelo admite 32.000 tokens de entrada (aproximadamente 50 a 60 páginas de texto) y puede generar respuestas de hasta 8.000 tokens. Google indica en el panel lateral de su AI Studio que este modelo es especialmente adecuado para la "comprensión y razonamiento multimodales" y la "codificación".
Documentación para desarrolladores: https://ai.google.dev/gemini-api/docs/thinking-mode?hl=es
Actualmente, no se han publicado detalles sobre el proceso de entrenamiento, la arquitectura, la licencia y el coste del modelo, pero Google AI Studio muestra que el uso actual del modelo es gratuito por token.
Una característica destacada de Gemini 2.0 es que permite a los usuarios acceder al proceso de razonamiento paso a paso del modelo a través de un menú desplegable, una característica que no está presente en modelos de la competencia como o1 y o1mini de OpenAI. Esta forma de razonamiento transparente permite a los usuarios comprender claramente el proceso mediante el cual el modelo llega a sus conclusiones, lo que resuelve eficazmente el problema de la "caja negra" de la IA.
En algunas pruebas sencillas, Gemini 2.0 pudo responder correctamente y rápidamente (en uno a tres segundos) a algunas preguntas complejas, como calcular el número de letras "R" en la palabra "fresa". En otra prueba, el modelo comparó sistemáticamente dos números decimales (9.9 y 9.11) analizando paso a paso el número entero y la parte decimal.
La agencia de análisis independiente LM Arena calificó al modelo Gemini 2.0 Flash Thinking como el de mejor rendimiento en todas las categorías de grandes modelos de lenguaje.
Además, el modelo Gemini 2.0 Flash Thinking también cuenta con una función nativa de carga y análisis de imágenes. A diferencia de o1 de OpenAI, que inicialmente era un modelo de texto y posteriormente se amplió para incluir el análisis de imágenes y archivos, ambos modelos actualmente solo devuelven resultados de texto.
Aunque la capacidad multimodal de Gemini 2.0 Flash Thinking amplía sus posibles aplicaciones, los desarrolladores deben tener en cuenta que el modelo actualmente no admite la integración con la búsqueda de Google ni con otras aplicaciones de Google o herramientas externas. Los desarrolladores pueden experimentar con este modelo a través de Google AI Studio y Vertex AI.
En el mercado de la IA cada vez más competitivo, Gemini 2.0 Flash Thinking podría marcar una nueva era en los modelos de resolución de problemas. Con su capacidad para procesar varios tipos de datos, proporcionar razonamiento visual y operar a gran escala, se convierte en un competidor importante para la serie OpenAI o1 y otros modelos en el mercado de la IA de razonamiento.
Puntos clave:
🌟 El modelo Gemini 2.0 Flash Thinking cuenta con una potente capacidad de razonamiento, admite 32.000 tokens de entrada y 8.000 tokens de salida.
💡 El modelo proporciona un razonamiento paso a paso a través de un menú desplegable, mejorando la transparencia y resolviendo el problema de la "caja negra" de la IA.
🖼️ Cuenta con capacidad nativa de carga y análisis de imágenes, ampliando las aplicaciones multimodales.