Actualidad IA generativa

Google presenta Gemma 4 12B para inteligencia multimodal en portatiles

Google
3 junio 2026

Qué han lanzado

Google ha lanzado Gemma 4 12B como nuevo modelo multimodal de tamano intermedio dentro de la familia Gemma.

Qué cambia

La actualizacion acerca capacidades multimodales y agenticas a equipos locales, con un modelo disenado para funcionar en portatiles.

Google presenta Gemma 4 12B, un modelo multimodal pensado para llevar capacidades de razonamiento, vision y audio a equipos locales.

Google ha presentado Gemma 4 12B, un modelo multimodal de tamaño intermedio diseñado para ejecutar razonamiento y tareas agentivas directamente en ordenadores portátiles.

El modelo se sitúa entre la variante E4B orientada al edge y el modelo 26B Mixture of Experts, con un consumo de memoria inferior y un rendimiento que Google aproxima al del modelo mayor en varias evaluaciones.

Gemma 4 12B puede funcionar localmente con 16 GB de VRAM o memoria unificada. Es además el primer modelo de tamaño medio de la familia con entrada nativa de audio.

Su arquitectura evita encoders multimodales separados: la visión se procesa mediante una capa ligera y el audio se proyecta al mismo espacio que los tokens de texto para que el núcleo del modelo trabaje directamente con esas señales.

Google lo publica bajo licencia Apache 2.0 y ofrece pesos preentrenados e instruction-tuned en Hugging Face y Kaggle. También puede probarse con herramientas como LM Studio, Ollama y Google AI Edge Gallery.

La compatibilidad anunciada incluye Transformers, llama.cpp, MLX, SGLang, vLLM y Unsloth, además de opciones de despliegue en Google Cloud.