Google presenta Gemma 4 12B, un modelo multimodal pensado para llevar capacidades de razonamiento, vision y audio a equipos locales.
Google ha presentado Gemma 4 12B, un modelo multimodal de tamaño intermedio diseñado para ejecutar razonamiento y tareas agentivas directamente en ordenadores portátiles.
El modelo se sitúa entre la variante E4B orientada al edge y el modelo 26B Mixture of Experts, con un consumo de memoria inferior y un rendimiento que Google aproxima al del modelo mayor en varias evaluaciones.
Gemma 4 12B puede funcionar localmente con 16 GB de VRAM o memoria unificada. Es además el primer modelo de tamaño medio de la familia con entrada nativa de audio.
Su arquitectura evita encoders multimodales separados: la visión se procesa mediante una capa ligera y el audio se proyecta al mismo espacio que los tokens de texto para que el núcleo del modelo trabaje directamente con esas señales.
Google lo publica bajo licencia Apache 2.0 y ofrece pesos preentrenados e instruction-tuned en Hugging Face y Kaggle. También puede probarse con herramientas como LM Studio, Ollama y Google AI Edge Gallery.
La compatibilidad anunciada incluye Transformers, llama.cpp, MLX, SGLang, vLLM y Unsloth, además de opciones de despliegue en Google Cloud.