当地时间3月12日,谷歌宣布推出Gemma 3,首次引入多模态能力,支持视觉-语言输入和文本输出。该模型可处理长达128k token的上下文窗口,理解140多种语言。Gemma 3提供四种参数规模(1B、4B、12B、27B),既包含可针对特定场景微调的预训练模型,也包含经过通用指令优化的版本。谷歌方面表示,该模型是可在单个GPU或TPU上运行的性能最强大模型。