Google发布Gemma 3n多模态开源模型:支持图像、音频、视频输入,内存占用低至2GB

🎯 情报来源:Simon Willison's Weblog

Google今日发布开源多模态模型Gemma 3n,原生支持图像、音频、视频和文本输入,文本输出。该模型针对终端设备优化,提供E2B(5B参数,内存占用2GB)和E4B(8B参数,内存占用3GB)两种规格,内存效率显著提升。

核心要点:

  • 多模态支持:Gemma 3n原生支持图像、音频、视频和文本输入,文本输出。
  • 终端设备优化:E2B和E4B模型内存占用分别为2GB和3GB,远低于传统模型。
  • 广泛合作:Google与AMD、Hugging Face、NVIDIA等十余家厂商合作,提供多种部署方式。
  • 实测表现:15.74GB版本可准确转录音频,生成SVG图像,但图像描述存在偏差。

📌 情报分析

技术价值:高

Gemma 3n在终端设备上的高效运行和多模态支持展现了显著的技术突破,内存占用仅为传统模型的40%-50%。

商业价值:高

广泛的厂商合作和多种部署方式降低了采用门槛,终端设备优化为消费级AI应用开辟了新场景。

趋势预测:

未来3-6个月内,Gemma 3n可能推动边缘计算和多模态AI的普及,尤其在移动设备和IoT领域。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索