Hugging Face 推出号称“世界上最小的视觉语言模型”SmolVLM-256M
2025-01-27 11:13:01 小编:洛阳软件园
本站 1 月 26 日消息,Hugging Face 发布了两款全新多模态模型SmolVLM-256M和SmolVLM-500M,其中SmolVLM-256M号称是世界上最小的视觉语言模型(Video Language Model)。
据悉,相应模型主要基于 Hugging Face团队去年训练的 80B参数模型蒸馏而成,号称在性能和资源需求之间实现了平衡,官方称 SmolVLM-256M / 500M 两款模型均可“开箱即用”,可以直接部署在transformer MLX和ONNX平台上。
具体技术层面,SmolVLM-256M / 500M 两款模型均采用SigLIP作为图片编码器,使用 SmolLM2作为文本编码器。其中 SmolVLM-256M是目前最小的多模态模型,可以接受任意序列的图片和文本输入并生成文字输出,该模型功能包括描述图片内容、为短视频生成字幕、处理PDF 等。Hugging Face 称由于该模型整体轻巧,可在移动平台轻松运行,仅需不到1GB的GPU显存便可在单张图片上完成推理。
而 SmolVLM-500M针对需要更高性能的场景而设计,Hugging Face称相关模型非常适合部署在企业运营环境中,该模型推理单张图片仅需1.23GB的GPU显存,相对 SmolVLM-256M 虽然负载更大,但推理输出的内容更精准。
本站注意到,两款模型均采用Apache 2.0开源授权,研究团队提供了基于transformer和WebGUI的示例程序。所有模型及其演示已公开便于开发者下载和使用,具体页面可(点此访问)。
- 猜你喜欢
-
星球大战亡命之徒FPE第一人称无处不在MOD9.9MB游戏软件库
-
谁喝酒36.31M游戏软件库
-
丛林大理石祖玛探险79.30M游戏软件库
-
太阳系行星粉碎29.9MB游戏软件库
-
水相9.9MB游戏软件库
-
国王演讲9.9MB游戏软件库
-
TapAway150.77M游戏软件库
-
米加小镇世界大象公寓无广告下载297.84M游戏软件库
-
红色警戒2菜单不显示补丁9.9MB游戏软件库
- 相关手机游戏
-
我的奇幻乐园657.47M游戏软件库
-
梦想乐园9.9MB游戏软件库
-
至尊决斗者火柴人64.93M游戏软件库
-
神秘沙盒创造9.9MB游戏软件库
-
Typoman353.69M游戏软件库
-
PUBGMOBILE国际服9.9MB游戏软件库
-
猫咪战车大作战170.39M游戏软件库
-
复古蒸汽火车(VintageSteamTrainPro)9.9MB游戏软件库
-
美国卡车模拟pro1313.29M游戏软件库
- 推荐游戏攻略