微软推出的新视觉基础模型 Florence-2 最近可以在 WebGPU 上的浏览器中 100% 本地运行,这要归功于 Transformers.js 它支持图像字幕、光学字符识别、物体检测等任务!
Demo:huggingface.co/spaces/Xenova/florence2-webgpu
代码:github.com/xenova/transformers.js/tree/v3/examples/florence2-webgpu
模型:huggingface.co/models?library=transformers.js&other=florence2