文章目录
- 摘要
- 1、简介
- 2、相关工作
- 3、方法
- 4、实验
- 4.1、交互式分割
- 4.2、通用的分割
- 4.3、参考分割
- 4.4、消融实验
- 4.5、定性结果
- 5、结论
- 致谢
摘要
论文:https://arxiv.org/pdf/2304.06718.pdf
Demo:https://huggingface.co/spaces/xdecoder/SEEM
尽管对交互式人工智能系统的需求日益增长,但在视觉理解方面的人-AI交互(如分割)的全面研究很少。受基于提示的LLM通用接口开发的启发,本文提出了SEEM,一种可提示的交互式模型,用于同时分割图像中所有地方的一切。SEEM有四个要求:
i) 通用性,通过为不同类型的提示引入一个通用的提示引擎,包括点、框、