随着图像资源的不断积累,如何有效地表示图像的语义信息成为提高图像检索效率的关键问题。由武汉大学信息管理学院的李旭晖、吴燕秋和王晓光教授合著论文《演化视角下图像的语义表示》中提出了一种基于“演化”视角的图像语义层次描述框架来剖析图像的语义表示问题。
- 第一层:关注整体感官信息(如色彩、形状等),属于非语义信息
- 第二层:关注图像中的实体与场景
- 第三层:聚焦实体的行为,识别其行为内涵与情感,形成交互语义
- 第四层:综合与总结前面各层次的信息,进行整体语义概括
层次描述框架
论文中提出的层次描述框架分为四个层次:整体感官信息、实体与场景、行为语义和整体语义回归。每个层次分别描述不同的语义信息,逐步构建完整的图像语义表示。
第一层:整体感官信息
- 描述内容: 基础视觉特征,包括纹理、色彩、形状和空间分布。
- 特点: 非语义性信息,属于客观视觉描述。
- 纹理:图像表面的质感,如粗糙、光滑等。
- 色彩:图像的颜色组合和色彩分布。
- 形状:图像中物体的几何形状。
- 空间分布:物体在图像中的位置关系,如左上角、中心等。
第二层:实体与场景
- 描述内容: 图像中的具体实体(人物、物体等)和场景。
- 特点: 包括实体识别、交互位置关系和场景确定。
- 实体识别:通过衣着、外貌等属性判断图像中的人和物体。
- 交互位置关系:描述实体之间的相对位置,如左边、附近等。
- 场景确定:实体所在的背景和环境,如教室、森林等。
第三层:行为语义
- 描述内容: 识别图像中实体的行为及其情感,描述建立在行为与交互位置关系之上的交互语义。
- 特点: 强调动态的行为和情感信息。
- 行为识别:实体在特定情境下的具体动作,如拥抱、走路等。
- 情感识别:实体在执行行为时的情感,如高兴、悲伤等。
- 交互语义:行为和位置关系基础上的交互,如“抱”这一动作需要两个实体“近距离”的交互位置,并存在“主体”与“客体”的关系。
第四层:整体语义回归
- 描述内容: 进行整体语义的回归与概括,判断图像中所描述的事件或活动。
- 特点: 综合与总结前面各层次的信息,抽象程度最高。
- 事件和活动的判断:综合语义信息,对图像整体语义进行总结,如某一场景中的具体事件或活动。
- 语义整合:将局部和聚焦的信息进行整合,形成对整体事件的语义理解。
- 反向推断:通过综合信息,反向推断出场景和活动的整体语义。
参考文献
- 李旭晖,吴燕秋,王晓光.演化视角下图像的语义表示[J].图书情报知识,2017,(06):79-86.DOI:10.13366/j.dik.2017.06.079.