文章目录
- 模式分类中的特征融合方法
- 引入
- 现状 ( < 2017)
- 算法
- 基于贝叶斯理论的特征融合算法
- 决策级水平融合(*)
- 特征级水平融合
- 基于稀疏表示理论的特征融合算法
- 基于深度学习的特征融合算法
- 偏传统的特征融合方法[^6]
- 一些多模态特征融合的思路方法[^7]
- 基于线性规划模型
- 基于稀疏高维映射
- Adaboost 算法其实也可以看成是一种特征融合的算法
- 字典学习 系数表示 特征融合
- 多维度是数学上的,即张量
- 多模态是数据类型上的,比如音频,视频,图像,传感器回传数值
模式分类中的特征融合方法
引入
- 传统模式识别思路:特征工程(特征提取、特征降维、特征融合等)、分类器设计、训练测试
- 特征如:颜色特征、SIFT特征、HOG特征、HOF特征、GIST特征等
- 分类器如:KNN、SVM,Random Forest、CNN等
- 特征分为:人工设计的特征 和 深度特征,前者特点鲜明意义明确,后者面向具体问题(即理解为 提取的特征 是针对
CNN训练时侧重
的具体问题和场景 ) - 一般 特征存在:
类内方差小 而 类间方差大
(即不同样本的同种特征的差异小,而不同的特征的差异大),所以从这里就可以知道多模态的特征
融合 不能是 简单的相加相减或者拼接就完事了,会导致可能融合的特征会出现 被某种特征 所主宰 的情况。所以特征融合是能好好研究的(即研究有难度、有价值 和 有意义) - 基于两个经验前提:① 不同特征有 独立性(即相关性小)② 多特征融合 较 单一特征 可分类性能更好
- 为啥这样说呢?就是 三个臭皮匠顶个诸葛亮,每个特征 管图像目标的 一方面特性,那融合后的特征表示就更加能全面的表示目标/图像,即使 不同图像 的 部分特征的差异小,其他特征仍有区分度,所以整个算法也就更加 rubust(鲁棒性)
- 信息融合 从处理层次划分为:决策级(分类器级 decision level fusion)、特征级( feature level fusion) 和 数据(这里就是图像)级(data level fusion)
- 所以特征融合 处于中间层次融合的 这种地位
- 本质就是 基于已有特征集合 生成 新的更鲁棒更精确全面 的特征
现状 ( < 2017)
- 贝叶斯决策理论1:总结了乘法规则、加法规则、最大规则、最小规则、中位数规则、多数票规则等经典的融合规则
- 基于联合稀疏表示的特征级融合方法2:
- 稀疏核降秩回归模型3 ( SKRRR, sparse kernel reducedrank regression)
- 图像检索中的重排序( re-ranking) 问题中4
- balaba (介绍了 视频处理的涉及特征融合的 算法 雨女无瓜)
- 总结特征融合的研究现状:
- 基于贝叶斯决策理论的算法, 它的基础是统计推断和估计理论, 这类算法目的在于求解联合概率密度;
- 基于稀疏表示理论的算法, 这类算法通常与最优化理论相结合, 将
特征融合问题转化为优化问题, 进而求解联合稀疏表示来达到融合目的; - 基于深度学习理论的算法, 这种算法的主要思想是在深度卷积神经网
络中加入特征融合过程, 以改进网络模型.
算法
基于贝叶斯理论的特征融合算法
决策级水平融合(*)
- 该理论先从决策级发展出来的,一句话,取后验概率最大的类别标签作为最终 类别
- x:分类器输出结果;w:分类标签
x → ω j , if F ( ω j ) = max k = 1 , ⋯ , C P ( ω k ∣ x ) P ( ω k ∣ x 1 , ⋯ , x M ) = p ( x 1 , ⋯ , x M ∣ ω k ) p ( ω k ) p ( x 1 , ⋯ , x M ) \begin{aligned} & x \rightarrow \omega_{j}, \\ \text { if } F\left(\omega_{j}\right) &=\max _{k=1, \cdots, C} P\left(\omega_{k} \mid x\right) \end{aligned} \\ P\left(\omega_{k} \mid \boldsymbol{x}_{1}, \cdots, \boldsymbol{x}_{M}\right)=\frac{p\left(\boldsymbol{x}_{1}, \cdots, \boldsymbol{x}_{M} \mid \omega_{k}\right) p\left(\omega_{k}\right)}{p\left(\boldsymbol{x}_{1}, \cdots, \boldsymbol{x}_{M}\right)} if F(ωj)x→ωj,=k=1,⋯,CmaxP(ωk∣x)P(ωk∣x1,⋯,xM)=p(x1,⋯,xM)p(x1,⋯,xM∣ωk)p(ωk) - 防止除0,直接取对数:
Z → ω j if F ( ω j ) = max k = 1 [ ( 1 − M ) P ( ω k ) + ∑ i = 1 M P ( ω k ∣ x i ) ] \begin{array}{c} Z \rightarrow \omega_{j} \\ \text { if } F\left(\omega_{j}\right)= \\ \max _{k=1}\left[(1-M) P\left(\omega_{k}\right)+ \sum_{i=1}^{M} P\left(\omega_{k} \mid x_{i}\right)\right] \end{array} Z→ωj if F(ωj)=maxk=1[(1−M)P(ωk)+∑i=1MP(ωk∣xi)] - 先验后验近似相等情况下,认为:
P ( ω k ∣ x k ) = P ( ω k ) ( 1 + δ k i ) P\left(\omega_{k} \mid \boldsymbol{x}_{k}\right)=P\left(\omega_{k}\right)\left(1+\delta_{k i}\right) P(ωk∣xk)=P(ωk)(1+δki) - 搞一堆公式,最后发现,近似取 P ( ω k ) P\left(\omega_{k}\right) P(ωk) 最大的标签就完事了!
特征级水平融合
- 由于
分类器独立性假设与先验概率和后验概率近似相等假设
都有相应的成立条件, 在各种应用情景中不一定完全成立, 尤其是分类器独立性假设
在许多分类问题中都难以成立. - 线性特征依赖模型5:该算法将特征量的每个维度都看作一个分类器, 致使运算时间复杂度较高, 有待改进. 评价:卵用没有
基于稀疏表示理论的特征融合算法
- 稀疏表示理论是信号处理领域的一种基础理论, 它的基本思想是使用数据稀疏性这一先验知识,从一个超完备字典中找到尽可能少的原子对目标信号进行线性表示.
min ∥ x ∥ 0 s.t. A x = b \begin{array}{l} \min \|\boldsymbol{x}\|_{0} \\ \text { s.t. } \boldsymbol{A x}=\boldsymbol{b} \end{array} min∥x∥0 s.t. Ax=b - A是字典,b是特征
- 学习 稀疏表示矩阵x
- 显然稀疏表达的效果好坏和我们用的字典有着密切的关系。字典分两类,一种是预先给定的分析字典,比如小波基、DCT等,另一种则是针对特定数据集学习出特定的字典。这种学出来的字典能大大提升在特定数据集的效果。
基于深度学习的特征融合算法
- 略
偏传统的特征融合方法6
- 下图这种方法,可以作为毕设中 偏机器学习特征融合算法的 补充
- 直接用全连接层,这种方法需要你手动框选出一些目标区域和(背景/Distractor)作为样本,上述是一种 图像分类网络,只不过特征是手动设计的
- 类似的,可以采用随机森林替代全连接层
一些多模态特征融合的思路方法7
基于线性规划模型
- 线性分类器, y ( x ) = w T ⋅ x + c y(\mathbf{x})=w^{T} \cdot \mathbf{x}+c y(x)=wT⋅x+c
- 建模成为一个具有稀疏性的线性规划模型,并从最大间隔原理、稀疏性和松弛变量三个方面,分别详细地阐述和分析该学习方法的原理和作用。
- 作者就是在把 SVM写了一遍 … …
- 这里还是做了一个分类器,直接就是线性分类器,权重w就是在表示 改特征的重要性!
基于稀疏高维映射
- 乱七八糟,不知所云
Adaboost 算法其实也可以看成是一种特征融合的算法
字典学习 系数表示 特征融合
- 多特征联合稀疏表示人脸表情识别方法8 Page 34
Kittler J, Hatef M, Duin R P W, et al. On combining classifiers[J]. IEEE transactions on pattern analysis and machine intelligence, 1998, 20(3): 226-239. ↩︎
Shekhar S, Patel V M, Nasrabadi N M, et al. Joint sparse representation for robust multimodal biometrics recognition[J]. IEEE Transactions on pattern analysis and machine intelligence, 2013, 36(1): 113-126. ↩︎
Yan J, Zheng W, Xu Q, et al. Sparse kernel reduced-rank regression for bimodal emotion recognition from facial expression and speech[J]. IEEE Transactions on Multimedia, 2016, 18(7): 1319-1329. ↩︎
Bai S, Bai X. Sparse contextual activation for efficient visual re-ranking[J]. IEEE Transactions on Image Processing, 2016, 25(3): 1056-1069. ↩︎
A. J. Ma, P. C. Yuen and J. Lai, “Linear Dependency Modeling for Classifier Fusion and Feature Combination,” in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 35, no. 5, pp. 1135-1148, May 2013, doi: 10.1109/TPAMI.2012.198. ↩︎
面向目标识别的多特征融合研究与实现 ↩︎
基于特征层与分数层的多模态生物特征融合 ↩︎
多特征融合人脸表情识别方法研究_丁泽超 ↩︎