目录
本文章内容参考:
一. 概念
二. 特点
三. 实现步骤
四. 代码实现
本文章内容参考:
熵权法模型讲解(附matlab和python代码) 【数学建模快速入门】数模加油站 江北_哔哩哔哩_bilibili
一. 概念
利用信息熵计算各个指标的权重,从而为多指标的评价类问题提供依据。
根据信息熵的定义,对于某项指标,可以用熵值来判断某个指标的离散程度,其信息熵值越小,指标的离散程度越大, 该指标对综合评价的影响(即权重)就越大,如果某项指标的值全部相等,则该指标在综合评价中不起作用。
指标的变异程度越小,所反映的信息量也越少,所以其对应的权值也应该越低。
指标的变异程度(或称为变异性、波动性):描述了一个指标在不同观测值之间的差异程度或分散程度。简单来说,它反映了数据的分布宽度和离散情况。
也即如果一个指标的波动性越小,说明该指标对最终结果的影响理应越小,也即其对应权值更低。
信息熵公式:
- :表示随机变量 的熵。熵衡量了随机变量的不确定性或信息量。熵越大,随机变量的不确定性越高。
- :随机变量 的一种取值情况。
- :随机变量 取值为 的概率。每个 都有一个与之对应的概率 。
- : 的二进制对数。对数的底数为 2,因此它表示的是以比特为单位的信息量。具体来说, 衡量了事件 发生时的信息量。
由于概率 总是介于 0 和 1 之间, 会是一个负数。负号保证了整个熵的值为正数。
这个公式通过对所有可能取值的信息量加权求和,衡量了随机变量 的不确定性。熵值越大,说明随机变量 的不确定性越高。
二. 特点
熵权法是一种客观的赋权方法,它可以靠数据本身得出权重,避免了主观因素的介入。
三. 实现步骤
一开始的两步也即原始矩阵正向化,标准化同Topsis法,看过了可以跳过前两步。
1. 原始矩阵正向化
矩阵正向化的过程就是把后三种指标类型通过数值转换,转化极大型指标的指标特点,也即其值越大越好。
转化方式如下公式:
上面带个~的值的是原始矩阵正向化后指标转换后对应的值,极大型指标无需转换。
一个转换过程的例子如下(其中颜值是极大型指标无需转换,脾气是极小型指标,身高是中间型指标,体重是区间型指标):
2. 正向化矩阵标准化
标准化的目的是为了消除不同指标的量纲影响,仅保留指标的基本特征,使得所有特征具有相同的权重。这样在计算距离(如欧氏距离)或相似性时,不会因为某个特征的数值范围过大而主导计算结果。
对其标准化的矩阵记为 R ,则 R 中的每一个元素为:
上文提到标准化的目的是为了让所有特征先具有相同的权重。
在Topsis法中我们提到,在实际情况中,不同的指标对结果的影响程度必然是有所差异的,所有要建立更加符合现实情况的模型,我们还需要将标准化后的矩阵再给不同指标加上不同的权重,后面的熵权法步骤就是用来计算不同指标的权重的过程。
下图是正向化矩阵标准化的过程:
3. 计算概率矩阵 P
计算标准化矩阵第 项指标下第 个样本所占的比重
过程如下:
4. 计算熵权
信息熵的计算公式:
信息熵 用于衡量第 个指标的不确定性。它的计算公式为:
- 表示第 个指标在第 个样本中的比例(标准化值)。
- 表示样本数量。
因为当 时,信息熵 达到最大值 ,此时信息熵最大,但该指标几乎不波动,代表其信息效用值最小。
信息效用值的定义:
信息效用值 定义为信息熵的补值,用于衡量该指标的有用信息量。它的计算公式为:
当信息熵 越小,信息效用值 越大,说明该指标提供的信息越有用,所以其对结果的影响越大。
熵权的归一化:
最终,通过对信息效用值 进行归一化,得到每个指标的权重 :
- 是指标的总数量。
- 是第 个指标的权重。