香农熵

时间:2024-03-21 00:52:05编辑:奇事君

信息论——香农熵

信息论是量化处理信息的科学分支。处理数据信息集合前后信息发生的变化称为信息增益,信息增益越高的特征就是越好的选择。

集合信息的度量方式称为 香农熵 或简称 熵,源于信息理论之父“克劳德·香农”。

信息量越大,特征越多,权重越小

熵: 信息的期望值。

在多分类的事务中,假设 的信息为:

           

            注 : =     真数的指数与不转换结果相同

其中 是该选择分类事务的概率。计算熵则需要计算所有类别中所有 可能值包含的信息期望值(n是分类数目):

         







线性转换:

    注意 线性的最高次项为1,否则就是非线性

    lambda乘以一个系数常量{x_1}

    如果(线性):

        z = wx + b

        乘积与变量x有关系 则看作为系数

                            没关系 则看作常量

指数转换:

    softmax非线性转换(存在指数操作)

    作用:大的更大,小的更小,差别更加明显

最大似然函数的负数,成为所求的损失函数(解决问题的一种思想)

大数定理:

    当频率大到一定程度就是概率

激活函数:

    神经网络也是线性的

    将激活信息(幂函数、指数函数)向后传入下一层神经网络,解决非线性问题

    如果(线性):

        z = wx + b

        乘积与变量x有关系看作为系数

                    没关系看作常量

    如果(非线性):

        加入了幂函数{e^x}等

矩阵中:

    一行是一个样本,一列是一个特征

线性回归就是神经网络

在python中如何取消返回值使用(不用相应位置的返回值):

    _, book, hook = function()

PS:

    污点修复工具,先刷背景也可以 思想(不太好用)

    修复画笔工具,alt+鼠标右键调整硬度和上下调整直径

                             alt+鼠标左键复制replication所选区域样本

    通过已经完成图片叠压修图更快、更轻松


什么是信息熵、条件熵和信息增益

信息增益描述了一个特征带来的信息量的多少,往往用于特征选择


信息增益 = 信息熵 - 条件熵

一个特征往往会使一个随机变量Y的信息量减少,减少的部分就是信息增益

一个例子

如图所示,目标值是:playtennis,也就是是否打球

有四个特征:天气、温度、湿度、风

信息熵

信息熵的公式:

H(X)=−∑i=1np(xi)logp(xi)

以上图为例,设是否打球这一随机变量为Y,则

p(y=yes)=514

p(y=no)=914

所以H(Y)=−514∗log(514)−914∗log(914)=0.6518

条件熵

条件熵表示在条件X下Y的信息熵。公式如下:

H(Y|X)=∑x∈Xp(x)H(Y|X=x)

在上图的例子中,设humidity湿度为随机变量X

则,p(x=high)=7/14=1/2=p1

p(x=normal)=7/14=1/2=p2

所以,H(Y|X)=p1*H(Y|X=high)+p2*H(Y|X=normal)

而接下来就是计算H(Y|X=high)和H(Y|X=normal)

根据信息熵的计算方法可以得出:

H(Y|X=high)=-4/7*log(4/7)-3/7*log(3/7) = 0.6829

H(Y|X=normal)=-1/7*log(1/7)-6/7*log(6/7) = 0.4101

因此,条件熵为:1/2*0.6829+1/2*0.4101=0.5465

信息增益

信息增益 = 信息熵 - 条件熵=0.6518-0.5465=0.1053

也就是说,引入了湿度humidity这个变量之后,就使得是否打球这个变量的信息量就从0.6518减小到了0.5465

信息量是描述变量的不确定性的,值越大,就表示这个事件越不确定

因此,湿度这个变量的引进,使得这种不确定性降低了,有利于做决定

信息增益常用于决策树的构建,和特征选择


人工智能通识-科普-信息熵和信息量

信息论中的熵如何度量的? 信息是否可以有统一的度量标准? 当你收到两条不同信息的时候,是否有方法可以度量那一条包含更多内容? 信息论之父克劳德香农Claude Shannon对这一切给出了数学量化方法,提出信息熵和信息量的概念。 同热力学中熵的概念一致,信息熵也是用于表现系统的无序随机程度。 硬币只有正反两面,随机投掷后落地只有两种可能;而骰子有六种可能。所以随意投出的投资比随意投出的硬币具有更多的随机性,或者说硬币的确定性更多一些。 明显的,信息A的信息量更大,因为它消除了另外5种可能;而信息B则只消除了另外一种可能。 当一条信息出现的时候,也意味着背后的随机性的消失。信息熵是对系统背后所有随机可能性的度量,信息量是指特定信息能够消除多少随机性(熵)。 信息熵和信息量之间的关系是什么? 特定信息的出现都是有概率的。比如说“硬币落地正面朝上”这个信息的概率是1/2,而“骰子落地显示5点”这个信息的概率是1/6。 以骰子来看,每个点数的信息都可以消除另外5种随机可能,那么我们把这些信息量相加就得到了所有可以被消除的熵的总和,但需要注意的是,每个点数都只有1/6概率出现,所以我们还需要乘以这个概率,那么我们就得到: 其中: 以上的信息熵公式中的信息量h(x)如何定义? 首先这是纯粹由人来设定的含义,应该方便于表达和计算。克劳德香农主要考虑到信息量应该具有以下特征: 我们知道,多个事件叠加的结果需要概率相乘,比如两个骰子,“A:其中一个投出6点”,“B:另一个投出5点”,那么叠加后“C:一个投出6点,另一个投出5点”,对于概率应该是P(C)=P(A)·P(B),这里C事件出现的概率是1/6乘1/6等于1/36。 矛盾出现了,h(x)和1/P(x)成正比,但是又要满足 和 ,这可能吗? 可以的,香农经过数学推理之后得到结论,信息量必须是可能性P的倒数的对数: 这里的对数log的底数可以是10或自然对数e或者任意数字,但在香农的信息论中都使用2。 那么对于“硬币正面向上”这个信息,它的信息量就是 ,这个也是香农设定的信息量单位,也叫香农单位,其实也对应了1比特。 而对于四种平均随机可能的情况,每一种的信息量就是 ,对应2比特的信息量。 骰子的每种情况的信息量是 ,可以是小数。 这个信息量公式的另一种表达方式是改为: 所以整体信息熵的计算公式就是: 或写作: 按照这个公式计算扔硬币系统的信息熵是 ,而四种可能性的随机系统的信息熵是 ,骰子系统的信息熵是 。 很明显,系统的信息熵和单条信息量是相等的。但请注意,这里存在一个前提,那就是: 此条信息必须能够让系统变得完全确定 。对于“骰子投出的点数大于3”这样的信息就不可以简单的用这样的算法来计算。 如果一条信息能够消除系统所有的不确定性,那么它所蕴含的信息量与整个系统的信息熵一样多。 硬币和骰子和四种可能的例子几乎都是所有事件(每条信息)的发生概率相等的情况,对于更复杂的情况我们将在后面的文章中继续讨论。 END

上一篇:酒店预订系统

下一篇:条件必需氨基酸