最大熵模型

发布于:2025-08-08 ⋅ 阅读:(23) ⋅ 点赞:(0)

熵的基本概念

其实早期我也写过一篇有关熵的文章,现在旧事重提,主要专注理解和数学表达,如果想了解实际应用,可以看看我早期的那篇

熵的由来:从热力学难题到无序度的量化

熵的由来:从热力学难题到无序度的量化
熵(Entropy)的概念诞生于 19 世纪热力学的发展浪潮中,其核心驱动力是人类对 “热与功的转化规律” 的探索。

19 世纪初,工业革命推动了对蒸汽机效率的研究。1824 年,法国工程师萨迪・卡诺(Sadi Carnot)提出了理想的 “卡诺循环”,指出热机效率取决于高温热源与低温热源的温度差,但未解释 “为什么热量不能自发从低温传到高温” 这一核心问题。

1850 年,德国物理学家鲁道夫・克劳修斯(Rudolf Clausius)在总结卡诺理论的基础上,提出了热力学第二定律的一种表述:“不可能把热量从低温物体传到高温物体而不引起其他变化”。但这一表述是定性的,无法量化描述过程的 “方向性”。

为了定量表达热力学第二定律,克劳修斯进一步分析了卡诺循环中 “热量与温度的比值”。他发现,在可逆循环中,这个比值的总和为零,说明它是一个只与系统状态相关的 “状态函数”。1865 年,克劳修斯正式将这个状态函数命名为 “熵”(源自希腊语 “变换”,符号为S),并明确其物理意义:描述系统能量分布的 “无序程度”

熵的原理:无序度的自然演化规律

熵的核心原理可概括为 “熵增原理”,其本质是孤立系统的自然过程总是朝着 “无序度增加” 的方向进行,具体可从三个层面理解:

  1. 物理意义:熵是 “无序度” 的度量
  2. 熵增原理:孤立系统的必然趋势
  3. 熵增本质:不可逆性的根源

熵的量化数学表达:从宏观到微观的统一

1. 热力学中的熵变公式(宏观视角)

克劳修斯从卡诺循环中推导出,可逆过程中系统的熵变(ΔS)等于系统吸收的热量(Q)与热源温度(T,单位:开尔文K)的比值:ΔS= Q/T (可逆过程)
对于不可逆过程,由于实际热量传递存在损耗,熵变大于可逆过程的比值:ΔS> Q/T (不可逆过程)
物理意义:可逆过程中,熵变仅由能量传递和温度决定;不可逆过程中,额外的无序度(如摩擦生热)会导致熵增更大。

2. 统计力学中的玻尔兹曼熵公式(微观视角)

1877 年,奥地利物理学家路德维希・玻尔兹曼(Ludwig Boltzmann)从微观粒子运动的角度,建立了熵与 “微观状态数” 的联系,公式为:S=klnΩ

  • k:玻尔兹曼常数(k≈1.38×10−23J/K),是联系宏观与微观的桥梁;
  • Ω:系统的微观状态数(满足宏观条件时,所有可能的粒子排列方式总数)。

这一公式深刻揭示了熵的本质:熵是微观无序度的对数度量。例如,1 个分子在 2 个体积相等的容器中,微观状态数Ω=2,熵
S=kln2;若分子数增加,Ω呈指数增长,熵也随之剧增。

3. 绝对熵与热力学第三定律

1906 年,能斯特提出热力学第三定律:“绝对零度(0K)时,完美晶体的熵为零”。
基于此,可定义 “绝对熵”(某温度下系统的熵值):从绝对零度到目标温度,通过可逆过程的熵变累积计算:
在这里插入图片描述

  • C_p:定压热容(单位:J/(mol·K)),描述物质吸热升温的能力。

4. 延伸:信息论中的香农熵

1948 年,克劳德・香农(Claude Shannon)将熵的概念推广到信息领域,定义 “信息熵” 描述信息的 “不确定性”:
在这里插入图片描述

  • p_i:第i种信息状态的概率;
    物理意义:概率分布越均匀(不确定性越高),信息熵越大(如 “掷硬币” 的熵高于 “掷骰子”)。

熵的发展贯穿了从宏观热学到微观统计力学的跨越,其核心是对 “无序度” 的量化。

最大熵应用案例

世界的本质或许是熵增,因此,我们不妨在遇到欠定方程时,把最大熵当成最优解情景
下面以掷骰子为例,结合 “已知四点朝上的概率为 1/3” 这一约束,用最大熵原理 + 拉格朗日乘子法求解概率分布

一、问题定义

一个骰子有 6 个面(点数 1-6),设每个面朝上的概率为
p_1,p_2,p_3 ,p_4,p_5,p_6(p_i ≥0),已知两个约束:

概率归一化:p_1+p_2+p_3+p_4+p_5+p_6=1;
四点概率约束:p_4= 1/3

这里有 6 个未知数(p_1到 p_6),但只有 2 个约束方程,属于欠定方程组(无穷多解)。我们需要用最大熵原理选出 “最合理” 的解 —— 即使熵最大的概率分布。

二、熵的定义

离散概率分布的熵为:
在这里插入图片描述
目标:在满足上述两个约束的条件下,最大化 H。

三、用拉格朗日乘子法求解

步骤 1:构造拉格朗日函数

目标是最大化熵 H,等价于最小化 −H(便于构造函数)。拉格朗日函数为:
在这里插入图片描述
其中:

  • ∑p_ilnp_i是 −H(目标函数,需最小化)
  • λ_1 ,λ_2是拉格朗日乘子
  • 括号内为约束条件的变形(确保等于 0)

步骤 2:求偏导数并令其为 0

对每个p_i求偏导,令偏导数为 0(极值条件):
对 p_1 ,p_2 ,p_3 ,p_5 ,p_6(非四点)求偏导(以 p_1为例):
在这里插入图片描述
整理得:
在这里插入图片描述
同理,
在这里插入图片描述
对p_4求偏导:
在这里插入图片描述
但已知p_4=1/3,代入后可解出λ_2(此处暂不需要具体值)

步骤 3:用约束条件求解常数 C

由归一化约束
p_1+p_2+p_3+p_4+p_5+p_6=1,代入已知条件:C+C+C+1/3+C+C=1

即:
5C+1/3 =1⇒5C= 2/3 ⇒C= 2/15

步骤 4:得到最大熵解

最终概率分布为:
在这里插入图片描述


网站公告

今日签到

点亮在社区的每一天
去签到