系列文章目录
凸优化理论学习一|最优化及凸集的基本概念
凸优化理论学习二|凸函数及其相关概念
凸优化理论学习三|凸优化问题(一)
凸优化理论学习四|凸优化问题(二)
凸优化理论学习五|对偶性
凸优化理论学习六|近似和拟合
文章目录
一、最大似然估计
(一)最大似然估计与凸优化
在参数分布估计中,我们选择一个参数 x x x 来使得观测数据 y y y的概率 p x ( y ) p_x(y) px(y)最大。通过对数变换得到的对数似然函数 l ( x ) = l o g p x ( y ) l(x)=log\ p_x(y) l(x)=log px(y)可以简化计算。如果对数似然函数在固定 y y y的情况下对参数 x x x是凹的(即二阶导数为负或者半正定),那么这是一个凸优化问题。(与 l o g p x ( y ) log\ p_x(y) log px(y)在固定 x x x的情况下对 y y y凹是不同的,即 p x ( y ) p_x(y) px(y)是一组对数凹密度)
(二)带有独立同分布(IID)噪声的线性测量模型
线性测量模型: y i = a i T x + v i , i = 1 , . . . , m y_i=a_i^Tx+v_i,i=1,...,m yi=aiTx+vi,i=1,...,m
- x ∈ R n x\in R^n x∈Rn是未知参数向量
- v i v_i vi是独立同分布的测量噪声,具有密度函数 p ( z ) p(z) p(z)
- y i y_i yi是测量值, y ∈ R m y\in R^m y∈Rm是测量值的向量,测量值 y y y的密度函数为 p x ( y ) = ∏ i = 1 m p ( y i − a i T x ) p_x(y)=\prod_{i=1}^m p(y_i-a^T_ix) px(y)=∏i=1mp(yi−aiTx)
- a i ∈ R n a_i \in R^n ai∈Rn是已知的系数向量
最大似然估计:
x M L E = a r g m a x x ∑ i = 1 m l o g p ( y i − a i T x ) x_{MLE}=argmax_x\sum_{i=1}^mlog p(y_i-a_i^Tx) xMLE=argmaxxi=1∑mlogp(yi−aiTx)
(三)逻辑回归
随机变量 y ∈ {0, 1}具有的分布:
p = p r o b ( y = 1 ) = e x p ( a T u + b ) 1 + e x p ( a T u + b ) p=prob(y=1)=\frac{exp(a^Tu+b)}{1+exp(a^Tu+b)} p=prob(y=1)=1+exp(aTu+b)exp(aTu+b)
根据 m 个观测值 ( u i , y i ) (u_i, y_i) (ui,yi)估计 a、b(凹的) :( y 1 = y 2 = . . . = y k = 1 , y k + 1 = . . . = y m = 0 y_1=y_2=...=y_k=1,y_{k+1}=...=y_m=0 y1=y2=...=yk=1,yk+1=...=ym=0)
(四)高斯协方差估计
将高斯分布 N ( 0 , Σ ) N (0, Σ) N(0,Σ) 拟合到观测数据 y 1 , . . . , y N y_1, ..., y_N y1,...,yN:
- Y Y Y是经验协方差矩阵: Y = ( 1 / N ) ∑ k = 1 N y k y k T Y=(1/N)\sum_{k=1}^Ny_ky_k^T Y=(1/N)∑k=1NykykT
- 在没有约束或正则化的情况下,MLE的解是经验协方差矩阵,即 Σ m l = Y \Sigma_{ml}=Y Σml=Y
对数似然函数 l l l 对于 Σ Σ Σ 来说不是凹的,这使得优化问题变得复杂,可以通过更改变量 S = Σ − 1 S=\Sigma^{-1} S=Σ−1的方式来变为凹的:
L ( S ) = N 2 ( − 2 π n + l o g d e t S − t r S Y ) L(S)=\frac{N}{2}(-2\pi n+log \ det\ S-tr\ SY) L(S)=2N(−2πn+log det S−tr SY)
- S S S 是高斯的精度矩阵, S i j = 0 S_{ij} = 0 Sij=0 表示 y i y_i yi 和 y j y_j yj 独立,条件是 y k , k ≠ i , j y_k, k ≠ i, j yk,k=i,j
- 稀疏 S S S意味着:
- 在给定其他成分的情况下,许多成分对是条件独立的
- y y y 由稀疏(高斯)贝叶斯网络描述
为了拟合稀疏的精度矩阵 S S S,最小化如下目标函数:(凸的)
m i n S ∈ S n − l o g d e t S + t r ( S Y ) + λ ∑ i ≠ j ∣ S i j ∣ min_{S\in S^n}-log\ det\ S+tr(SY)+\lambda \sum_{i\neq j}|S_{ij}| minS∈Sn−log det S+tr(SY)+λi=j∑∣Sij∣
- − l o g d e t S -log\ det\ S −log det S:
- 确保精度矩阵 S S S是正定的,并且具有稳定的数值性质
- 是关于 S 的凸函数,因为定义在正定矩阵上
- t r ( S Y ) tr(SY) tr(SY):
- 确保 S S S拟合数据的统计性质,即 S S S与数据的经验协方差矩阵 Y Y Y一致
- 是关于 S S S 的线性函数,因此也是凸的
- λ ∑ i ≠ j ∣ S i j ∣ \lambda \sum_{i\neq j}|S_{ij}| λ∑i=j∣Sij∣
- 通过惩罚 S S S中非对角元素的绝对值强制精度矩阵的稀疏性
- 是关于 S 的 l 1 l_1 l1范数,体现了稀疏性的正则化项,也是凸的
二、假设检验
(一)(二元)假设检验
在假设检验问题中,我们需要基于观察到的随机变量 X X X(取值范围为 { 1 , . . . , n } \{1,...,n\} {1,...,n})来在两个假设之间做出选择。这个问题的设定如下:
- 假设 1:随机变量 X X X 由分布 p = ( p 1 , . . . , p n ) p = (p_1, . . . , p_n) p=(p1,...,pn) 生成
- 假设 2:随机变量 X X X 由分布 q = ( q 1 , . . . , q n ) q = (q_1, . . . , q_n) q=(q1,...,qn) 生成
为了做出决策,我们使用一个随机检测器,其定义为一个非负矩阵 T ∈ R 2 × n T\in R^{2\times n} T∈R2×n,并满足以下性质:
- 非负矩阵 T ∈ R 2 × n T\in R^{2\times n} T∈R2×n每列的概率之和必须为1,即 1 T = 1 T 1^T=1^T 1T=1T,这保证了对于每个观察值 X X X,选择任意一个假设的概率之后为1
- 如果观察到 X = k X=k X=k,则以 t 1 k t_{1k} t1k的概率选择假设1,以 t 2 k t_{2k} t2k的概率选择假设2
- 如果 T T T的所有元素都是0或者1,就成为确定性检测器
(二)检测概率矩阵
P f p P_{fp} Pfp 和 P f n P_{fn} Pfn 是检测器的两个性能指标:
- P f p P_{fp} Pfp 是如果 X X X 由分布 1 生成(假阳性),则选择假设 2 的概率
- P f n P_{fn} Pfn 是如果 X 由分布 2 生成(假阴性),则选择假设 1 的概率
多目标检测器设计问题:
- 目标函数:最小化 ( P f p , P f n ) = ( ( T p ) 2 , ( T q ) 1 ) (P_{fp},P_{fn})=((Tp)_2,(Tq)_1) (Pfp,Pfn)=((Tp)2,(Tq)1)
- 约束条件:
- t 1 k + t 2 k = 1 , k = 1 , . . . , n t_{1k}+t_{2k}=1,\ k=1,...,n t1k+t2k=1, k=1,...,n
- t i k ≥ 0 , i = 1 , 2 , k = 1 , . . . , n t_{ik}\geq 0,\ i=1,2,\ k=1,...,n tik≥0, i=1,2, k=1,...,n
(三)标量化
标量化多目标检测器设计问题的核心思想是将多个目标函数组合成一个单一的标量目标函数,从而将多目标优化问题转化为单目标优化问题。用权重 λ > 0 \lambda>0 λ>0标量化以获得:
- 目标函数:最小化 ( T p ) 2 + λ ( T q ) 1 (Tp)_2+\lambda(Tq)_1 (Tp)2+λ(Tq)1
- 约束条件:
- t 1 k + t 2 k = 1 , k = 1 , . . . , n t_{1k}+t_{2k}=1,\ k=1,...,n t1k+t2k=1, k=1,...,n
- t i k ≥ 0 , i = 1 , 2 , k = 1 , . . . , n t_{ik}\geq 0,\ i=1,2,\ k=1,...,n tik≥0, i=1,2, k=1,...,n
这个问题可以转化为线性规划问题,因为它具有简单的分段线性特征,并且具有简单的解析解:
- 如果 p k ≥ λ q k p_k\geq \lambda q_k pk≥λqk,选择 t 1 k = 1 t_{1k}=1 t1k=1和 t 2 k = 0 t_{2k}=0 t2k=0
- 如果 p k ≤ λ q k p_k\leq \lambda q_k pk≤λqk,选择 t 1 k = 0 t_{1k}=0 t1k=0和 t 2 k = 1 t_{2k}=1 t2k=1
- 如果 p k = λ q k p_k = \lambda q_k pk=λqk,可以选择 0 ≤ t 1 k ≤ 1 0\leq t_{1k}\leq1 0≤t1k≤1,并令 t 1 k = 1 − t 2 k t_{1k}=1-t_{2k} t1k=1−t2k
(四)极大极小检测器
极大极小(Max-Min)检测器是一种常见的检测器设计方法,其目标是在所有可能情况下最大化最差情况的性能。这种方法的核心思想是,在考虑所有可能情况时,选择使得最差情况下性能最优的方案。
最小化假阳性和假阴性概率的最大值:
- 目标函数:最小化 m a x { P f p , P f n } = m a x { ( T p ) 2 , ( T q ) 1 } max\{P_{fp},P_{fn}\}=max\{(Tp)_2,(Tq)_1\} max{Pfp,Pfn}=max{(Tp)2,(Tq)1}
- 约束条件:
- t 1 k + t 2 k = 1 , k = 1 , . . . , n t_{1k}+t_{2k}=1,\ k=1,...,n t1k+t2k=1, k=1,...,n
- t i k ≥ 0 , i = 1 , 2 , k = 1 , . . . , n t_{ik}\geq 0,\ i=1,2,\ k=1,...,n tik≥0, i=1,2, k=1,...,n
极大极小检测器的解决方案通常不是确定性的。它具有较高的鲁棒性,适用于处理不确定性和变化的环境。但是设计和优化Max-Min检测器可能需要更多的计算资源和时间,因为需要考虑各种可能情况,并进行相应的优化。
三、实验设计
(一)选择 a i a_i ai使得 E E E最小化
设计一个实验,选择测量向量 a i a_i ai以最小化估计误差的协方差矩阵 E E E,具体来说,给定一下模型:
y i = a i T x + w i , i = 1 , . . . , m y_i=a_i^Tx+w_i,\ i=1,...,m yi=aiTx+wi, i=1,...,m
其中 w i w_i wi是独立同分布的 N ( 0 , 1 ) N(0,1) N(0,1)噪声;未知的向量 x x x通过最小二乘估计 x ^ \hat{x} x^来估计:
x ^ = ( ∑ i = 1 m a i a i T ) − 1 ∑ i = 1 m y a a i \hat{x}=(\sum_{i=1}^ma_ia_i^T)^{-1}\sum_{i=1}^my_aa_i x^=(i=1∑maiaiT)−1i=1∑myaai
估计误差 e = x ^ − x e=\hat{x}-x e=x^−x的协方差矩阵为:
E = E [ e e T ] = ( ∑ i = 1 m a i a i T ) − 1 E=E[ee^T]=(\sum_{i=1}^ma_ia_i^T)^{-1} E=E[eeT]=(i=1∑maiaiT)−1
置信椭球体由以下公式给出:
{ x ∣ ( x − x ^ ) T E − 1 ( x − x ^ ) ≤ β } \{x|(x-\hat{x})^TE^{-1}(x-\hat{x})\leq \beta\} {x∣(x−x^)TE−1(x−x^)≤β}
(二)向量优化公式
在向量优化问题中,我们的目标是通过选择合适的测量向量数量 m k m_k mk来最小化估计误差的协方差矩阵 E E E
∑ i = 1 m a i a i T = ∑ k = 1 p m k v k v k T \sum_{i=1}^ma_ia_i^T=\sum_{k=1}^pm_kv_kv_k^T i=1∑maiaiT=k=1∑pmkvkvkT
- 目标函数:最小化 E = ( ∑ k = 1 p m k v k v k T ) − 1 E=(\sum_{k=1}^pm_kv_kv_k^T)^{-1} E=(∑k=1pmkvkvkT)−1
- 约束条件:
- 非负性约束: m k ≥ 0 m_k\geq 0 mk≥0
- 和约束: m 1 + m 2 + . . . m p = m m_1+m_2+...m_p=m m1+m2+...mp=m
- 整数约束: m k ∈ Z m_k\in Z mk∈Z
其中,变量 m k m_k mk表示等于向量 v k v_k vk的测量变量 a i a_i ai的数量。由于整数约束的存在,直接优化 E E E可能困难,我们通常采用常见的标量化方法来简化问题:最小化对数行列式( m i n l o g d e t ( E ) min\ log\ det(E) min log det(E))、最小化迹( m i n t r ( E ) min\ tr(E) min tr(E))、最小化最大特征值( m i n λ m a x ( E ) min\ \lambda_{max}(E) min λmax(E))
(三)宽松的实验设计
假设 m > > p m>>p m>>p,可以将 λ k = m k / m \lambda_k=m_k/m λk=mk/m视为连续的实数变量,这样可以重新表达约束条件和优化目标:
- 目标函数:最小化 E = ( ( 1 / m ) ∑ k = 1 p λ k v k v k T ) − 1 E=((1/m)\sum_{k=1}^p\lambda_kv_kv_k^T)^{-1} E=((1/m)∑k=1pλkvkvkT)−1
- 约束条件: λ ≥ 0 , 1 T λ = 1 \lambda\geq 0,\ 1^T\lambda=1 λ≥0, 1Tλ=1
通过将 m k m_k mk替换为了 m λ k m\lambda_k mλk,就将原始的整数约束转换为了 λ k \lambda_k λk的连续约束:
- 这使得优化问题更易于处理,因为我们可以使用标准的优化技术来解决它。
- 可能会导致结果的微小变化:最优值是(整数)实验设计问题的最优值的下界。因此,在实践中,我们可能需要考虑如何处理这种近似所带来的影响,以及如何选择适当的 m 值来保证结果的准确性。
(四)D-最优设计问题
D-最优设计是实验设计中的一种方法,通过选择设计点来最小化估计参数的协方差矩阵的行列式,从而最小化估计的不确定性。具体而言,D-最优设计最小化的是协方差矩阵行列式的对数。
通过对数行列式进行标量化:
- 目标函数:最小化 l o g d e t ( ∑ k = 1 p λ k v k v k T ) − 1 log\ det\ (\sum_{k=1}^p\lambda_kv_kv_k^T)^{-1} log det (∑k=1pλkvkvkT)−1
- 约束条件: λ ≥ 0 , 1 T λ = 1 \lambda\geq 0,\ 1^T\lambda=1 λ≥0, 1Tλ=1
行列式的几何解释是对应置信椭球体的体积,因此最小化协方差矩阵的行列式的对数相当于最小化估计的不确定性,使得置信椭球体的体积最小。
(五)D-最优实验设计问题的对偶
对偶问题:
- 目标函数:最小化 l o g d e t W + n l o g n log\ det \ W+nlog\ n log det W+nlog n
- 约束条件: v K T W v k ≤ 1 , k = 1 , . . . , p v_K^TWv_k\leq 1,\ k=1,...,p vKTWvk≤1, k=1,...,p
对偶问题的约束条件表示所有的测试向量 v k v_k vk都包含在由矩阵 W W W定义的椭球体内,该椭球体的定义为: { x ∣ x T W x ≤ 1 } \{x | x^T Wx ≤ 1\} {x∣xTWx≤1}, 是以原点为中心的最小体积椭球体,包括所有测试向量 v k v_k vk。
互补松弛性:
λ k ( 1 − v k T W v k ) = 0 , k = 1 , . . . , p \lambda_k(1-v_k^TWv_k)=0,\ k=1,...,p λk(1−vkTWvk)=0, k=1,...,p
互补松弛条件在原始问题和对偶问题之间提供了一个连接。对于每个 k k k,要么 λ k = 0 \lambda_k=0 λk=0,要么 v k v_k vk恰好位于椭球体的边界上。
(六)对偶的推导
为了推导 D-最优实验设计问题的对偶问题,我们首先重新表述原始问题并引入一个新的变量 X X X:
- 目标函数:最小化 l o g d e t X − 1 log\ det X^{-1} log detX−1
- 约束条件: X = ∑ k = 1 p λ k v k v k T , λ ≥ 0 , 1 T λ = 1 X=\sum_{k=1}^p\lambda_kv_kv_k^T,\ \lambda\geq 0,\ 1^T\lambda=1 X=∑k=1pλkvkvkT, λ≥0, 1Tλ=1
引入拉格朗日乘子 Z Z Z 和 z z z,以及标量乘子 ν ν ν,构造拉格朗日函数:
L ( X , λ , Z , z , v ) = l o g d e t X − 1 + t r ( Z ( X − ∑ k = 1 p λ k v k v k T ) ) − z T λ + v ( 1 T λ − 1 ) L(X,\lambda,Z,z,v)=log\ det\ X^{-1}+tr(Z(X-\sum_{k=1}^p\lambda_kv_kv_k^T))-z^T\lambda+v(1^T\lambda-1) L(X,λ,Z,z,v)=log det X−1+tr(Z(X−k=1∑pλkvkvkT))−zTλ+v(1Tλ−1)
通过将梯度设置为零来最小化 X X X: − X − 1 + Z = 0 −X−1 + Z = 0 −X−1+Z=0,而 λ k \lambda_k λk的最小值是 − ∞ -∞ −∞,除非 − v k T Z v k − z k + v = 0 -v_k^TZv_k-z_k+v=0 −vkTZvk−zk+v=0,因此有 z k = v − v k T Z v k z_k=v-v_k^TZv_k zk=v−vkTZvk
将这些结果代入拉格朗日函数消去 X X X和 λ k \lambda_k λk可以得到对偶函数:
- 目标函数:最大化 n + l o g d e t Z − v n+log\ det Z-v n+log detZ−v
- 约束条件: v k T Z v k ≤ v , k = 1 , . . . , p v_k^TZv_k\leq v,\ k=1,...,p vkTZvk≤v, k=1,...,p