紧接上文阿黎一只喵:计算广告-广告智能出价原理-出价的数学建模本部分将介绍出价的工业系统设计。
出价技术的演进路线可以分为四个阶段
预算消耗控制,通过控制预算的消耗速度尽可能平滑来优化效果,一般通过比较经典的控制算法如PID,MPC等,在假设竞价环境中流量分布均匀的情况下,这种方法能够达到比较好的效果
RL-based Bidding,现实环境中的竞价环境是非常复杂且动态变化的,只控制预算无法满足更多样的出价计划的进一步优化,在预算周期内,前面花的好不好会影响到后面的出价决策,而这正是强化学习的强项,基于历史的出价环境和之前的投放表现动态调控出价效果,能够带来更好的调控效果。
SORL,它的特点是针对强化学习中离线仿真环境与在线环境不一致。SORL直接在在线环境中进行可交互的学习,很大程度上解决了强化学习强依赖于仿真平台的问题。
AIGB,随着大模型的出现,生成式模型展现了强大的信息生成能力,我们也可以引入生成式模型将序列决策问题建模为一个序列动作生成问题。模型通过拟合历史轨迹数据中的行为模式,达到策略输出的目标。
本部分我们将主要聚焦于1,介绍在工业系统中比较常用的出价调控算法。
PID控制算法
PID算法(proportion比例 integration积分 differentiation微分)是工业界常用的控制算法,PID是指可选比例,积分,微分三项作为控制信号,控制信号作为执行机构的输入,执行机构会影响系统状态。通常设置一个系统中的观测对象和对应的期望值,调控的目标就是使观测对象趋向于期望值,即将error e(t) 调控到0。
第一项目标值和实际值之间的误差,这个也就是PID中的P(proportion),这个是根据当前时刻和目标的误差之间进行调解。 第二项是对T时刻误差的积分,也就是integration积分,他是为了解决稳态误差,通过差值的经验来调整当前的目标值。 第三项是不同时刻误差的差值,也就是differentiation,是微分项就是t时刻和t-1时刻error的差。 PID的优点是可以比较快的达到期望位置,减少超调量,但是PID的缺点是容易受到干扰,且不具有前瞻性,当前调整只考虑了当前的error和之前周期的error,没有考虑到未来的error,并且无模型调控,只是根据error调整没有规划。为了弥补这个问题,MPC控制算法被提出。
MPC控制算法
MPC顾名思义由三个部分构成,模型(Model),预测(Prediction),控制(Control)。简而言之就是用模型去预测未来辅助我们进行决策,这个模型可以是机理模型也可以是基于数据的模型。模型预测控制的实现是通过建立优化问题的模型,求解该优化问题来得到控制器的输出的。 MPC和PID的区别 a. 模型预测控制善于处理多输入多输出系统 b. 模型预测控制可以处理约束:由于模型预测控制是通过构建优化问题来求解控制器的动作的,所以可以非常自然的将这些约束建立在优化问题中以此来保证这些约束的满足 c. 模型预测控制是有向前考虑未来时间步的有限时域优化:模型预测控制采用了一个折中的策略,既不是像最优控制那样考虑这个时域,也不是完全的贪婪控制仅仅考虑当前,而是考虑未来的有限时间域 如下图所示,模型预测控制需要在每一个时间步通过反复的预测+优化来求解优化问题,当得到优化问题最优解后再讲这个解作为真正的控制器的输出作用给被控对象。那么关键就在于怎么定义这个优化问题了,下面简单的给出一种常见的优化问题的模型。
目标函数表示系统的状态y(t+k) 和期望的状态 yd(t+k) 在未来N个时间步都要尽量接近,约束(1)表示被控对象的动态特性,约束(2)和(3)分别表示控制量u(t)和状态量 y(t)受到一个上下限的约束。当然这里仅仅是举例而已,实际上目标函数和约束条件要根据实际问题去定义。