国际经济合作杂志投稿须知
来稿时特请注意以下事项:
1.稿件篇幅一般在8000-15000字左右,重要文章一般不超过20000字,来稿请附英文标题并附300字内的中文提要,列出3-5个关键词。
2.稿件要求论点鲜明、逻辑清晰论证充分,格式规范,有一定深度和新意,来稿中如有计量模型,应确保演算过程准确精炼,
3.本刊欢迎各类省部级以上基金资助项目投稿,请注明项目名称和编号。
4.来稿需附作者简介,注明作者姓名、单位、学历、职称、研究方向,作者详细的联系地址、邮编、电话、电子邮箱等信息。
5.本刊反对一稿多投,来稿请注明“专投”,两个月内若未收到用稿通知,请作者自行处理。
6.作者向本刊投稿即视为同意本刊对文章进行编辑、刊登和数字化发行。本刊已被《国家哲学社会科学学术期刊数据库》和《中国学术期刊网络出版总库》收录,如作者不同意文章被收录,请在来稿时注明,本刊将做适当处理。
7.优秀稿件适当支付稿酬,来稿刊采用发后,将给作者邮寄样刊。
进入期刊首页作者:胡伟;郑婷婷;杜璞良
作者单位:上海电力大学
关键词:虚拟电厂;电力市场; 碳交易;绿证交易;可迁移深度强化学习;优化调度
摘要: 随着可再生能源大规模并网,其反调峰特性和波动性对电力系统的经济稳定运行构成 了严峻挑战,传统的调度手段在面对复杂多变的系统环境时显得力不从心。针对这一难题,提出 一种基于可迁移深度强化学习的虚拟电厂优化调度策略,旨在促进虚拟电厂在电力市场、碳交易 市场及绿色电力证书交易市场(简称绿证市场)中的高效参与。首先,深入剖析电力、碳交易及绿 证市场之间的内在联系,建立虚拟电厂参与联合市场的调度模型。其次,采用 Frank-Copula 函数 精准生成风光出力的典型场景,有效捕捉风光资源的不确定性特征。然后,利用柔性策略评价算 法对各场景集的子任务模型进行深度优化,结合最大熵原理成功解决过估计问题。最后,引入迁 移学习机制,将不同场景下积累的调度知识迁移至日前调度任务中,显著优化了模型的调度决策。 算例分析结果显示,本文所提方法在泛化能力和学习能力上表现突出,有效提升了虚拟电厂在电碳-绿证市场中的经济效益和环境权益,为实现低碳、高效的电力系统运行提供了有力支撑。
1 引言
为加速能源结构的低碳转型,中国正致力于构 建一个以新能源为核心的新型电力系统。然而,由 于分布式能源具有地理分布广泛、间歇性和波动性 显著等特性,其大规模接入和消纳面临巨大挑战, 电力系统的安全稳定运行也因此受到一定影响[1-3] 。 在此背景下,虚拟电厂凭借其先进的通信技术和强 大的资源聚合能力,能够实现多种能源的协调调 度,有效提升分布式能源的利用率[4-5] 。作为能源互 联网理念的实际应用典范,虚拟电厂的技术探索与 灵活调节能力的提升,对于优化电力系统能源利用 效率具有深远意义。国家能源局在《电力现货市场 基本规则(征求意见稿)》中明确指出,要积极推动 虚拟电厂等新兴市场主体参与电力市场。因此,当 前的研究重点聚焦于探索虚拟电厂在现货市场中 的调度策略,并加强它与碳市场、绿证市场的统筹 衔接,以促进电力系统的整体优化和高效运行。
虚拟电厂通过整合分布式能源、储能、可调负 荷等资源并开展优化调度,平抑风光波动性,提升 系统的经济性和可靠性。当前有关虚拟电厂的优 化调度研究主要聚焦于优化目标的选取及模型的 构建。虚拟电厂作为配电网的重要组成部分,其运 行情况影响着电力系统的安全稳定。对此,张丽娟 和保富[6] 提出了一个基于多虚拟电厂协同运行的混 合整数规划模型,验证了其交互运行模式能有效提 升系统的经济性。为提高可再生能源的利用效率, 金旭荣等[7] 在考虑CCS-P2G耦合运行的基础上,提 出了基于信息间隙决策理论的虚拟电厂低碳优化 调度模型,实现了虚拟电厂的有效调控。考虑到需 求响应优先级对调度决策的影响,郝俊伟和樊艳 芳[8] 以收益最大化为目标构建了终端虚拟电厂调度 模型,借助寻优算法求解,并验证了所提方法的有 效性。
然而,虚拟电厂优化调度问题仅考虑单一市场 已不足以满足电力系统低碳高效运行的需求。碳 交易和绿证交易是推动我国能源低碳转型的重要 市场机制,对实现双碳战略具有重要意义。二者与 电力市场的协调融合可有效激发市场活力,降低碳 排放,促进可再生能源利用率的提高。李亚峰等[9] 在考虑碳交易和绿证交易的背景下,建立了包含热 网络和气网络的综合能源系统低碳调度模型,证明 综合能源系统在联合市场下可以获取更佳的经济 和环境效益。为鼓励多市场主体参与碳排放和绿 证交易,YIN 等[10] 提出了基于 Stackelberg 博弈的随 机最优调度,并求解出平衡各方利益的方案,有效 地促进了区域碳减排。但上述涉及联合市场的调 度研究多聚焦于综合能源系统,对虚拟电厂参与联 合市场的研究多局限于竞价策略。张良等[11] 研究 了包含电动汽车的虚拟电厂参与碳电一体化市场 的竞价策略,实验表明引入碳交易机制可显著减少 燃气轮机的出力,使其能源产出结构向可再生能源 倾斜。为探究日前市场和碳交易市场对虚拟电厂 各单元出力的影响,詹智民等[12] 设计了基于定价和 碳排放强度的激励模型,求解出的低碳调度策略提 高了运营商的收益。但上述研究仅从碳电一体化 市场的角度寻求虚拟电厂运行的最优经济,未考虑 虚拟电厂同时参与电-碳-绿证市场背景下的调度 情况。
现有研究已提出许多解决虚拟电厂调度问题 的方法,常见的解决不确定性问题的方法包括随机 优化、鲁棒优化等。为减缓可再生能源预测精度不 足对决策的影响,YAN等[13] 设计了一种基于鲁棒优 化理论的微电网点对点交易模型,验证了调度方案的合理性和可靠性。但可再生能源出力的波动性和 间歇性使得模型的不可控因素增多,对调度策略的 影响较大。为克服这一问题,深度强化学习被提出 并应用于电力领域,以数据驱动的方式应对复杂模 型及其不确定性。近端策略优化(proximal policy optimization,PPO)是一种基于策略的强化学习方 法,适用于连续的状态及动作空间。吴利刚等[14] 借 助 PPO 实现微电网的能量调度管理。大规模可再 生能源接入增大了配电网中的功率波动。为解决 此问题,ZHU 等[15] 运用深度确定性策略梯度(deep deterministic policy gradient,DDPG)对配电网开展 智能调度,根据源荷的随机变化给出最优调度策 略。然而,上述深度强化学习模型因其策略探索的 局限性,容易出现过估计问题。柔性策略评价(soft actor-critic,SAC)算法针对这一问题引入了最大熵 策略,增加策略探索的随机性,学者们利用这一特 性构建了多智能体深度强化学习解决了工业园区 的能量管理问题。在电动汽车不同时段的充电需 求下,FANG等[16] 考虑用户用电行为并利用SAC算 法求解最优充放电策略。随着人工智能的快速发 展,深度强化学习和迁移学习的融合引起广泛关 注。然而,当前研究尚未将二者结合应用于虚拟电 厂优化调度领域,现有的调度策略求解方法难以适 应实时变化的市场环境。因此,开展基于深度强化 学习和迁移学习的虚拟电厂参与电-碳-绿证联合市 场的调度策略研究显得至关重要。
综上,现有虚拟电厂的相关研究忽略了碳市 场和绿证市场对调度策略的影响,且传统的求解 方法不适应于虚拟电厂参与联合市场这一复杂环 境。因此,本文在考虑电-碳-绿证市场联合作用 下,提出了一种能解析复杂环境并做出精准决策 的虚拟电厂优化调度求解模型。本文的主要贡献 如下:
(1) 构建虚拟电厂同时参与电力市场、碳交易 市场及绿证市场的优化调度模型,在此基础上分析 分布式能源的波动性,并生成典型场景,研究不同 风光场景对系统决策的影响。
(2) 借助深度强化学习挖掘不同场景集的状态 空间和环境特征,研究电-碳-绿证市场各信息要素 的变化趋势,训练出各场景下的虚拟电厂优化调度 策略,为实际决策积累知识经验。
(3) 提出了融合迁移学习和深度强化学习的虚 拟电厂低碳经济优化调度模型,以应对现货市场实 时变化的复杂环境。通过将源任务的知识迁移至 目标任务,智能体能高效地输出最优决策。最后, 通过算例验证本文所设计模型的可靠性和有效性。
2 虚拟电厂参与电-碳-绿证市场经济
优化调度模型 虚拟电厂中的主要单元有分布式能源(风电、 光伏等)、储能设备、燃气轮机、调度中心等,虚拟电 厂作为一个代理商参与电力市场。碳交易机制与 绿证交易能有效促进虚拟电厂的碳减排与可再生 能源消纳,对平衡系统、提高经济效益有重要作用。 为实现能源电力与环境资源的优化配置,虚拟电厂 应积极参与各类市场,并统筹协调电力市场、碳市 场和绿证市场的关系。因此,本文在虚拟电厂同时 参与电-碳-绿证联合市场的背景下,构建低碳经济 优化调度模型。图 1展示了虚拟电厂参与电-碳-绿 证市场的交易结构。
虚拟电厂中的发电单元主要为化石燃料机组、 风光分布式能源机组和储能装置。为确保虚拟电 厂的经济环境效益,优先使用风光分布式能源满足 内部的负荷需求。在风光出力不足的时间段,采用 燃气轮机、储能和向电网购电来满足负荷。当虚拟 电厂内部电量有盈余时,在电价较低时通过储能设 备储存电量;在电量较高的时段,虚拟电厂可将多 余电量出售至电力市场。虚拟电厂的碳排放考核 单元主要来源于化石燃料机组和为满足需求向电 网购电的电量,相关能源部门会对此进行监管。若 虚拟电厂的碳排放量超过允许的碳排放配额,超出 的部分需在碳交易市场购买碳配额;反之,虚拟电 厂可将多余的配额在碳交易市场售卖以获取收益。 绿证的交易标是一种环境权益,是可再生能源电量 环境属性的唯一证明。相关售电公司和电力用户 需要承担一定的可再生能源消纳责任。在虚拟电 厂中,负荷单元需按权重消纳绿电,未满足消纳责 任的部分可通过购买绿证进行抵消。同时,虚拟电 厂中的可再生能源机组生产的绿电可获得国家能 源局核发的绿色电力证书,因此可在绿证交易市场 进行售卖以获取收益。此外,虚拟电厂自身所持有 的绿证可以抵扣一定的碳排放量。虚拟电厂通过 统筹协调三个市场,在保证经济效益的同时获得更 多的环境权益。
2.1 目标函数
虚拟电厂作为市场主体,通过整合分布式资源 参与电力市场、碳交易市场和绿证市场,其优化目 标为最大化虚拟电厂扣除成本后的收益。因此,目 标函数为:

其中:CTrans,t为t时刻下虚拟电厂参与电力市场的收 支,CDA,t表示虚拟电厂满足内部代理负荷所获得的 收益,Cgre,t为绿证收益,CCET,t为虚拟电厂参与碳-证 协同市场下的碳排放成本,CSystem,t为虚拟电厂内部 的运行成本。
2.1.1 电力市场收支

其中:C1 ( t )、C2 ( t )分别表示虚拟电厂在电力市场 t 时刻的购电价和售电价;PTrans,t 表示虚拟电厂在电 力市场 t 时刻的成交功率,当 PTrans,t 为正时,虚拟电 厂向电力市场购电,反之虚拟电厂售电;Δt 为一个 调度时段。
2.1.2 内部代理负荷收益
虚拟电厂作为代理商向内部负荷供电,按事先 约定的终端电价向其收取费用,这部分收益为代理 负荷收益:

其中:CRE 为终端电价,PLoad,t 表示 t 时刻的负荷量, PDR,t为t时刻可调节负荷的响应功率。
2.1.3 碳交易的收益或成本
虚拟电厂运行过程中,燃气轮机产生的碳排放 首先由免费碳排放配额进行抵扣,多余的免费碳排 放配额可以在碳市场上交易以获取收益。本文依 据生态环境局发布的碳配额分配方案计算配额[17] 。 具体的计算公式为:

其中:At为t时刻的碳排放配额,CARt为t时刻的碳 排放量,γA 表示免费碳排放额在碳交易市场上的 价格。

其中:γGT 为燃气轮机的综合修正系数,λGT 为燃气 轮机的单位综合供电量碳排放基准,PGT,t 为 t 时刻 燃气轮机的出力,ρTrans为电网公司单位供电量线损 率基准,λTrans 为电网供电的单位发电量碳排放 基准。

其中:Kgas,t 为燃料消耗量,Hlow 为天然气低位热值, CH 为天然气的单位热值含碳量,ξO 为氧化率,μCO2 为电力排放因子。
2.1.4 绿证交易收益

其中:Pgre,t 表示 t 时刻虚拟电厂中可再生能源机组 获得的绿证数量,一兆瓦可再生能源电量对应一单 位绿证;Pre,t 表示为满足消纳责任所需购买的绿证 数量;Cgre,t为绿证收益;cgre为绿证价格。
2.1.5 碳-证协同机制
碳交易市场和绿证市场可以通过绿证对碳排 放的抵扣量实现联动,在考核虚拟电厂的碳排放权 时,其自身所持有的绿证可以抵扣系统的碳排放 量。碳交易和绿证交易协同机制下的碳交易模 型为:

其中:CCET,t为碳-证协同机制下的碳排放成本,De是 绿证所能扣减的碳排放量,Ee 为碳排放量扣减 系数。
2.1.6 虚拟电厂运行成本

其中:δWPP、δPV、δESS分别表示风电、光伏和储能的运 行成本系数,δGT 表示燃气轮机运行及生产成本之 和,δDR 代表可调节负荷的需求响应成本,PWPP,t、 PPV,t指 t时刻风机和光伏的出力,PESS,t、PDR,t分别表 示 t 时刻储能的充放电功率和可调节负荷的响应 功率。
2.2 约束条件
为保证虚拟电厂的安全运行,智能体应在一定的范围内探索策略,以做出符合安全约束的最优决 策[18-19] 。因此,调度模型需设置约束条件,确保动作 的规范可行。
2.2.1 功率平衡约束
虚拟电厂的调度计划需满足日前市场任一时 刻的市场交易功率、风电光伏出力、燃气轮机出力、 储能充放电功率、可调节负荷响应功率与负荷间的 平衡。
2.2.2 可再生能源机组运行功率约束

其中:PWPP,max和 PPV,max分别表示风机和光伏的最大 出力。
2.2.3 储能运行功率约束

其中:EESS表示储能的额定容量;SOCt代表储能在t 时刻的荷电状态,SOCmax和SOCmin分别指荷电状态 的上限和下限,初始时刻的 SOC 设为 0.5;ηch、ηdis分 别为储能的充放电效率。
2.2.4 燃气轮机运行功率约束

其中:PGT,t 为 t 时刻下燃气轮机的出力;PGT,down 和 PGT,up分别是燃气轮机可允许的最大爬坡功率和滑 坡功率;μGT 是一个布尔变量,表示燃气轮机在 t 时 刻是否运行,如果是,则赋值为 1,否则赋值为 0; PGT,max和PGT,min分别表示燃气轮机出力的上下限。
2.2.5 可调节负荷需求响应约束

其中:PDR,t,max 表示可调节负荷在 t 时段可响应的最 大功率。
2.2.6 电网交互功率约束

其中:Pgrid,max 和 Pgrid,min 分别表示与电网交互的最大 和最小功率,本文设置为30 MW。
3 基于可迁移深度强化学习的虚拟电 厂优化调度模型
3.1 基于Frank-Copula函数的风光典型场景 生成
3.1.1 核密度估计
基于历史风光发电数据,本文采用核密度估计 构建各个时间段的风光出力概率分布。通过衡量 数据点之间的邻近程度,计算其距离,来评估每个 点对整体估计值的影响。核密度估计的计算公式 如下:

其中:t表示24个时间段,xt 、yt 为t时段的风光出力, X t d、Y t d表示第 d天 t时段的风光出力,N为样本数据 量,h为带宽,K (·)为核函数。
通过为每个时间段的风力和光伏数据生成概 率分布的估计,核密度估计为后续的Copula拟合提 供了边缘分布的输入。这些边缘分布反映了风力 和光伏发电数据在各个时间段的局部特性,是构建 联合概率分布的基础。借助核密度估计,可从实际 观测数据中提取出有价值的信息,为风光发电系统 的不确定性建模和风险评估提供模型支撑。
3.1.2 Frank-Copula函数
Frank-Copula是一种用于描述多个随机变量之 间依赖结构的 Copula 函数。Copula 是统计学中的 一个概念,它可以独立于每个变量的边缘分布去捕 捉变量间的相关性。借助各时段风光出力的概率 密度函数,可以得出风光的累积分布函数F̂ Xt ( xt )和 F̂ Yt ( yt ),并构建各时段下的风光联合分布:

二维Frank-Copula函数由以下形式定义:
其中:u和v分别是风光的边缘分布函数;θ为FrankCopula 函数的参数,θ 大于 0 表示 u 和 v呈正相关,θ 小于0表示u和v呈负相关,θ趋于0表示二者独立。
3.2 动态时间规整
动态时间规整(dynamic time warping,DTW) 算法用来求解不相等序列特征之间的距离,以衡量 两段序列的相似性。本文借助此方法进行风光场 景集的聚类,并训练不同场景集的调度策略。

3.3 SAC原理
SAC 是一种专注于处理连续动作空间的深度 强化学习算法,在 actor-critic 框架的基础上引入最 大熵原理,以实现输出策略的累积回报期望和熵值 的最大化。SAC的结构如图2所示。最大熵强化学 习的优化目标包括累计回报和策略熵值:

其中:E 代表状态回报的期望值;r为状态的即时奖 励值;s 和 a 分别表示状态和动作;H 是该策略下动 作的熵值;τ为温度系数,用于衡量熵对回报值的相 对重要性;π 为当前状态下所有动作的可能发生的 概率。
SAC的软策略迭代主要包括两个步骤:软策略 评估和软策略改进。其中,软策略评估是对某个状 态下执行某个动作所能得到的期望回报的估计。 Soft Q值可以通过贝尔曼算子迭代计算得到。当迭 代次数趋于无穷大时,会收敛到策略π的Soft Q值。 贝尔曼方程为:

其中:γ 为介于 0 到 1 之间的折扣因子,主要用于平 衡即时奖励和未来奖励。

软策略改进的目的在于将策略改进为具有更 大回报值的动作。有别于其他off-policy方法,SAC 的软策略是向正比于 Q函数的指数分布去更新的。 为方便处理,仍以高斯分布输出策略,通过最小化 Kullback-Leibler(KL)散度以缩小两个分布间的差 距。这种方式下输出的新策略的动作概率分布是Q 值的指数函数形式。

其中:D 为经验回放区。对该目标函数求梯度可实 现状态值函数的参数更新。
动作价值函数借助其目标函数的梯度进行参 数更新。动作价值函数的目标函数为:

梯度更新引入了目标值网络 Vψ。策略网络在 进行梯度更新时采用重参数化技巧,以实现较低 的方差估计。在选择动作时引入噪声向量 εt 使其 满足某个固定分布采样。将策略 πϕ定义为 fϕ,则动 作at为:

SAC算法设计了两个Q网络,并取其最小值以 避免过估计,该设计使得模型在应对较复杂的任务 时能显著提高训练速度。

3.4 调度模型状态及动作空间
3.4.1 状态空间
状态空间表示了环境可能出现的所有状态的 集合,每个状态描述了智能体在环境中的局部情 境。在强化学习中,智能体根据当前状态来做出决 策以选择动作,并通过与环境的交互来实现优化目 标。本文模型的状态空间主要包括:负荷、分时电 价、荷电状态、可再生能源出力预测值、碳价和绿证 价格。具体公式为:

3.4.2 动作空间
动作空间定义了智能体可以执行的所有可能 动作的集合。智能体在某个状态下根据策略选择 一个动作,以影响环境并获得相应的奖励。本文模 型的动作空间主要包括:风光出力、储能充放电功 率、燃气轮机出力、可调节负荷响应功率以及购售 电功率。具体公式为:

3.4.3 奖励函数
奖励函数在强化学习中的作用可类比于优化 问题里的目标函数,可以促使智能体探索更优的动 作以获得更大的奖励。本文设计的虚拟电厂调度 模型的奖励函数主要包括内部运营收益、碳交易成 本、绿证交易收益、电力交易收益、系统运行成本以 及奖惩常数。设置奖惩常数的目的是使动作尽可 能多地在符合约束的范围内进行探索,以提升收敛 速度。为系统功率不平衡和超出电网交互功率上 限分别设置 t时段的惩罚常数 D1,t和 D2,t,为利润提 升的动作设置 t 时段的奖励常数 D3,t。因此,t 时段 的奖惩常数为:

训练时强化学习会随机探索其他动作,造成 Rt 有较大的波动,此处将奖励值Rt按比例缩小。
3.5 基于可迁移深度强化学习的虚拟电厂日 前优化调度决策
在深度强化学习领域,重新训练一个新任务, 特别是虚拟电厂调度领域的复杂场景,需要大量的 时间和资源。迁移学习通过建立源任务和目标任 务之间的关联,将经验知识转移到新任务中,使智 能体能够在已有知识的基础上,借助模型进行微 调,以快速获得最优的调度策略。这种方法加速了 模型的训练和优化效率,实现了更智能、更灵活的 决策。因此,本文提出了一种融合SAC和迁移学习 的 虚 拟 电 厂 日 前 优 化 调 度 方 法 ,结 构 图 如 图 3 所示。
依据上文划分好的场景集,将各个子任务的神 经网络参数进行存储,积累各个场景下的优化调度 知识。分别计算目标任务与源任务中典型场景集 聚类中心的距离,进行场景匹配。进而,将相似度 最高的场景调度知识以共享网络参数的方式迁移 至目标任务中,再通过 SAC 算法对其进行微调,加 速新调度场景的学习效率,提高模型的训练速度和 泛化能力。
4 算例分析
为验证所构建模型的有效性,本文以聚合一台60 MW 风机、一台 40 MW 光伏、一台 15 MW 储能 设备和一台15 MW燃气轮机的虚拟电厂为算例进行 分析。从 Elia group 公司获取 2023 年 2 月~2024 年 2月的历史数据,经处理后总计得到 8760 条有效时 段数据。碳市场和绿证市场的交易参数如表 1 所 示,机组的运行参数如表2所示[20] 。


4.1 风光出力不确定性和时空性的典型场景 生成
采用Frank-Copula函数对各时段的风光出力进行拟合。风力和光伏发电的联合概率分布在极端 情况下可能会显著不同于独立情况下的分布,而 Frank-Copula函数所具有的尾部依赖特性能准确刻 画风光的联合出力。利用 Frank-Copula 函数,结合 边缘分布模型,生成符合风光依赖关系的随机样本 数据。场景阈值取值为4,结果如图4所示。

四个典型场景发生的概率分别为 0.269 44、 0.230 56、0.249 46 和 0.250 54。通过分析风光的典 型出力场景,虚拟电厂可以根据不同场景的风光发 电运行特性和市场交易环境,优化各场景下的调度策略,实现经济效益最大化。由图4可直观看出,各 场景的季节性和时序性较为明显,削减后的场景可 以有效反映一年中的风光出力特性。场景2的光照 强度和风速水平较其他场景高,具有明显的夏季特 性。场景 1 和场景 4 发生的概率最大,具有过渡季 的属性。场景 3 的光照强度比其他场景要小,具有 冬季特性。四个典型场景刻画了风光出力的不确 定性和相关性,明确各季节的风光出力特性,有针 对性地开展调度,有利于虚拟电厂的整体规划和 运行。
4.2 分场景优化调度结果
根据上文削减出的四个风光出力典型场景,采 用 DTW 方法对一年的样本数据进行分类。通过 计算两个时间序列间的相似度,构建典型场景集, 为分场景的多任务深度强化学习模型提供训练 数据集,并将四个典型场景集作为对应的测试集 数据。
分时段的购售电价如表 3 所示,储能初始荷电 状态设为0.5。碳交易的价格为56元/吨,绿证的价 格为 50 元/张。采用 SAC 算法对调度模型进行训 练,得到各场景测试样本的机组出力情况如图 5 所 示。场景 2 的可再生能源发电强度较大,具有夏季 特性,因此分担了较大份额的负荷。场景 3 的光照 强度较弱,较其他场景下的可再生能源出力较少, 为平衡负荷,该场景下的燃气轮机出力和购电量较 多。场景 1 和 4 有过渡季属性,其可再生能源出力 介于冬季和夏季之间。从整体上看,四个典型场景 的可再生能源都实现了满额消纳。

调度结果显示,各场景下风光出力特征的差异 影响着储能和燃气轮机的出力。本文所设计模型 的目标函数综合考虑了虚拟电厂参与多方市场的 收益。受碳排放配额和可再生能源消费权重的限 制,虚拟电厂优先选择可再生能源发电,大幅提升 了可再生能源的利用率。此外,在电价低谷时,购 电成本低于燃气轮机的运行成本和可调节负荷的 补偿成本,因此虚拟电厂向市场购电进行储能;而 在电价平段和高峰时,考虑碳排放的限制,虚拟 电厂优先进行储能发电,并削减可调节负荷,再借 助燃气轮机来平衡未满足的负荷。从四个场景 的调度结果可知,虚拟电厂同时参与碳市场和绿证 市场,可有效提高可再生能源利用率,实现碳减的 效果。
4.3 不同情景下的调度结果及收益对比
为分析虚拟电厂参与碳交易市场和绿证市场 前后净利润和碳排放量的变化,本文设置了三个 情景。
情景1:虚拟电厂只参与电力交易市场。
情景2:虚拟电厂参与电力市场和碳交易市场。
情景3:虚拟电厂同时参与电力市场、碳交易市 场和绿证交易市场。
利用上文生成的典型场景四作为测试数据, DTW 分类出的对应典型场景四的场景集作为训练 数据,在三个情景下开展调度训练。SAC通过挖掘 虚拟电厂三个情景的环境及状态,生成各机组在不 同情景下的对应动作,优化调度结果如图 6 所示。 从出力情况来看,情景 3 的购电功率和燃气机组出 力低于另外两个情景,这是由于碳市场的碳配额限 制和绿证市场的绿电消费责任约束,该情景下虚拟 电厂优先选择可再生能源发电。情景3的可再生能 源得到全部消纳,其利用率较情景 1 和情景 2 分别 提升了 1.47% 和 2.81%,燃气轮机的总出力分别减 少了9.20%和13.20%。在情景3中,储能和可调节 负荷较另外两个情景在允许范围内都做出更为合 理的响应。在谷时段,购电成本较低,虚拟电厂优 先借助储能和向电网购电来平衡未满足的负荷量; 在平时段,购电成本高于燃机成本,因此主要由燃 机和储能来平衡余下的负荷量;在电价高峰时期, 虚拟电厂通过削减可调节负荷使整体需求量下降, 达到调峰的效果,并合理调用燃机和储能以降低系 统成本。
由调度结果可知,情景 1 和情景 2 都没有绿证 收益。在情景 3 中 ,虚拟电厂的总运营成本为26.851万元,比情景1和情景2中的总运营成本分别 低 2.22% 和 1.95%。而在情景 3 下,虚拟电厂参与 电-碳-绿证联合市场下的碳排放量比情景 1和情景 2 分别低 19.05% 和 11.47%。对比三个情景可知, 同时参与碳交易和绿证交易可以在一定程度上降 低虚拟电厂整体运行成本,提高系统收益。

4.4 模型对比
实验借助 Python3.10 软件实现,智能体接收风 光及负荷数据并进行训练。在训练阶段初期,根据 经验值对超参数进行初始设定,并结合现有文献及 实时训练反馈进行逐步优化,目的是促使算法达到 最优的奖励水平。模型的隐藏层层数设为 3,每层 含有64个神经元,小批量样本数为128,模型迭代次 数设置为 1 000。对 SAC、DDPG 和深度 Q 网络 (deep Q network,DQN)算法进行训练,奖励值的收 敛过程如图7所示。训练1 000次后,奖励值最高的 是 SAC,DDPG 的收敛速度介于 SAC 和 DQN 之 间,但 SAC 的优化效果较好,具有较好的稳定性。 SAC的最大熵策略增加了策略探索的随机性,使探 索和利用得到更好的平衡。而 DDPG 采用的是确 定性策略,策略的输出是单一确定的动作。相较之 下,SAC在探索和样本利用效率方面表现更好。而 DQN模型的结构相对简单,解决复杂问题时存在局 限性,难以捕捉有效的环境特征,收敛速度慢且波 动较大。

为验证SAC在解决复杂问题时的优势,本文将 SAC与传统的混合整数规划(mixed integer quadratic program,MIQP)以及另外两种深度强化学习算法在 总运行成本和碳排放量两个指标上进行对比,结果 如表4所示。SAC凭借其最大熵策略探索出的调度 结果显著优于其他三种方法,在控制运行成本的同 时碳排放量最少。总体上,除DQN与MIQP的性能 表现上较为接近外,SAC、DDPG 的决策结果均优 于传统的混合整数规划。

4.5 模型迁移应用
日前电力市场是指在实际运行前一日,为满足 供需平衡进一步开展电量交易的市场。虚拟电厂 运营商需要根据风光及负荷预测情况,安排各机组 在次日的出力计划。本文引入迁移学习方法,将各 场景集积累的调度知识运用到目标任务中,以更高 效地做出日前调度决策。计算目标任务的风光状 态与源任务中各场景聚类中心的距离,进而匹配出 相似度最高的子任务场景。将其调度知识以共享 网络参数的方式迁移至日前调度任务中,再借助SAC微调网络结构,加速模型求解。日前的风光及 负荷预测值如图8所示。

图 9 为融合了迁移学习和 SAC 的调度结果。 从优化方案可看出,可再生能源在24个时段均按日 前预测值满额出力。1~7 和 23~24 时段为电价谷 时段,由于风光的反调峰特性,该时段主要由储能 设备和向电网购电来平抑风光未能覆盖的负荷量。 在电价较低且系统出力富余的时段,储能设备充 电。考虑碳配额和可再生能源消纳责任的限制,在 电价较高的时段,按顺序依次调用可再生能源、储 能、可调节负荷和燃气轮机,兼顾经济收益和环境 效益。在第一个负荷高峰时期,风光资源较为富 余,在满足自身负荷的前提下进行储能充电并向电 网售电。在 6~12 时段风光资源富集,燃机以最小 功率运行,在满足负荷后系统仍有多余电量出售至 电力市场,且储能设备利用多余的可再生能源进行 充电,以应对下一个负荷高峰。第二个负荷高峰为 16~20 时段,此时风光资源较为匮乏,需合理调用 储能、可调负荷和燃机来满足需求,减少购电行为, 降低虚拟电厂的整体成本。图9中曲线为储能的荷 电状态。通过比较两种模型的优化方案,融合迁移 学习和SAC模型的调度方案中,储能进行了较为频 繁的响应。

图 10展示的是 SAC 求解的优化结果。与前一 种优化方案相比,该方案下储能设备的响应次数较 少,可调节负荷的响应存在不合理情况,且燃气轮 机较前一种优化方案增加了13.11%,进而增加了经 营成本和碳排放。相比之下,迁移学习可有效地将 源任务的知识迁移至目标任务,在保证训练效率的 同时提高了模型的泛化能力,使智能体更快地挖掘 当前状态以做出适应环境的决策。

从收益和碳排放量看,融合迁移学习和SAC的 调度方案下的成本为27.980万元,总利润为21.110万 元,较未融合迁移学习下的调度方案在成本上降低 了 3.69%,利润增加了 1.24%,总碳排放量减少了 6.71%。该模型下的优化调度方法使虚拟电厂在保 证经济收益的同时,提高了环境效益。表 5 中记录 了迁移前后的训练时间和决策时间。融合迁移学 习和 SAC 的训练过程还需将储备的调度知识加以 迁移,因此训练时间较长,但决策时间较迁移前减 少了 14.2 s,通过牺牲较少的训练时间,提高了整体 的决策速度,并且得到了更优的决策结果,在经济 效益和环境效益上均得到显著改进。

5 结论
本文针对分布式能源出力的不确定性,在分析 虚拟电厂参与电-碳-绿证联合市场运行机制的基础 上,提出一种基于可迁移深度强化学习的虚拟电厂 优化调度策略,得出以下结论:
(1) 本文所建立的基于 SAC 的虚拟电厂参与 电-碳-绿证联合市场的优化调度模型在四个典型场景中均实现了风光能源的满额消纳。受碳排放限 额和可再生能源消费责任权重的影响,虚拟电厂参 与联合市场的调度决策不仅有效提升了经济效益, 还充分保障了环境权益。
(2) 与常规调度模型相比,本文提出的融合迁 移学习和深度强化学习的虚拟电厂调度模型在面 临复杂市场环境时具有显著优势。该模型下的调 度决策在合理配置资源的基础上,有效减少了系统 的运行成本和碳排放量,具有较好的泛化能力,有 利于系统制定经济合理的调度方案。
(3) 虚拟电厂在参与联合市场协同运作时,绿 证对碳排放的抵扣作用进一步降低了虚拟电厂的 碳交易成本,突显了分布式能源在环境保护中的价 值。未来的相关政策应鼓励并完善虚拟电厂参与 联合市场的运作机制,并设计绿证与碳排放权的互 认和抵扣方式。
后续研究将进一步考虑多方市场的不确定性 因素,深入探讨虚拟电厂参与日前市场和实时市场 的协调机制,以实现更为全面和精细的调度策略。