核心内容摘要
法国《急诊室》满天星1982:一场穿越时光的法式浪漫与生命颂歌
三维钝体流动中主动流动控制的深度强化跨域迁移学习Deep reinforcement cross-domain transfer learning of active flow control for three-dimensional bluff body flow严雷王秋垒胡钢*陈文礼Bernd R.Noack(哈尔滨工业大学(深圳)智能土木与海洋工程学院深圳
引用格式Yan L, Wang Q, Hu G, et al. Deep reinforcement cross-domain transfer learning of active flow control for three-dimensional bluff body flow[J]. Journal of Computational Physics, 2025,
引言本文将基于相互信息的知识迁移学习与柔性动作-评论MIKT-SAC算法相结合解决主动流动控制(AFC)中状态和动作维度的跨领域问题。
本文探索了深度强化学习(DRL)在发现新型减阻策略方面的潜力。
该算法从二维(2D)案例中的预训练代理开始提取知识以减轻高雷诺数流动条件下作用于3D钝体的气动力。
该算法应用于两个测试案例以展示其能力和局限性第一个测试案例使用高雷诺数为22000的3D方柱研究状态维度失配问题其中方柱角上的四个射流作为执行器。
第二个测试案例使用圆柱检查状态和动作维度都不匹配的场景圆柱在顶部和底部表面有两个狭槽其中多个零净质量通量射流位于其中。
结果表明MIKT-SAC方法优于SAC算法在有效抑制阻力和升力波动的同时显著减少了
5
1%和
4
1%的训练时间并将阻力系数分别降低了
5
9%和
4
4%分别对于方柱和圆柱多射流激励延缓了钝体表面涡旋的脱落从而降低了两种情况下的脉动升力。
这些发现凸显了DRL在主动流动控制中的潜力为在实际工程应用中高效、稳健且实用地应用钝体控制技术奠定了基础。
基于动态特征的强化学习主动流动控制先前的研究主要依靠同域一致性下的直接迁移学习来加速。
然而适用于3D流场控制的跨域迁移学习算法却明显缺失。
一个可能的原因是由于状态和动作空间的变化将控制策略从二维流场迁移到三维流场环境面临着巨大的挑战。
传统的迁移学习方法难以解决由这种动作和状态空间转换引起的不一致性阻碍了DRL智能体有效地从不同维度的流场策略中学习知识。
针对这一挑战本研究采用了一种基于互信息的知识迁移学习并结合了MIKT-SAC算法。
在绕钝体的三维流中该方法通过编码器实现跨域迁移学习从而显著提升了DRL算法的收敛性能并允许从二维流场中提取控制策略。
MIKT-SAC方法相关的细节如图1所示。
图1 本研究中使用的基于互信息的知识迁移学习与柔性动作-评论方法MIKT-SAC框架示意图如图2所示为了实现从二维流场向三维流场的迁移学习本文设计了两组案例进行研究。
首先在方柱案例中二维方柱表面均匀布置了24个压力探针。
而在三维流场中在五个截面上分别布置了24个压力探针以获取更全面的流场信息。
虽然在三维情形下部署大量探针可能导致状态的过度感知但并非所有传感器在训练过程中都发挥同等作用。
本案例的核心是训练MIKT-SAC方法以在状态维度不匹配的条件下加速收敛因此部署足够数量的探针对于实现有效的迁移学习至关重要。
其次在圆柱案例中对动作空间进行了调整从而使迁移学习场景更加复杂。
在二维圆柱流场中控制采用的是一对零净质量流量ZNMF射流。
而在三维流场中则采用了多个独立的ZNMF射流这些射流沿着圆柱轴向分布并排列在上下两个喷口槽中。
与方柱案例类似在圆柱案例中也使用了多个射流进行控制智能体在迁移训练过程中聚焦于三维物理机制的探索。
这种在三维环境下的探索能够揭示新的控制策略进而利用由三维不稳定性诱发的阻力减小机制。
上述研究验证了多喷口控制策略的可靠性以及MIKT-SAC算法在实际应用中的可行性。
图2 从二维流场到三维的跨域迁移学习过程
方柱流动控制效果图3展示了在训练过程中使用SAC与MIKT-SAC两种算法进行主动流动控制的训练曲线。
具体而言SAC和MIKT-SAC的平均阻力系数分别降低至
1和
03。
MIKT-SAC方法能迅速将升力波动抑制至较低水平。
在状态维度不匹配的迁移学习场景下MIKT-SAC展现出在较短时间内实现更优控制效果的能力。
此外图3(c)所示的奖励学习曲线也显示出显著差异。
MIKT-SAC的奖励曲线在整个训练过程中上升趋势更快最终稳定在约-106。
相比之下SAC在第50至180轮次之间表现出明显的不稳定性奖励波动较大训练结束后收敛于较低值。
从结果来看MIKT-SAC显著加快了训练进程SAC从零开始训练需约160轮收敛而使用MIKT-SAC进行3D方柱控制策略的训练仅需约70轮。
图3(d)展示了MIKT-SAC方法的计算资源效率。
SAC训练过程需耗费大量时间与资源而MIKT-SAC方法在资源利用方面更具优势。
其中二维控制策略的预训练阶段仅占总资源的
3%而三维流场中的迁移训练阶段占比为
4
6%。
总体而言MIKT-SAC方法将总训练时间缩短了
5
1%在状态维度不一致的情形下仍能显著节省训练时间。
图3 SAC与MIKT-SAC方法的训练表现对(a)平均阻力系数、(b)升力系数标准差、(c)奖励值随训练过程的演化、(d)展示了MIKT-SAC方法在计算资源方面的节省效果图4比较了基准情形、SAC控制以及MIKT-SAC控制三种情况下的力系数变化情况。
在基准情形下升阻力系数均围绕其平均值呈现周期性振荡。
具体而言平均阻力系数为
22阻力和升力系数的标准差分别为
223与
42。
在SAC控制作用下阻力降低了
5
5%且升阻力系数的波动几乎完全被抑制。
而MIKT-SAC方法的控制效果更加显著其将阻力和升力系数的标准差分别降低了
7
1%与
9
9%。
这表明MIKT-SAC能实现更稳定且更可靠的控制策略。
图4(c)和(d)表明在SAC与MIKT-SAC控制下阻力与升力系数的PSD曲线不再出现峰值说明控制策略有效地将大尺度涡结构推向下游。
此外升阻力系数在低频区域的能量也显著低于基准情况这与其标准差的减小趋势一致。
这一结果说明基于深度强化学习的控制策略主要通过抑制对应于大尺度涡结构的低频能量从而有效降低升阻力波动。
图4 (a)和(b)分别展示了在SAC和MIKT-SAC方法控制下三维方柱在雷诺数为22000时的阻力和升力系数时程图。
(c)和(d)则分别给出了阻力和升力系数的功率谱密度结合图5(a)与(b)中展示的三维尾迹涡结构可以看出在无控制的情况下方柱附近的尾迹区域会生成大尺度涡结构。
而当采用MIKT-SAC控制后流场表现出更为流线化的特征方柱上下两侧的流动展现出更多的小尺度涡结构。
这种类似由执行器生成的条带状流动结构有效抑制了大尺度涡旋的形成控制作用的主要宏观效应是使流动趋于更加流线化。
此外在中远尾迹区域流动结构更趋有序呈现出交替分布的细长涡旋。
值得注意的是前缘的吹吸作用显著可将大尺度条带涡旋转化为以小尺度、细碎结构为主的涡旋形式。
同时后缘的吹吸则推动这些小尺度涡结构向下游移动形成更狭窄的尾迹结构表明升力系数的波动幅度得到减弱。
MIKT-SAC射流控制的引入提供了可控的气流输入对尾迹特性起到了显著调节作用。
控制后的流动呈现出更强的规律性与一致性体现出空气动力学控制效果的提升。
这类受控涡结构具备提升气动性能、减小阻力或实现特定流动控制目标的潜力适用于多种工程场景。
尾迹再循环区域的宽度与长度将直接影响方柱后的基底压力。
如图5(c)与(d)所示采用MIKT-SAC控制后方柱的尾迹区域表现出以下三点特征①二次涡旋消散②尾迹流最大宽度降低
1
6%③尾迹长度相比基准情形几乎增长了三倍。
这三方面共同作用于阻力系数的显著下降且二次涡旋的消散有助于缓解其对升力系数波动的不利影响。
这说明该控制策略不仅延迟了大尺度涡旋的生成同时使流场更趋流线化。
图5 湍流在雷诺数为22000条件下绕方柱流动。
图中展示了方柱瞬时涡流结构并以来流方向速度进行着色(a)无控制(b)采用MIKT-SAC控制。
以及时间平均流线图(c)无控制(d)采用MIKT-SAC控制。
圆柱流动控制效果随后针对绕圆柱的三维流动开展了两种流动控制方法的训练。
图6展示SAC与MIKT-SAC两种算法在圆柱减阻与流动稳定性方面的表现。
图6(a)显示了SAC和MIKT-SAC分别将平均阻力系数降低至
613和
595其中MIKT-SAC表现略优。
图6(b)显示MIKT-SAC方法在抑制升力波动方面尤其有效将升力系数的标准差降至
39进一步提高了圆柱周围的流动稳定性。
图6(c)所示的奖励学习曲线揭示了两种方法在训练动态方面的显著差异。
MIKT-SAC不仅达到了更高的最终奖励值还体现出更快的收敛速度仅需约110轮即可稳定而SAC从零开始训练则需要约243轮。
图6(d)展示了MIKT-SAC方法相较于SAC在计算效率上的优势。
MIKT-SAC通过多阶段训练策略大幅优化了资源使用效率。
具体而言三维流场中的迁移学习阶段使用预训练模型占总计算量的
4
3%。
总体来看MIKT-SAC方法相比原始SAC将总计算时间减少了
4
1%显著提升了深度强化学习训练的效率并能在更短时间内实现更优的控制性能。
图6 SAC与MIKT-SAC方法的训练表现对:(a)平均阻力系数、(b)升力系数标准差、(c)奖励值随训练过程的演化、(d)展示了MIKT-SAC方法在计算资源方面的节省效果如图7(a)和(b)所示基于深度强化学习的流动控制策略显著降低了平均阻力系数。
从基准值
192开始基于SAC的控制器将其降低至约
616而MIKT-SAC方法则进一步降低至约
603最大减阻幅度达
4
4%展现出卓越的流动控制能力。
另外在基准条件下升力系数的标准差约为
430而在应用MIKT-SAC控制后该值降至约
389说明升力更加稳定波动性减弱。
相比之下SAC控制下的升力波动存在较大偏差在需要精确升力调节的情形中可能会影响整体控制效果。
图7(c)和(d)分析了升阻力系数的功率谱密度分布。
结果表明基于DRL的控制策略主要抑制了相对低频区域的能量分布而这些低频段正是与尾迹中大尺度涡脱落与相干结构动态密切相关的主导频率。
通过降低关键低频段的能量流场得以重新组织为更加有利的结构从而有效减小阻力并稳定升力。
图7(a)和(b)分别展示了在SAC和MIKT-SAC方法控制下三维圆柱在雷诺数为10000时的阻力和升力系数时程图。
(c)和(d)则分别给出了阻力和升力系数的功率谱密度图8(a)和(b)展示了在施加MIKT-SAC控制前后圆柱尾迹流场中的三维涡结构变化。
在无控制的情况下圆柱附近会形成小尺度、破碎的涡旋结构并在下游逐渐演化为大尺度涡旋。
而在采用MIKT-SAC进行控制后两侧的周期性吹吸作用与来流相互作用生成了更为规则且细长的条带状涡旋。
这些条带状涡结构有效抑制了破碎涡旋的生成使中远尾迹区域呈现出更加有序且交替分布的涡旋排列。
控制后尾迹再循环区域相比无控制情形显著缩小如图8(c)和(d)所示。
控制效果主要体现在以下几个方面二次涡旋消失尾迹最大宽度明显减小尾迹长度从
5d延长至2d与方柱案例中的变化趋势相似。
这些变化共同促使阻力系数显著降低并缓解了升力系数波动所带来的不利影响。
此外在控制作用下形成的规则、相干的细长涡结构不仅有效降低了尾迹湍流强度还具有提升气动性能、减小阻力以及实现其他流动控制目标的潜力适用于多种工程应用场景。
图8 湍流在雷诺数为10000条件下绕圆柱流动。
图中展示了圆柱瞬时涡流结构并以来流方向速度进行着色(a)无控制(b)采用MIKT-SAC控制。
以及时间平均流线图(c)无控制(d)采用MIKT-SAC控制。
这项研究通过在钝体表面安装压力传感器作为DRL代理的输入实现了实际主动流控制的重大进展。
研究重点在于通过基于互信息的知识迁移学习与柔性动作-评论方法MIKT-SAC算法从二维到三维钝体流场的跨域转移学习从而显著加速了过程并使控制模式更加稳定。
这种方法对于提高DRL在现实场景中的应用具有重要意义特别是在高层建筑、翼型和风力涡轮机叶片等结构的流控领域。
附注基于互信息的知识迁移学习与柔性动作-评论方法MIKT-SAC已在GitHub上发布网址如下https://github.com/venturi123/DRLinFluids公众号原文链接文末附论文资源JCP | 哈工大深圳胡钢团队三维钝体流动中主动流动控制的深度强化跨域迁移学习注文章由作者原创供稿并获得作者授权发布。