每日微信报
人物专访监管
制造芯片
6G 运营
大数据物联网
移动互联网量子
云计算互联网
报告卫星

面向动态环境的MEC突破：MLGO微算法科技推出自适应权重深度确定性策略梯度（AWDDPG）算法，革新多用户任务迁移技术

2025年9月25日 10:31CCTIME飞象网

在移动互联网迅猛发展的当下，移动边缘计算（MEC）作为一种支撑下一代智能应用的重要技术，正在受到越来越多关注。MEC通过将计算资源部署在网络边缘，极大地缩短了用户与服务器之间的距离，从而降低了延迟、节省了带宽，并提升了整体服务体验。然而，随着移动用户数量不断增长、应用需求日益复杂，如何在动态环境中实现高效的任务迁移，成为摆在业界面前的严峻挑战。为此，微算法科技（NASDAQ:MLGO）研发团队推出了具有自主知识产权的自适应权重深度确定性策略梯度（AWDDPG）算法，旨在大幅降低服务迁移成本与延迟，为MEC环境下的多用户任务迁移提供智能、高效、稳定的解决方案。

移动用户在实际使用过程中往往会频繁变化其地理位置，这种动态变化会导致服务需要从一个边缘服务器迁移到另一个服务器，以保持用户体验的连续性。然而，迁移本身是有代价的：频繁迁移会增加延迟、消耗网络资源，甚至导致服务中断。而如果选择不迁移，则用户可能因接入到远程服务器而遭遇更高的时延和更差的服务质量。因此，设计一种既能适应动态环境，又能平衡迁移成本和服务性能的智能决策机制，成为移动边缘计算领域的重要研究方向。

为解决这一问题，微算法科技提出了全新的AWDDPG算法。该算法基于深度强化学习框架，通过引入自适应权重机制，实现了对迁移成本与服务延迟的动态权衡。与传统强化学习方法不同，AWDDPG不仅能够感知环境变化，而且能够根据当前的迁移需求、用户分布、服务器负载情况，实时调整决策策略，有效减少不必要的迁移操作，从而在动态环境中保持最佳服务质量。

在AWDDPG的核心实现逻辑中，微算法科技采用了深度确定性策略梯度（DDPG）作为基础。DDPG是一种结合了价值函数近似与策略梯度优化的连续动作空间强化学习算法，适合处理移动边缘计算任务迁移这种高维、连续决策问题。但在动态环境下，DDPG存在收敛速度慢、策略稳定性差的问题。为此，微算法科技引入了自适应权重机制，将迁移成本与延迟性能指标动态地加权融合进奖励函数中，使得智能体（即任务迁移决策系统）能够根据当前环境状态，自主学习并调整迁移策略，实现对不同环境变化的快速适应。

自适应权重的设计，是AWDDPG区别于现有方法的重要创新点。传统方法往往采用固定权重来平衡迁移代价和延迟目标，这种固定性很难适应用户密度变化、服务器负载变化以及网络状况波动等动态因素。而AWDDPG根据实时感知到的环境特征，通过自适应调整权重参数，动态决定当前阶段是应更加关注降低迁移次数，还是应优先优化用户延迟体验。这一设计显著提升了决策的灵活性和智能性，使系统在各种复杂场景下均能保持优异性能。

另外，为应对多用户环境下高维状态空间和动作空间带来的计算挑战，微算法科技在AWDDPG框架中采用了分布式执行与集中式训练的策略。分布式执行意味着每个移动用户或其代理设备本地进行决策推理，极大降低了通信与计算负担；而集中式训练则将采集到的多用户数据统一在服务器端进行联合训练，通过集中更新神经网络参数，保证了模型学习的全局最优性与鲁棒性。这种分布式执行与集中式训练相结合的范式，极大地提高了算法的扩展性和可部署性，为面向大规模MEC环境的应用奠定了坚实基础。

系统架构层面，微算法科技设计了一个高效的数据收集与训练流程。首先，通过在边缘节点部署轻量级代理模块，实时收集用户位置变化、服务器负载、网络延迟等关键信息；其次，将这些信息汇总至中心服务器，通过统一的奖励函数评估迁移决策的好坏，并根据自适应权重机制动态调整奖励结构；然后，利用批量经验回放（experience replay）与目标网络（target network）稳定训练过程，避免了强化学习过程中常见的震荡与发散问题；最后，通过策略网络（Actor）和价值网络（Critic）协同优化，实现对复杂环境下任务迁移策略的持续演进。

值得一提的是，AWDDPG的优势不仅体现在性能指标上，还在于其良好的可扩展性与部署灵活性。由于分布式执行机制，每个用户设备仅需运行轻量级推理模块，无需进行复杂计算或存储大规模模型，大大降低了部署成本。同时，集中式训练模块可以根据实际应用需求，灵活选择训练频率和模型更新策略，进一步提高了系统的可管理性和易维护性。

技术落地方面，可以将AWDDPG算法集成到现有的MEC调度系统中，面向智慧城市、智慧交通、智慧零售等领域进行应用推广。例如，在智慧交通项目中，AWDDPG可以实现车联网（V2X）中的实时服务迁移与负载均衡，大幅提升自动驾驶辅助系统的数据处理效率；在智慧零售场景下，通过精准的用户服务迁移，显著改善了大型商场中的无线网络覆盖与延迟体验。

微算法科技还计划在AWDDPG基础上，进一步研究多智能体协作学习（multi-agent reinforcement learning, MARL）方法，以实现跨服务器、跨用户群体的协同任务迁移优化，进一步提升系统整体性能。此外，微算法科技也在探索结合联邦学习（federated learning）与隐私保护计算技术，将AWDDPG扩展为支持隐私保护的任务迁移决策框架，满足日益增长的数据安全与合规性需求。

总结来看，AWDDPG作为一项面向未来移动边缘计算环境的重要技术创新，充分融合了深度强化学习、自适应权重调节与分布式智能决策的先进理念，成功突破了传统方法在动态环境适应性、服务延迟优化与迁移成本控制方面的瓶颈。随着这项技术的不断打磨与落地应用，必将为全球MEC生态系统带来深远影响，助力智能终端、智慧城市、车联网等领域迈向更高水平的智能化、自动化发展。

在新的时代背景下，移动边缘计算领域正在经历前所未有的变革。微算法科技将持续秉持技术创新与用户至上的理念，携手合作伙伴，不断推动包括AWDDPG在内的新一代智能算法的研发与应用，积极引领行业变革，共同开创更智能、更高效、更可持续的未来。

编辑：T01

飞象网版权及免责声明:
1.本网刊载内容，凡注明来源为“飞象网”和“飞象原创”皆属飞象网版权所有，未经允许禁止转载、摘编及镜像，违者必究。对于经过授权可以转载，请必须保持转载文章、图像、音视频的完整性，并完整标注作者信息和飞象网来源。
2.凡注明“来源：XXXX”的作品，均转载自其它媒体，在于传播更多行业信息，并不代表本网赞同其观点和对其真实性负责。
3.如因作品内容、版权和其它问题，请在相关作品刊发之日起30日内与本网联系，我们将第一时间予以处理。
本站联系电话为86-010-87765777，邮件后缀为cctime.com，冒充本站员工以任何其他联系方式，进行的“内容核实”、“商务联系”等行为，均不能代表本站。本站拥有对此声明的最终解释权。