江苏移动迈进智能化维护新时代

江苏移动迈进智能化维护新时代

江苏移动网络部副总经理 宗序梅
江苏移动网络部核心网室经理 叶文

如何深度挖潜大数据和AI价值,向智能化维护演进,打造零中断稳健网络,如何以更低的运维成本,更高的效率,保障更好的网络质量,提升用户数字化业务体验,成为江苏移动新时代运维的迫切诉求。

5G、物联网、工业数字化的引入带来复杂的网络变化,并且多代技术长期共存,使得网络故障快速定界、精准定位难度加大;海量的数字化业务和各类事件活动,带来爆发式流量增长,对网络安全稳定运行带来巨大挑战。

在历经蒸汽时代、电气时代、信息时代的巨大演进变革之后,当今,已迎来新的历史拐点:基于ICT 网络,以大数据、云计算、人工智能等为代表的数字化技术被视为第四次技术革命。未来将是智能化的时代,技术演进和产业变革日趋加快,实体经济和数字经济深度融合,将极大地改变社会的生产和生活方式。

据预测,到2025年全球联接指数将达1,000亿,通信网络作为信息高速公路,网络故障影响范围也不断扩大;5G、物联网、工业数字化的引入带来复杂的网络变化,并且多代技术长期共存,使得网络故障快速定界、精准定位难度加大;海量的数字化业务和各类事件活动,带来爆发式流量增长,对网络安全稳定运行带来巨大挑战。随着网络及业务复杂性的提高,维护难度加大,维护效率亟须提升,传统“头痛医头”的粗犷式维护不再适应网络发展,放眼全球,网络运维向基于数字化技术的智能维护转型已成为行业发展趋势。

例如,传统的被动应急式维护R2F(Run-to-Failure)模式下,网络故障频发,维护工程师疲于应对,且故障恢复时长因人而异;主动预防性维护PvM(Preventive Maintenance),即例行的巡检维护,虽然可以一定程度上预防故障发生,但仍然效率低下。而大多数网络设备的故障均有一个发展的过程,在设备尚未丧失其功能进入故障态之前有征兆可循,可根据某些物理状态或工作参数的变化来判断其功能故障的发生。

而数字化技术作为运维模式演进的引擎,开启了新一阶段的可预测性维护PdM(Predictive Maintenance),即能够预测某个设备未来有多大概率发生故障,然后维护工程师可进行针对性的维护,一方面可以在影响用户业务前规避故障的发生,另一方面可以通过计划性例行维护大幅提升维护效率。

鉴于以上思考,中国移动确立了“网络质量是通信企业生命线”的大方向和新理念,积极打造下一代智慧网络。而如何深度挖潜大数据和AI价值,向智能化维护演进,打造零中断稳健网络,如何以更低的运维成本,更高的效率,保障更好的网络质量,提升用户数字化业务体验,成为江苏移动新时代运维的迫切诉求。

智能化运维将是一个长期的过程,不可能一蹴而就。江苏移动将智能运维演进分为五个阶段:

第一阶段,通过AI指出“发生了什么”。将AI引入电信网络,带来全新价值“可预测性”;

第二阶段需要分析“为什么会发生”;

第三个阶段需要预测“将会发生什么”;

第四个阶段需要判断“采取什么措施”,然后经由人工实施操作;

第五个阶段是全面实现网络的自我控制和自动修复,提升网络自愈能力。

正如计算机科学家艾伦·凯所说,预测未来的最好方法就是创造未来。江苏移动采用“大处着想、小处着手、快速行动”的理念,联合华为稳健网络项目组,对智能化维护进行了积极的探索和成功实践。江苏移动以大数据分析和AI算法为技术手段,深挖网络运行过程中的海量数据和运维专家经验数据,打造 “预、诊、保、评”全流程的智能化运维能力,提升维护效率、降低网络故障 ,通过建立以下四道防线,构筑稳健网络,为网络安全“护心”行动保驾护航。

图 1:智能维护创新,构筑稳健网络“四道防线”

防线一:实时风险预测

基于VoLTE语音业务建立实时风险预测,通过对现网的历史指标样本数据的自动采集,针对业务指标和错误码数据进行自动分析,并提取数据的波动、周期性、同比环比拟合、统计、分布等五大特征,分别匹配不同算法,训练出不同业务类型的故障预测模型。然后,利用现网数据,通过风险预测模型实时对比分析,提前识别渐变类故障。经过项目验证,通过智能化风险预测的方法,可提前数小时识别网络故障,极大地解决了VoLTE业务故障靠告警和用户投诉式的故障发现慢的维护痛点。

防线二:故障自动诊断

首先通过信息聚类钻取,完成话统、告警、操作日志等数据自动采集,并结合CHR信息,给出故障问题聚类;然后对故障产生的大量CHR、告警/IP数据在线汇聚分析,快速定位号码/终端/小区等9个不同维度问题分布情况,并通过不同网元间的告警汇聚,直接分析定位到故障网元,大幅提升对海量告警、日志数据的分析效率。同时,对维护专家经验进行规则数字化,通过将华为全球VoLTE维护历史经验、网元10,000+内部错误码处理建议等,转化为工具可执行的判断逻辑和规则,依托于开源业务规则引擎Drools,最终将故障分析由人工向机器智能辅助转变。同时,在项目实践中实现了规则与软件代码的解耦,以便能实现快速迭代更新和维护。

防线三:网络割接保障

为保障割接的成功实施,传统割接项目组通常制定详细的实施方案和保障计划,但割接事故仍时常发生。而智能化网络割接保障实践则主要围绕网络割接的操作、验证、值守三个阶段进行创新:操作阶段,通过E2E风险智能检测,根据对网元有无操作、对业务有无影响等判断,实施不同的监控策略,以识别操作过程中的错误,自动提醒操作人员及时纠偏;验证阶段,基于网元、场景、专家经验的指标体系,结合告警/日志/拨测/CHR等自动分析,实现业务快速、深度验证;值守阶段,借助智能化辅助值守,实时监控用户投诉,快速识别并通报操作关联风险,利用专家经验实现风险快速闭环,并借助数字化技术,解决操作过程无纠偏、验证不充分、值守被动等投诉的传统割接痛点。

防线四:在线智能评估

针对无法预测的网络风险,采用传统的网络巡检方式,检测故障隐患效率低下,且对人员技能要求高。该项目借助智能分析手段,通过基础评估、高频在线评估、专项评估、趋势性评估、自定义评估规则5大维度,实现对设备静态配置的合理性检查、设备软硬件的实时运行状态检查、系统运行状态的日志深度检查、软硬件资源的趋势性检查、维护人员自定义规则检查等,对设备稳健度全方位评估和网络隐患监控。通过将日常设备例行维护的经验固化为规则,然后实时在线采集数据和智能识别分析,网络风险评估结果的准度可达到90%以上。

人工智能将是5G时代和智慧网络时代的重要技术,今后的无线网、核心网、传输网各个层面都离不开人工智能的技术和基础。为了迎接网络新时代的到来,中国移动集团积极打造下一代智慧网络,而未来3年,江苏移动和华为会在更多的智能运维领域进行合作,让智慧网络与智能运维作为数字化双引擎,进一步助力中国移动向智慧运营转型,把握未来数字化生态竞争中的关键点。