计算机工程与科学杂志入选论文范文

　　故障管理是现代电信网管理的5大功能之一，故障管理是网络管理的一个重要组成部分,故障管理的智能化是故障管理追求的目标，也是复杂、高速网络高可靠性、高生存性的必然要求。
　　摘要：随着通信网络的迅速发展和业务的拓展，对网络的管理与维护变得越来越困难。告警相关性在通信网络故障维护中起着十分关键的作用。文中首先介绍了故障管理和告警关联的概念，在此基础上介绍了几种告警关联方法，分析了它们的优缺点。通过对比几种方法，提出采用基于事例推理和基于规则推理的两种方法对故障进行关联分析。

　　关键词：故障管理,告警关联,基于规则的推理,基于事例推理

　　1引言

　　网络管理员面对通信网络中产生的大量告警信息，往往很难从中找出故障的真正原因，从而无法快速实施故障修复和障碍排除。对于故障管理来讲，其难点就在于故障诊断和定位。为了更好的解决故障诊断定位问题，需要对所接收的告警信息进行分析和处理，以便能更好地完成故障管理的任务。

　　为了更好的把故障管理的智能化的思想运用到通信网络中，以解决大型通信网中大量的告警信息，本文将首先介绍几种具有代表性的故障管理告警关联技术，并通过对比分析这几种方法，选择将基于规则和实例的关联分析方法相结合，进而来分析告警信息，从而使故障的定位更加准确。

　　2基本概念

　　在网络管理领域，故障是人们对服务中出现问题的感知，尤其是用户的感知。故障是产生告警事件的原因。告警是当检测到错误或异常状态时产生的特定类型的通知。但它只是表明可能有故障发生，并不一定有故障发生。当网络中出现故障时，会引发一系列告警，但并不是所有告警都表明故障原因，所以需要对网络中发生的告警事件进行相关性分析，确定产生故障的根本原因。

　　告警相关性分析是指对告警进行合并和转化，将多个告警合并成一条具有更多信息量的告警，确定能反应故障根本原因的告警，准确定位故障[1]。

　　3几种告警关联技术

　　3.1基于规则的推理

　　基于规则的推理又称为基于规则的专家系统、专家系统、产生式系统和黑板系统等，它是最早出现的一种事件关联技术。

　　这种方法的特定领域的知识包含在一组规则集中，而与特定情况相关的知识构成了事实。每个基于规则的系统都有一个控制策略，决定应用规则的次序。例如，当结束条件已经被满足，则停止计算[1]。

　　3.2基于事例的推理

　　基于事例的推理是通过直接利用过去的经验和方法，来解决给定的问题。事例是以前遇到并已经解决的特定问题。基于事例的推理是将过去成功的事例存入事例库；遇到新问题时，在事例库中寻找类似的过去事例，利用类比推理方法得到新问题的近似解答；再加以适当修改，使之完全适合新问题。事例库的维护主要是按著名的遗忘曲线理论，即长期不用的信息将会被遗忘，所以要删除长期不用的事例。

　　3.3基于模型的推理

　　在基于模型的推理系统中，每个被管对象都有一个模型与之相对应。一个模型实际上就是一个软件模块。处于网络管理系统中的事件相关器建立在面向对象的模型之上，模型之间的协作形成事件关联。网络管理系统和被管网元之间的通信是通过事件关联器和每个被管网元的模型之间的通信实现的，被管网元和被管网元之间的通信是通过被管网元的模型之间的通信实现的。这样，模型之间的关系反映出它们所代表的被管网元之间的关系[2]。

　　每个模型通过与自身所表示的被管网元以及与其它模型之间进行通信，分析自身所表示的网元是否发生故障。因此，网元的故障首先由模拟该网元的模型识别出，然后报告给网络管理系统。

　　3.4贝叶斯网络

　　贝叶斯网络[3]提出处理不确定性的新方法。通过这些方法即使在信息不完全和不精确的情况下，也可以进行推理。通信网络中发生的告警事件，可能会发生丢失，收集到的具有相关性告警事件是不确定的。而且激发相关性告警的故障原因也是不确定的。所以通过贝叶斯网络来分析通信网络中告警相关性，可以克服告警事件的不确定性。

　　3.5神经网络

　　神经网络是模仿人类神经系统的工作原理，又相互联结的神经元组成的系统。各神经元之间是简单的输入/输出的关系。通过学习待分析数据中的模式来构造模型，而这个模型本身相当于一个“黑箱”，我们并不了解“黑箱”内部的东西，而只要求我们在已经训练好的神经网络中输入端输入数据，就可以在输出端直接得到预期的结果。

　　3.6数据挖掘

　　数据挖掘是在数据中发现新颖的模式。它是基于过去事例的泛化的一种归纳学习。数据挖掘在通信领域中的典型应用是基于历史告警数据，发现告警相关性规则。根据发现的规则，来分析和预测网络元件可能出现的故障。

　　3.7模糊逻辑

　　由于通信网络结构十分复杂，几乎不可能建立关于这些网络的精确模型，所以需要用模糊逻辑方法来处理一些具体问题。而且实际上由于网络配置经常发生变化，网络模型越详细，那么它过时的速度会越快。并且在故障和告警之间的因果关系通常是不完全的，如由于路由故障，一些告警事件发生丢失。因此可以通过模糊逻辑描述出不精确网络模型，用于分析不完全的告警相关性[1]。

　　由通信专家所提供的知识经常是不精确的，很难直接用于网络管理。模糊逻辑中最根本的概念是模糊集合。模糊集合中任何一个元素归属于某个集合，不再是从True或False的两者选择其一，而是在区间[0,1]之间的一个值。所以通过模糊逻辑来描述网络模型，采用模糊推理来确定出相关性规则。

　　4分析和比较

　　下面对上述几种告警关联技术的优缺点进行分析和比较。

　　基于规则的推理系统结构简单，比较容易实现。但对于基于规则的系统来说，当规则数目达到一定量时，规则库的维护变得越来越困难。而且知识的获取是基于规则系统的一个很大瓶颈，因为规则获取主要从专家那里获得，且无自学习的功能。而且在这种演绎推理过程中，没有充分利用过去经验并且缺乏记忆。

　　基于事例的推理克服了基于规则的推理的许多不足：前者知识的单元是事例，检索是基于对事例的部分匹配，而对于后者知识的单元是规则，检索是基于对规则的完全匹配。但是在基于事例的推理系统刚开始运行的时候，一般很少能找到完全匹配的事例，随着事例库的增长，系统的效率也会逐渐提高。并且系统具有自学习的能力。缺点是它总是与某一个特定应用领域紧密相关，而不存在一个通用的事例方法。它对于网络变化处理反应不敏感，处理过程较复杂而且费时，这对于要求实时性高的告警处理是一个问题。

　　基于模型的推理通过模型间的互操作来达到事件关联的目的，这对降低网络管理系统的网络负载有一定的好处。但是它需要为每个网元建立一个模型软件，当网络规模逐渐增大时这一任务的复杂性就会越来越高。

　　对于贝叶斯网络来说，计算出每一个节点相关概率是一个NP-hard的问题。虽然通过采用恰当的启发式算法，可以在可接受的时间内算出几千个节点的计算，但贝叶斯网络边界概率的计算效率仍是一个有待解决的难题。

　　基于神经网络的方法具有良好的自学习能力，而且对输入的数据具有较好的容错性。但神经网络需要过多的训练，在通信网络中很难找到较好的训练数据。

　　数据挖掘方法不需要知道网络拓扑结构关系，因此当网络拓扑结构发生变化时，可以通过告警的历史记录进行分析，自动发现新的告警相关性规则，这减轻了网络管理员的工作强度，提高了工作效率。因此基于数据挖掘告警相关性系统可以很快地调整适应一些变化快的通信网络，解决通信网络中出现的新问题[1]。

　　5结论

　　随着通信网络的迅速发展，对网络的维护变得越来越困难，对告警处理愈显重要。

　　传统上人们倾向于采用某一种方法对告警事件进行分析，但是通过上面介绍，我们可以得知，每一种方法都有其优缺点。如果仅仅采用一种方法，那么其效果在网络规模较小的情况下，还可以满足实际要求。当通信网络规模越来越大时，显然已经无法满足网络维护的要求。因此我们可以选用其中的两种或以上方法同时对告警事件进行分析。

　　从上面的介绍中，我们可以得知，基于规则的推理和基于事例的推理这两种方法的具有一定的互补性。基于规则的推理算法最大优点是它更符合人的思维，便于人们的理解，系统结构简单，比较容易实现。所有知识都采用“if-then”或者“condition-action”规则集的形式。基于事例推理的系统具有自学习的能力，通过直接利用过去的经验和方法，来解决给定的问题。该方法还可与神经网络和遗传算法相结合，进一步完善其学习能力。针对通信网络的特点，我们以这两种推理方法为主要手段对网络故障进行分析。

　　参考文献：

　　[1]郑庆国,吕卫锋.通信网络中的告警相关性研究[J].计算机工程与应用.2002(2):11-14.

　　[2]彭熙,李艳,肖德宝.网络故障管理中几种事件关联技术的分析与比较.计算机应用研究[J].2003(9):145-148.

　　[3]DavidHeckerman,MichaelP.Wellman.Real-worldApplicationofBayesianNetworks[J].ACM,1995,38(3):24-26.