期刊在线咨询服务,发表咨询:400-888-9411 订阅咨询:400-888-1571股权代码(211862)

期刊咨询 杂志订阅 购物车(0)

复杂网络分析模板(10篇)

时间:2023-06-12 16:06:26

复杂网络分析

复杂网络分析例1

中图分类号:TP311.52 文献标识码:A 文章编号:1007-9416(2015)04-0220-01

网络化软件的媒介是互联网,运行元素是网络信息和资源,软件的功能就是通过元素之间的操作和协作实现的,从而建立一个多软件混合系统。现阶段,网络技术和软件技术,不断完善,应用面也越来越广,人们提高了软件服务的要求。在这个影响下,软件系统更加复杂,规模也有所扩大。现对网络化软件的复杂网络特性进行分析,并总结如下。

1 网络化软件的意义和特点

科技的发展,促使计算机得到了更好的应用,并在社会的各个领域中,具有比较重要的作用。在网络化软件中应用中,相关人员应了解其重点内容,例如人们对网络话软件的要求不断增加,软件的应用深度和广度不断增加[1]。网络化软件属于互联网中的一部分,主要是应用网络信息和资源,通过这些基本元素,促使该复杂的软件系统能够顺利操作。

网络化软件能够作为计算机一种面向服务的应用形式,主要的操作方式,是元素之间的相互作用,通过这种方式为人们提供能需要的服务。网络化软件能够根据人们不同的需求,及时改变,更好的实现动态化管理和服务。在应用网络化软件的过程中,应始终坚持以人为本,为人们提供更好的软件服务,促进经济水平的提升。

2 网络化软件的复杂网络特性分析

现阶段,计算机和网络都得到较好的发展,不断完善了PC软件的形态,并在发展中,逐渐融合优秀的内容。网络化软件突出了网络基础设施在系统中的地位,从而反映出系统元素的重要作用,更好的为客户服务,现对网络化软件的复杂性进行全面且综合性的分析。

2.1 基础设施

2.1.1 Internet

Internet拓扑建模这项工作比较复杂,相关人员应在分析中,掌握其包含的规律。从而更加全面的认识Internet,这种方法能够为软件的设计和实现,奠定有利的基础[2]。Internet拓扑建模,能够更好的解释网络的复杂性,计算机网络不断创新,相关人员需要大量的数据,对网络度量指标和软件内部的相关性进行分析,从而使这个软件的功能得到更好的发挥,增加Internet的可靠性,提升Internet的应用效果。

2.1.2 WWW

WWW 是人们获取信息和共享信息的途径,在WWW的应用中,链接结构具有重要的作用。现阶段,我国WWW的应用规模不断扩展,并迅速发展,在网络软件的应用中,是一个非常重要的载体。从微观角度进行分析,相关人员可以利用量化指标和复杂的网络特性分析,对搜索功能、社会发现工具及评价内容进行不断完善,所以WWW具有重要作用。如果从宏观角度进行分析,应综合多种应用工具和系统进行考虑,利用WWW的信息潜能。

2.2 应用服务

2.2.1 web 服务

Web服务主要是根据Web自身的环境实现的,在这个过程中,可以对环境和模块化的应用程序进行完善,Web是一种非常重要的信息资源。相关人员应明确Web是通过Internet 进行和访问的,所以在这个过程中,要采取合理的技术,对Web服务进行审视,延伸软件技术,更好的解决功能的封装、消息的传送以及动态的绑定工作。相关人员还应了解到Internet 可用公共 web 信息资源与服务有一定局限性,这种情况导致信息和数据的收集和整理工作的难度有所加大。所以研究人员应根据Web和Internet 的特点,深入对数据和Web服务的开发与研究工作。

2.2.2 面向对象软件

软件属于一种人工智能化系统,具有拓扑结构和功能性指标,相关人员应对这些功能性指标进行科学且合理的分析,合理且有效的描述来软件的结构情况,并对软件结构进行量化分析。通过这种方式实现软件结构的完善,软件结构表示一种互连内容的复杂网络拓扑形态,相关人员可以通过网络,分析软件结构信息,更好的理解软件的本质,从而软件的复杂特性和量化奠定良好的基础。

2.2.3 语义 web 服务

Web是一种技术,主要以服务核心,如果这个内容缺乏对服务的约束,很可能导致相反的效果。相关人员应支持语义的属性描述,发现Web服务存在的问题,合理解决,从而保证机器处理的精确性,避免不合理的方式,给实用化进程造成影响[3]。相关人员应从语义层,描述Web服务能力和属性,从而更好的描述软件功能,提高Web的服务选取效率和软件分析的针对性和准确性,为自动发现服务和选择服务,提高较好的理论基础。

在社会主义现代化基础建设及信息化时代不断进步的背景下,相关人员应了解软件技术的重要作用,确保软件能够在服务中坚持以人为本和认真严谨的原则,从而更好的社会的生产生活服务。网络化软件在应用中,具有个性化和多元化的特点,该软件还能够提供生产指导和服务构造说明。 在科技发展和互联网发展的影响喜爱,网络化软件及资源,受到人们的广泛关注,所以不断对虚拟化服务器进行创新,实现整个工作的关键性内容。

3 结语

通过上文对网络话软件的复杂网络特性分析,我国软件技术发展速度较快,相关单位一直致力于开发质量高、安全性强的产品和服务,从而在社会的各个领域中得到较好的应用。网络技术的不断发展,网络话软件的构成越来越复杂,相关人员应不断改善网络软件系统,更好保证其作用。网络发展规模和复杂堵不断增加,为网络化软件系统带来了新的挑战,所以相关人员应从网络化、服务化、社会化的角度,对网络话软件的复杂网络特征进行全面且深入的研究,通过实证分析,了解网络化软件的设施需求,满足其应用服务方面及其他方面的要求,为我国软件工程的迅速发展奠定良好的基础。

参考文献

复杂网络分析例2

二、复杂网络和计算机网络拓扑的基本理论

(一)复杂网络理论的含义及其复杂性

复杂网络是指具有内部相似、自行组织、吸引因子、小区域、无标度中的一部分或者全部的网络。其复杂性主要体现在以下六个方面:①结构的复杂性,表现在网络的节点数量较大。②节点的多样性,网络中的所有组成部分,代表的各种事物均为复杂网络理论中的节点。③连接的多样性,指的是网络中节点的连接方式不一致。④动力学的复杂性,指的是节点之间的复杂性,能够产生多样的结构特征。⑤网络结构的变化性,指的是网络节点之间消失和连接产生就像网页随时断开和连接一样,使得网络结构不断的发生变化。⑥多重复杂性的融合,指的是上述所有复杂性的结合表现出的复杂性。此外,复杂网络理论有小世界、集团集聚程度更加密集和幂律的度及介数涵盖的范围不断扩大等三种特性。

(二)计算机网络拓扑技术及分类

计算机网络拓扑最早是由瑞士数学家欧拉在1736年提出的,主要是用于连接计算机网络和传输不同设备之间数据的一种方式。不同的网络设计要选择适合的网络拓扑方式,在网络拓扑结构中,拓扑技术是以图像的方式来表示多种设备之间的相互关系。计算机网络拓扑的主要类型有星行结构、环形结构、总线型结构、混合拓扑结构、分布式结构等。由于计算机的分布和数据传输电缆的布置存在很大的差异性,每一种网络拓扑结构都有其相应的优缺点,因此在计算机网络拓扑形式的使用上,要具体问题具体分析。

三、复杂网络理论在计算机网络拓扑中的具体应用分析

(一)计算机网络的同步行为现象分析

这主要是指计算机各个网络节点之间的同步行为,在复杂网络理论中,网络节点之间的同步是较为常见的一种现象,主要是受网络拓扑和各节点之间的动力学性质决定的。但是值得注意的是,这种同步行为并不都是有益的,如由多个路由器发出路由信息的网络,其同步行为包括了发出同一种路由信息和同时不发送信息,这就很有可能会使得网络出现拥挤或者瘫痪的现象。从计算机网络技术的发展来看,人们采取避免计算机网络出现同步行为的措施并没能完全奏效,经常会出现一种同步行为结束,另一种同步行为又产生的现象。因此,如何有效杜绝计算机网络的同步行为现象仍然是人们研究的课题。

(二)计算机网络拓扑行为的演化模型

计算机网络拓扑行为的演化模型由复杂网络演化模型逐步转变为了局部演化模型,这两种演化模型都是从路由器和自治域两个不同的层次来描述计算机网络的拓扑结构的。从路由器上看,各个路由器相当于各个网络节点,而路由器之间的物理连接相当于边。从自治域上看,在边界网关协议的基础上,如果两个自治域之间对等连接的话,就说明这两个节点之间是有一条边相连的。复杂网络演化模型演化出的结果很大程度上出现富者更富,穷着更穷的现象,即那些新加入的用户会倾向于那些品牌好、质量好、连接数量多的网络服务商。该模型遵循的偏好连接原则是基于整个网络上的,与优先考虑连接到本地区的服务器或路由器的实际不符。而局部演化模型的偏好连接倾向性是在局部信息的基础上形成的,一定程度上克服了复杂网络演化模型的缺陷。

(三)计算机网络脆弱性和鲁棒性的动力学模型

1.计算机网络的鲁棒性。计算机网络的原始功能是保证军事资料的安全性,这样的保证就是所谓的鲁棒性。鲁棒性是指在计算机网络中的某个区域或节点中出现问题或故障时,不会扩散到整个计算机网络系统,计算机还能保持正常的运行。相关研究表明,一般在一个网络系统中,只要有百分之二十左右的正常区域和政策阶段就能够保障计算机网络的正常运行。

2.计算机网络的脆弱性。虽然计算机网络有鲁棒性的动力学模型,但是一旦计算机网络系统中的重要区域或节点受到破坏时,整个计算机网络将会异常脆弱。更有甚者,如果计算机网络中一小部分的中心阶段被破坏后,整个网络就会陷入瘫痪的境地,计算机网络也无法保障正常运行。

(四)计算机网络病毒扩散模型和病毒防治的方法

复杂网络分析例3

随着科学技术的进步和生产力的发展,政治、经济、社会环境发生了巨大变化,顾客的消费水平不断提高,使得企业间的竞争日益加剧。企业为了提高竞争力而采取了许多先进的制造技术和管理方法。营销管理日益受到企业的重视,企业在全球市场中不再作为单个实体而是作为营销链的一部分参与竞争,企业之间的竞争已经转化成为营销系统之间的竞争。营销系统是在竞争、合作、动态的环境中,由厂商、各级销售和客户等成员实体构成的快速响应环境变化的动态销售网络。在竞争、合作和动态多变的市场环境下,复杂营销网络中的每一个成员都有自身的经营策略,每个成员的目标都是通过不断提高自身对市场的适应能力从而提高其竞争力来获取利润。可见,营销系统是一种复杂的自组织、自适应性网络系统,因而用复杂网络的研究方法可以发现其它方法不易揭示的该类系统的有趣而且重要的性质,而这些宏观规律对系统的运作管理和科学决策具有重要的参考价值。

一、复杂网络的统计参数

复杂系统可以被理解为一个关系网络, 这个关系网络由一个个节点所组成, 这些节点之间依据一定的规则、相互关系而维系着系统整体的存在。在社会经济系统中作为复杂系统的网络无处不在, 如人与人之间的社会网络、资源共享网络、绿色经济网络、企业之间的产品生产和销售等方面的竞争网络、国家内外之间的贸易合作网络等等。复杂网络研究是从统计角度考察网络中大规模节点及其连接之间的性质, 这些性质的不同意味着不同的网络内部结构, 而网络内部结构的不同导致系统功能有所差异。在现实的社会经济系统中,我们将每一个企业主体看做是一个节点,而企业之间的博弈规则看做是连接节点的边,于是系统中存在的主体便构成了一个网络。

1.平均路径长度(Average path length)

网络的特征路径长度 是所有节点对之间的最短路径的平均值, 表示为

(1)

其中表示节点之间的最短路径值。

研究表明,尽管许多实际网络的节点数巨大,但网络的平均路径长度L相对于N来说却很小,这种现象称之为“小世界效应”。

2.聚类系数(Clustering coefficient)

节点的聚类度的所有邻居节点之间实际的连接数与理论存在的最大连接数之比, 表示为

(2)

其中为节点的度。平均聚类系数C定义为所有节点的聚类系数的平均值, 表示为

(3)

研究表明,在大多数情况下,复杂网络的集群系数都要比随机网络和规则网络的集群系数大得多。正如常言所说的“物以类聚,人以群分”所描述的那样,社会经济网络的一个典型的特征就是小集团集群的形态。

3.度及度分布(Degree and degree distribution)

图论中节点的度定义为与该节点连接的其它节点的数目,通常用分布函数 来描述网络中节点的度分布情况, 表示一个随机选定节点的度恰好为 的概率。节点度的分布特征是网络的重要几何性质,规则网络中各节点的度值相同,符合Delta 分布,随机网络的度分布可近似为Poisson 分布,大量的实际网络存在幂律形式的度分布,称为无标度网络。无标度网络是节点与节点之间的连接分布遵循幂律分布的网络,即节点度分布服从幂律分布。在这种网络中,大部分节点只有少数连接,而某些少数节点则拥有与其他节点的大量连接,即存在一些关键的中枢节点。这种网络对于随机性错误具有较强的鲁棒性,对于人们的蓄意攻击或破坏却具有较强的脆弱性,疾病在这种网络上极易传播。

二、企业营销网络分析

企业的产品营销系统是由厂商、各级销售和客户共同构成。现实中的企业营销系统通常由于销售(制造商、商和批发商)的分布范围的不同以及它们之间存在着各种各样的联系, 往往形成一个庞大的复杂网状结构。企业产品的营销过程, 也可以看成是厂商生产出来的产品通过各级销售, 最后扩散到用户中的扩散过程, 或者说是企业产品从厂商到销售, 最后到用户的传播过程。所以厂商、各级销售和用户就构成了企业产品在营销网络中的节点,节点之间的营销关系构成了网络中的边。

三、模型的建立

分析了企业营销网络中企业之间的营销关系,提出了一种新的演化模型来模拟其网络的演化过程,该模型的基本思想源于局域世界演化模型,演化过程中考虑两种基本因素:增长和局域世界优先连接。

1.增长模型

考虑到企业营销网络的演化特点,新模型的初始条件与其他模型有些区别,它起始于个节点,条边,节点之间两两相连, ,第一次新增节点具有m条边,并且这m条边分别和每个已有节点相连。这样,在之后的每一个时刻便会添加一个新的节点,而该新节点边的条数m是从以概率选取,这里是选取边数为的概率。那么在时刻之后,该网络便有个节点,条边的网络。

2.优先连接模型

在该模型中,网络中原有的节点连接新的节点的概率与以下两个因素有关系:

(1) 与节点的度有关系,这种关系是正比关系。

(2) 与节点的局域世界也有关系,节点优先连接机制不是对整个网络,而是在每个节点各自的局域世界中有效。随机地从网络已有的节点中选取m个节点,作为新加入节点的局域世界。新加入的节点根据优先连接概率来选择与局域世界中的m个节点相连。

四、仿真分析

1.仿真设计

为了验证统计企业营销网络的统计特性,以青海省城乡私营企业所构成的批发和零售业企业营销网络为例,基于上述网络模型构造算法的描述,利用VB语言编程实现模型的构建,构建出的模型如图1所示。实现时根据网络演化模型的构造算法,初始时先确定节点的总数,然后根据构造算法得到相应网络模型的邻接矩阵,最后再依据邻接矩阵计算网络的度分布、平均最短路径和平均聚集系数。

2.数据分析

以大圆点代表批发商,小圆点代表销售商, 边代表它们之间所存在的营销关系,不同的节点代表不同的企业。 通过直观的观察可以了解到,在企业营销复杂网络中批发商和销售商的营销关系比较密切, 相对来说批发商或销售商之间的营销关系却较为缺乏。也可以看到节点之间的距离很小,是一个典型的小世界网络。各成员企业间的联系的分布是不均匀的,这主要是由于成员的地位不同造成的。与核心企业的联系密集,节点度就大;而与小的非核心企业联系稀疏,节点度就小,即存在优先连接,新加入该系统的企业会优先选择与那些在社会中影响力较大、实力雄厚的企业进行合作,表现在网络中就是首先选择与度比较大的节点进行连边。

下面的仿真图只是仿真过程中的部分结果。从仿真结果可知,网络的平均路径较小,随着网络节点数的增加呈现上升的趋势,但增加的速度较为缓慢,以网络节点数 的对数成正比。如图2所示。网络的平均聚集系数较高,随着网络节点数的增加呈现下降的趋势,但不会随着网络节点数的无限增大而趋于0,表明此网络具有小世界网络的特点,如图3所示。网络的度分布服从幂律分布,在网络中拥有少量度很大的节点,而大部分节点的却为2,相对来说,这些节点的度很小,满足无标度网络的第一个重要特性。

3.复杂网络统计特性对企业营销工作的指导意义

复杂网络的最终目的是通过对现实网络模拟,仿真得到相关数据,通过对数据的分析,更加科学合理的预测和控制相应的网络行为。本文中生成的网络模型较为真实的反应了现实网络的特性,因此在该网络模型中得到的统计参数也能反应现实网络的实际意义。

(1) 复杂系统理论中复杂网络具有自组织现象, 通过合理的运作, 企业可以扩大网络中已有节点之间的营销合作,即网络内部的演化。例如,生产商企业可以对其网络中某些中枢节点的商赋予一定权限, 使其进行低成本销售策略, 从而增加网络内部与其它节点连接比较少的节点与这些中枢节点的连接,从而使得营销网络内部边的线性增长。

(2)生产厂商或产品销售企业可以使用比竞争对手更具诱惑力的销售方式,一方面,稳定营销网络中已存在的合作节点, 增强节点构成者的满意度, 从而达到增强营销网络鲁棒性的目的;另一方面,吸引更多的新企业加入到网络中,使网络规模不断增加。

(3) 市场销售对于企业而言具有信息反馈的作用,企业应重视营销过程中所得到的反馈信息, 一方面研发能够不断满足客户需要的新产品,另一方面对现有的产品和服务进行改进, 提高客户的满意度, 从而阻止竞争对手对合作客户的争夺,防止企业的退出。

(4) 企业要想在激烈的市场竞争中长盛不衰,必须要有不断的创新(制度创新和技术创新)。创新将打破原有生产销售合作网络中的均衡。创新与竞争可能会导致网络中的某些企业破产,这些企业破产会不会导致网络的剧烈变动甚至整个结构的变更实际上依赖于这些企业在网络中的重要程度,政府应对这种核心企业采取适当的政策加以保护。

五、结束语

本文以企业营销网络为例,模拟构建了网络模型,通过对该模型的统计参数的理论描述和计算机仿真,初步探讨了统计参数对企业营销网络的指导意义。在进行仿真分析过程中也发现,由新模型所生成网络的平均最短路径和企业营销网络的真实数据还是有些差别,在上面所示的仿真结果中,平均最短路径要比真实数据大。当调整模型中的参数时,虽然能够使得平均路径趋于真实数据,但是此时,其它部分却又与实际的数据有些差别。因此,我们需要继续研究其中的原因,来改进新模型,使其更加适合企业营销工作网络的演化方式。

参考文献:

[1]侯明扬:复杂网络理论在企业营销中的应用研究[J]. 华东经济管理, 2008 (2) :1322134

[2]刘宏鲲 周涛:中国城市航空网络的实证研究与分析[J]. 物理学报,2007 (1) :1062113

[3] Watts D J, Strogatz S H. Collective dynamics of‘small-world’networks[ J ]. Nature, 1998,393 (4) : 440 - 442

复杂网络分析例4

[2] 杨博文.自然辩证法[M].北京:石油工业出版社,2008.

[3] 公共组织的类型及特性——百科问答[DL/OL]..

[4] 朱光,毛超锋,等.行政组织与公共组织的关系[J].中国商界(下半月),2010,(7).

[5] 周良金.中国行政体制改革思考[J].法制与社会,2008,(5).

[6] 刘晓庆,陈仕鸿.复杂网络理论研究状况综述[J].现代管理科学,2010,(9).

复杂网络分析例5

关键词:网络模糊聚类;团—点相似度;团间连接紧密度;团间连接贡献度;对称非负矩阵分解;网络宏观拓扑

fuzzy clustering and information mining in complex networks

zhao kun,zhang shao-wu,pan quan

(school of automation, northwestern polytechnical university, xi’an 710072, china)

abstract:there is seldom a method which is capable of both clustering the network and analyzing the resulted overlapping communities. to solve this problem, this paper presented a novel fuzzy metric and a soft clustering algorithm. based on the novel metric, two topological fuzzy metric, which include clique-clique closeness degree and inter-clique connecting contribution degree, were devised and applied in the topological macro analysis and the extraction of key nodes in the overlapping communities. experimental results indicate that, as an attempt of analysis after clustering, the new indicators and mechanics can uncover new topology features hidden in the network.

key words:network fuzzy clustering; clique-node similarity; clique-clique closeness degree; inter-clique connection contribution degree; symmetrical nonnegative matrix factorization(s-nmf); network topology macrostructure

团结构是复杂网络普遍而又重要的拓扑属性之一,具有团内连接紧密、团间连接稀疏的特点。网络团结构提取是复杂网络分析中的一个基本步骤。揭示网络团结构的复杂网络聚类方法[1~5]对分析复杂网络拓扑结构、理解其功能、发现其隐含模式以及预测网络行为都具有十分重要的理论意义和广泛的应用前景。目前,大多数提取方法不考虑重叠网络团结构,但在多数网络应用中,重叠团结构更为普遍,也更具有实际意义。

现有的网络重叠团结构提取方法[6~10]多数只对团间模糊点进行初步分析,如nepusz等人[9,10]的模糊点提取。针对网络交叠团结构的深入拓扑分析,本文介绍一种新的团—点相似度模糊度量。由于含有确定的物理含意和更为丰富的拓扑信息,用这种模糊度量可进一步导出团与团的连接紧密程度,以及模糊节点对两团联系的贡献程度,并设计出新指标和定量关系来深度分析网络宏观拓扑连接模式和提取关键连接节点。本文在三个实际网络上作了实验分析,其结果表明,本方法所挖掘出的网络拓扑特征信息为网络的模糊聚类后分析提供了新的视角。

1 新模糊度量和最优化逼近方法

设a=[aij]n×n(aij≥0)为n点权重无向网络g(v,e)的邻接矩阵,y是由a产生的特征矩阵,表征点—点距离,yij>0。假设图g的n个节点划分到r个交叠团中,用非负r×n维矩阵w=[wki]r×n来表示团—点关系,wki为节点i与第k个团的关系紧密程度或相似度。w称为团—点相似度矩阵。令

mij=?rk=1wkiwkj(1)

若wki能精确反映点i与团k的紧密度,则mij可视为对点i、j间相似度yij的一个近似。所以可用矩阵w来重构y,视为用团—点相似度w对点—点相似度y的估计:

w ?twy(2)

用欧式距离构造如下目标函数:

minw≥0 f?g(y,w)=y-w ?tw?f=?12?ij[(y-w ?tw)。(y-w ?tw)]ij(3)

其中:•?f为欧氏距离;a。b表示矩阵a、b的hadamard 矩阵乘法。由此,模糊度量w的实现问题转换为一个最优化问题,即寻找合适的w使式(3)定义的目标函数达到最小值。

式(3)本质上是一种矩阵分解,被称为对称非负矩阵分解,或s-nmf (symmetrical non-negative matrix factorization)。?s-nmf的求解与非负矩阵分解nmf[11,12]的求解方法非常类似。非负矩阵分解将数据分解为两个非负矩阵的乘积,得到对原数据的简化描述,被广泛应用于各种数据分析领域。类似nmf的求解,s-nmf可视为加入限制条件(h=w)下的nmf。给出s-nmf的迭代式如下:

wk+1=w?k。[w?ky]/[w?kw ?t?kw?k](4)

其中:[a]/[b]为矩阵a和b的hadamard矩阵除法。

由于在nmf中引入了限制条件,s-nmf的解集是nmf的子集,即式(4)的迭代结果必落入nmf的稳定点集合中符合附加条件(h=w)的部分,由此决定s-nmf的收敛性。

在求解w之前还需要确定特征矩阵。本文选扩散核[13]为被逼近的特征矩阵。扩散核有明确的物理含义,它通过计算节点间的路径数给出任意两节点间的相似度,能描述网络节点间的大尺度范围关系,当两点间路径数增加时,其相似度也增大。扩散核矩阵被定义为

k=exp(-βl)(5)

其中:参数β用于控制相似度的扩散程度,本文取β=0.1;l是网络g的拉普拉斯矩阵:

lij=-aiji≠j

?kaiki=j(6)

作为相似度的特征矩阵应该是扩散核矩阵k的归一化?形式:

yij=kij/(kiikjj)??1/2(7)

基于扩散核的物理含义,团—点相似度w也具有了物理含义:团到点的路径数。实际上,w就是聚类结果,对其列归一化即可得模糊隶属度,需要硬聚类结果时,则选取某点所对应列中相似度值最大的团为最终所属团。

2 团—团关系度量

团—点相似度w使得定量刻画网络中的其他拓扑关系成为可能。正如w ?tw可被用来作为点与点的相似度的一个估计,同样可用w来估计团—团关系:

z=ww ?t(8)

其物理含义是团与团间的路径条数。很明显,z的非对角元zjk刻画团j与团k之间的紧密程度,或团间重叠度,对角元zjj则刻画团j的团内密度。?

以图1中的对称网络为例,二分团时算得

z=ww ?t=1.337 60.035 3

0.035 31.337 6

由于图1中的网络是对称网络,两团具有同样的拓扑连接模式,它们有相同的团内密度1.337 6,而团间重叠度为?0.035 3。

3 团间连接贡献度

zjk度量了团j与团k间的重叠程度:

zjk=?na=1wjawka(9)

其中:wjawka是这个总量来自于点a的分量。下面定义一个新指标来量化给定点对团间连接的贡献。假设点i是同时连接j、k两团的团间某点,定义点i对团j和团k的团间连接贡献度为

b?i=[(wjiwki)/(?na=1wjawka)]×100%(10)

显然,那些团间连接贡献大的点应处于网络中连接各团的关键位置,它们对团间连接的稳定性负主要责任。将这种在团与团间起关键连接作用的点称为关键连接点。为了设定合适的阈值来提取团间关键连接点,本文一律取b>10%的点为关键连接点。

4 实验与结果分析

下面将在三个实际网络上展开实验,首先根据指定分团个数计算出团—点相似度w,然后用w计算团—团关系和b值,并提取关键连接点。

4.1 海豚社会网

由lusseau等人[14]给出的瓶鼻海豚社会网来自对一个62个成员的瓶鼻海豚社会网络长达七年的观测,节点表示海豚,连线为对某两只海豚非偶然同时出现的记录。图2(a)中名为sn100 (点36)的海豚在一段时间内消失,导致这个海豚网络分裂为两部分。

使用s-nmf算法聚类,海豚网络分为两团时,除30和39两点外,其他点的分团结果与实际观测相同,如图2(a)所示。计算b值并根据阈值提取出的五个关键连接点:1、7、28、36、40(虚线圈内),它们对两团连接起到至关重要的作用。图2(b)为这五点的b值柱状图。该图显示,节点36(sn100)是五个关键连接点中b值最大者,对连接两团贡献最大。某种程度上,这个结果可以解释为什么海豚sn100的消失导致了整个网络最终分裂的影响。本例说明,s-nmf算法及团间连接贡献程度指标在分析、预测社会网络演化方面有着独具特色的作用。

4.2 santa fe 科学合作网

用本算法对newman等人提供的santa fe科学合作网络[15]加以测试。271个节点表示涵盖四个学术领域的学者,学者合作发表文章产生网络连接,构成了一个加权合作网络。将本算法用于网络中一个包含118个节点的最大孤立团,如图3(a)所示。

图3(a)中,四个学科所对应的主要组成部分都被正确地分离出来,mathematical ecology(灰菱形)和agent-based models(白方块)与文献[15]的结果一致,中间的大模块statistical physics又被细分为四个小块,以不同灰度区分。计算了24个点的团间连接度贡献值b,从中分离出11个b值大于10%的点作为关键连接点:1、2、4、6、11、12、20、47、50、56、57,其标号在横轴下方标出,见图3(b),并在图3(a)中用黑色圆圈标记,这些连接点对应那些具有多种学科兴趣、积极参与交叉研究的学者。除去这11个点时,整个网络的连接布局被完全破坏,见图3(a)下方灰色背景缩小图,可见关键连接点的确起到重要的沟通各模块的作用。

4.3 杂志索引网络

在rosvall等人[16]建立的2004年杂志索引网络上进行测试。网络节点代表杂志,分为物理学(方形)、化学(方形)、生物学(菱形)、生态学(三角形)四个学科领域,每个学科中各选10份影响因子最高的刊物,共40个节点,若某刊物文章引用了另一刊物文章,则两刊间有一条连线,形成189条连接。使用s-nmf对该网4分团时,聚类结果与实际分团情况完全一致,如图4(a)所示。

由本算法得出的团—点相似度w在网络宏观拓扑结构的挖掘方面有非常有趣的应用,如第2章所述,用w计算团—团相似度矩阵z=ww?t,其对角元是团内连接密度,非对角元表征团与团的连接紧密程度,故z可被视为对原网络的一种“压缩表示”。如果将团换成“点”,将团与团之间的连接换成“边”,利用z的非对角元,就能构造出原网络的一个压缩投影网络,如图4(b)所示。这是原网络的一个降维示意图,也是团与团之间关系定量刻画的形象表述,定量地反映了原网络在特定分团数下的“宏观(全局)拓扑轮廓”,图上团间连线色深和粗细表示连接紧密程度。由图4(b)可以看到,physics和chemistry连接最紧密,而chemistry与biology和biology与?ecology次之。由此推测,如果减少分团数,将相邻两团合并,连接最紧密的两团必首先合并为一个团。实际情况正是如此:分团数为3时,biology和ecology各自独立成团,physics 和?chemistry合并为一个大团,这与文献[11]结果一致。

5 讨论

网络模糊聚类能帮助研究者进一步对团间的一些特殊点进行定量分析,如nepusz等人[9]用一种桥值公式来刻画节点在多个团间的共享程度,即节点从属度的模糊程度。而本文的团间连接贡献度b反映出节点在团间连接中所起的作用大小。本质上它们是完全不同的两种概念,同时它们也都是网络模糊分析中所特有的。团间连接贡献度指标的提出,将研究引向对节点在网络宏观拓扑模式中的影响力的关注,是本方法的一个独特贡献。无疑,关键连接点对团间连接的稳定性起到很大作用,如果要迅速切断团间联系,改变网络的宏观拓扑格局,首先攻击关键连接点(如海豚网中的sd100)是最有效的方法。团间连接贡献度这一定义的基础来自于对团与团连接关系(z)的定量刻画,这个定量关系用以往的模糊隶属度概念无法得到。由于w有明确的物理含义,使得由w导出的团—团关系z也具有了物理含义,这对网络的宏观拓扑分析非常?有利。

6 结束语

针对复杂网络交叠团现象,本文给出了一个新的聚类后模糊分析框架。它不仅能对网络进行模糊聚类,而且支持对交叠结构的模糊分析,如关键点的识别和网络宏观拓扑图的提取。使用这些新方法、新指标能够深入挖掘潜藏于网络的拓扑信息。从本文的聚类后分析不难看出,网络模糊聚类的作用不仅在于聚类本身,还在于模糊聚类结果能够为网络拓扑深入分析和信息挖掘提供支持,而硬聚类则不能。今后将致力于对团间连接贡献度指标进行更为深入的统计研究。

参考文献:

[1]

赵凤霞,谢福鼎.基于k-means聚类算法的复杂网络社团发现新方法[j].计算机应用研究,2009,26(6):2041-2043,2049.

[2]汪小帆,刘亚冰.复杂网络中的社团结构算法综述[j].电子科技大学学报,2009,38(5):537-543.

[3]newman m e j.modularity and community structure in networks[j].proceedings of the national academy of sciences of the united states of america,2006,103(23):8577-8582.

[4]white s,smyth p.a spectral clustering approach to finding communities in graphs[c]//proc of siam international conference on data mining.2005.

[5]enright a j,dongen s v,ouzounis c a.an efficient algorithm for large-scale detection of protein families[j].nucleic acids research,2002,30(7):1575-1584.

[6]bezdek j c.pattern recognition with fuzzy objective function algorithms[m].new york:plenum press,1981.

[7]palla g,derenyi i,farkas i,et al.uncovering the overlapping community structures of complex networks in nature and society[j].nature,2005,435(7043):814-818.

?[8]reichardt j,bornholdt s.detecting fuzzy community structures in complex networks with a potts model[j].physical review letters,2004,93(21):218701.

?[9]nepusz t,petroczi a,n?gyessy l,et al.fuzzy communities and the concept of bridgeness in complex networks[j].physical review e,2008,77(1):016107.

[10]zhang shi-hua,wang rui-sheng,zhang xiang-sun.identification of overlapping community structure in complex networks using fuzzy c-means clustering[j].physical review a:statistical mechanics and its applications,2007,374(1):483-490.

[11]paatero p,tapper u.positive matrix factorization:a non-negative factor model with optimal utilization of error estimates of data values[j].environmetrics,1994,5(2):111-126.

[12]anttila p,paatero p,tapper u,et al.source identification of bulk wet deposition in finland by positive matrix factorization[j].atmospheric environment,1995,29(14):1705-1718.

[13]kondor r i,lafferty j.diffusion kernels on graphs and other discrete structures[c]//proc of the 19th international conference on machine learning.san francisco:morgan kaufmann,2002.

复杂网络分析例6

关键词:网络模糊聚类;团—点相似度;团间连接紧密度;团间连接贡献度;对称非负矩阵分解;网络宏观拓扑

fuzzy clustering and information mining in complex networks

zhao kun,zhang shao-wu,pan quan

(school of automation, northwestern polytechnical university, xi’an 710072, china)

abstract:there is seldom a method which is capable of both clustering the network and analyzing the resulted overlapping communities. to solve this problem, this paper presented a novel fuzzy metric and a soft clustering algorithm. based on the novel metric, two topological fuzzy metric, which include clique-clique closeness degree and inter-clique connecting contribution degree, were devised and applied in the topological macro analysis and the extraction of key nodes in the overlapping communities. experimental results indicate that, as an attempt of analysis after clustering, the new indicators and mechanics can uncover new topology features hidden in the network.

key words:network fuzzy clustering; clique-node similarity; clique-clique closeness degree; inter-clique connection contribution degree; symmetrical nonnegative matrix factorization(s-nmf); network topology macrostructure

团结构是复杂网络普遍而又重要的拓扑属性之一,具有团内连接紧密、团间连接稀疏的特点。网络团结构提取是复杂网络分析中的一个基本步骤。揭示网络团结构的复杂网络聚类方法[1~5]对分析复杂网络拓扑结构、理解其功能、发现其隐含模式以及预测网络行为都具有十分重要的理论意义和广泛的应用前景。目前,大多数提取方法不考虑重叠网络团结构,但在多数网络应用中,重叠团结构更为普遍,也更具有实际意义。

现有的网络重叠团结构提取方法[6~10]多数只对团间模糊点进行初步分析,如nepusz等人[9,10]的模糊点提取。针对网络交叠团结构的深入拓扑分析,本文介绍一种新的团—点相似度模糊度量。由于含有确定的物理含意和更为丰富的拓扑信息,用这种模糊度量可进一步导出团与团的连接紧密程度,以及模糊节点对两团联系的贡献程度,并设计出新指标和定量关系来深度分析网络宏观拓扑连接模式和提取关键连接节点。本文在三个实际网络上作了实验分析,其结果表明,本方法所挖掘出的网络拓扑特征信息为网络的模糊聚类后分析提供了新的视角。

1 新模糊度量和最优化逼近方法

设a=[aij]n×n(aij≥0)为n点权重无向网络g(v,e)的邻接矩阵,y是由a产生的特征矩阵,表征点—点距离,yij>0。假设图g的n个节点划分到r个交叠团中,用非负r×n维矩阵w=[wki]r×n来表示团—点关系,wki为节点i与第k个团的关系紧密程度或相似度。w称为团—点相似度矩阵。令

mij=?rk=1wkiwkj(1)

若wki能精确反映点i与团k的紧密度,则mij可视为对点i、j间相似度yij的一个近似。所以可用矩阵w来重构y,视为用团—点相似度w对点—点相似度y的估计:

w ?twy(2)

用欧式距离构造如下目标函数:

minw≥0 f?g(y,w)=y-w ?tw?f=?12?ij[(y-w ?tw)。(y-w ?tw)]ij(3)

其中:•?f为欧氏距离;a。b表示矩阵a、b的hadamard 矩阵乘法。由此,模糊度量w的实现问题转换为一个最优化问题,即寻找合适的w使式(3)定义的目标函数达到最小值。

式(3)本质上是一种矩阵分解,被称为对称非负矩阵分解,或s-nmf (symmetrical non-negative matrix factorization)。?s-nmf的求解与非负矩阵分解nmf[11,12]的求解方法非常类似。非负矩阵分解将数据分解为两个非负矩阵的乘积,得到对原数据的简化描述,被广泛应用于各种数据分析领域。类似nmf的求解,s-nmf可视为加入限制条件(h=w)下的nmf。给出s-nmf的迭代式如下:

wk+1=w?k。[w?ky]/[w?kw ?t?kw?k](4)

其中:[a]/[b]为矩阵a和b的hadamard矩阵除法。

由于在nmf中引入了限制条件,s-nmf的解集是nmf的子集,即式(4)的迭代结果必落入nmf的稳定点集合中符合附加条件(h=w)的部分,由此决定s-nmf的收敛性。

在求解w之前还需要确定特征矩阵。本文选扩散核[13]为被逼近的特征矩阵。扩散核有明确的物理含义,它通过计算节点间的路径数给出任意两节点间的相似度,能描述网络节点间的大尺度范围关系,当两点间路径数增加时,其相似度也增大。扩散核矩阵被定义为

k=exp(-βl)(5)

其中:参数β用于控制相似度的扩散程度,本文取β=0.1;l是网络g的拉普拉斯矩阵:

lij=-aiji≠j

?kaiki=j(6)

作为相似度的特征矩阵应该是扩散核矩阵k的归一化?形式:

yij=kij/(kiikjj)??1/2(7)

基于扩散核的物理含义,团—点相似度w也具有了物理含义:团到点的路径数。实际上,w就是聚类结果,对其列归一化即可得模糊隶属度,需要硬聚类结果时,则选取某点所对应列中相似度值最大的团为最终所属团。

2 团—团关系度量

团—点相似度w使得定量刻画网络中的其他拓扑关系成为可能。正如w ?tw可被用来作为点与点的相似度的一个估计,同样可用w来估计团—团关系:

z=ww ?t(8)

其物理含义是团与团间的路径条数。很明显,z的非对角元zjk刻画团j与团k之间的紧密程度,或团间重叠度,对角元zjj则刻画团j的团内密度。?

以图1中的对称网络为例,二分团时算得

z=ww ?t=1.337 60.035 3

0.035 31.337 6

由于图1中的网络是对称网络,两团具有同样的拓扑连接模式,它们有相同的团内密度1.337 6,而团间重叠度为?0.035 3。

3 团间连接贡献度

zjk度量了团j与团k间的重叠程度:

zjk=?na=1wjawka(9)

其中:wjawka是这个总量来自于点a的分量。下面定义一个新指标来量化给定点对团间连接的贡献。假设点i是同时连接j、k两团的团间某点,定义点i对团j和团k的团间连接贡献度为

b?i=[(wjiwki)/(?na=1wjawka)]×100%(10)

显然,那些团间连接贡献大的点应处于网络中连接各团的关键位置,它们对团间连接的稳定性负主要责任。将这种在团与团间起关键连接作用的点称为关键连接点。为了设定合适的阈值来提取团间关键连接点,本文一律取b>10%的点为关键连接点。

4 实验与结果分析

下面将在三个实际网络上展开实验,首先根据指定分团个数计算出团—点相似度w,然后用w计算团—团关系和b值,并提取关键连接点。

4.1 海豚社会网

由lusseau等人[14]给出的瓶鼻海豚社会网来自对一个62个成员的瓶鼻海豚社会网络长达七年的观测,节点表示海豚,连线为对某两只海豚非偶然同时出现的记录。图2(a)中名为sn100 (点36)的海豚在一段时间内消失,导致这个海豚网络分裂为两部分。

使用s-nmf算法聚类,海豚网络分为两团时,除30和39两点外,其他点的分团结果与实际观测相同,如图2(a)所示。计算b值并根据阈值提取出的五个关键连接点:1、7、28、36、40(虚线圈内),它们对两团连接起到至关重要的作用。图2(b)为这五点的b值柱状图。该图显示,节点36(sn100)是五个关键连接点中b值最大者,对连接两团贡献最大。某种程度上,这个结果可以解释为什么海豚sn100的消失导致了整个网络最终分裂的影响。本例说明,s-nmf算法及团间连接贡献程度指标在分析、预测社会网络演化方面有着独具特色的作用。

4.2 santa fe 科学合作网

用本算法对newman等人提供的santa fe科学合作网络[15]加以测试。271个节点表示涵盖四个学术领域的学者,学者合作发表文章产生网络连接,构成了一个加权合作网络。将本算法用于网络中一个包含118个节点的最大孤立团,如图3(a)所示。

图3(a)中,四个学科所对应的主要组成部分都被正确地分离出来,mathematical ecology(灰菱形)和agent-based models(白方块)与文献[15]的结果一致,中间的大模块statistical physics又被细分为四个小块,以不同灰度区分。计算了24个点的团间连接度贡献值b,从中分离出11个b值大于10%的点作为关键连接点:1、2、4、6、11、12、20、47、50、56、57,其标号在横轴下方标出,见图3(b),并在图3(a)中用黑色圆圈标记,这些连接点对应那些具有多种学科兴趣、积极参与交叉研究的学者。除去这11个点时,整个网络的连接布局被完全破坏,见图3(a)下方灰色背景缩小图,可见关键连接点的确起到重要的沟通各模块的作用。

4.3 杂志索引网络

在rosvall等人[16]建立的2004年杂志索引网络上进行测试。网络节点代表杂志,分为物理学(方形)、化学(方形)、生物学(菱形)、生态学(三角形)四个学科领域,每个学科中各选10份影响因子最高的刊物,共40个节点,若某刊物文章引用了另一刊物文章,则两刊间有一条连线,形成189条连接。使用s-nmf对该网4分团时,聚类结果与实际分团情况完全一致,如图4(a)所示。

由本算法得出的团—点相似度w在网络宏观拓扑结构的挖掘方面有非常有趣的应用,如第2章所述,用w计算团—团相似度矩阵z=ww?t,其对角元是团内连接密度,非对角元表征团与团的连接紧密程度,故z可被视为对原网络的一种“压缩表示”。如果将团换成“点”,将团与团之间的连接换成“边”,利用z的非对角元,就能构造出原网络的一个压缩投影网络,如图4(b)所示。这是原网络的一个降维示意图,也是团与团之间关系定量刻画的形象表述,定量地反映了原网络在特定分团数下的“宏观(全局)拓扑轮廓”,图上团间连线色深和粗细表示连接紧密程度。由图4(b)可以看到,physics和chemistry连接最紧密,而chemistry与biology和biology与?ecology次之。由此推测,如果减少分团数,将相邻两团合并,连接最紧密的两团必首先合并为一个团。实际情况正是如此:分团数为3时,biology和ecology各自独立成团,physics 和?chemistry合并为一个大团,这与文献[11]结果一致。

5 讨论

网络模糊聚类能帮助研究者进一步对团间的一些特殊点进行定量分析,如nepusz等人[9]用一种桥值公式来刻画节点在多个团间的共享程度,即节点从属度的模糊程度。而本文的团间连接贡献度b反映出节点在团间连接中所起的作用大小。本质上它们是完全不同的两种概念,同时它们也都是网络模糊分析中所特有的。团间连接贡献度指标的提出,将研究引向对节点在网络宏观拓扑模式中的影响力的关注,是本方法的一个独特贡献。无疑,关键连接点对团间连接的稳定性起到很大作用,如果要迅速切断团间联系,改变网络的宏观拓扑格局,首先攻击关键连接点(如海豚网中的sd100)是最有效的方法。团间连接贡献度这一定义的基础来自于对团与团连接关系(z)的定量刻画,这个定量关系用以往的模糊隶属度概念无法得到。由于w有明确的物理含义,使得由w导出的团—团关系z也具有了物理含义,这对网络的宏观拓扑分析非常?有利。

6 结束语

针对复杂网络交叠团现象,本文给出了一个新的聚类后模糊分析框架。它不仅能对网络进行模糊聚类,而且支持对交叠结构的模糊分析,如关键点的识别和网络宏观拓扑图的提取。使用这些新方法、新指标能够深入挖掘潜藏于网络的拓扑信息。从本文的聚类后分析不难看出,网络模糊聚类的作用不仅在于聚类本身,还在于模糊聚类结果能够为网络拓扑深入分析和信息挖掘提供支持,而硬聚类则不能。今后将致力于对团间连接贡献度指标进行更为深入的统计研究。

参考文献:

[1]

赵凤霞,谢福鼎.基于k-means聚类算法的复杂网络社团发现新方法[j].计算机应用研究,2009,26(6):2041-2043,2049.

[2]汪小帆,刘亚冰.复杂网络中的社团结构算法综述[j].电子科技大学学报,2009,38(5):537-543.

[3]newman m e j.modularity and community structure in networks[j].proceedings of the national academy of sciences of the united states of america,2006,103(23):8577-8582.

[4]white s,smyth p.a spectral clustering approach to finding communities in graphs[c]//proc of siam international conference on data mining.2005.

[5]enright a j,dongen s v,ouzounis c a.an efficient algorithm for large-scale detection of protein families[j].nucleic acids research,2002,30(7):1575-1584.

[6]bezdek j c.pattern recognition with fuzzy objective function algorithms[m].new york:plenum press,1981.

[7]palla g,derenyi i,farkas i,et al.uncovering the overlapping community structures of complex networks in nature and society[j].nature,2005,435(7043):814-818.

?[8]reichardt j,bornholdt s.detecting fuzzy community structures in complex networks with a potts model[j].physical review letters,2004,93(21):218701.

?[9]nepusz t,petroczi a,n?gyessy l,et al.fuzzy communities and the concept of bridgeness in complex networks[j].physical review e,2008,77(1):016107.

[10]zhang shi-hua,wang rui-sheng,zhang xiang-sun.identification of overlapping community structure in complex networks using fuzzy c-means clustering[j].physical review a:statistical mechanics and its applications,2007,374(1):483-490.

[11]paatero p,tapper u.positive matrix factorization:a non-negative factor model with optimal utilization of error estimates of data values[j].environmetrics,1994,5(2):111-126.

[12]anttila p,paatero p,tapper u,et al.source identification of bulk wet deposition in finland by positive matrix factorization[j].atmospheric environment,1995,29(14):1705-1718.

[13]kondor r i,lafferty j.diffusion kernels on graphs and other discrete structures[c]//proc of the 19th international conference on machine learning.san francisco:morgan kaufmann,2002.

复杂网络分析例7

随着信息技术的发展,很多企业引入了网络技术从而为企业发展提供更轻松快捷的发展模式,尤其是数据的通信技术在许多企业的日常工作当中得到了充分的利用。不过由于许多企业信息系统采用的是局域网的形式,具有内部中心数据库和自己的服务器,所以一旦企业面向网络实行开放式数据通信时就会出现许多安全问题。本文主要研究对象是复杂数据通信网络的稳定性问题,也是在复杂数据通信中原因较多的问题之一。

一、复杂数据通信网络的分类和应用

复杂数据通信包含较多,可以利用不同的方式进行分类。而且通信手段的运用也极为广泛,在不同行业都有不同的具体表现。下面笔者就从两个方面进行复杂数据通信的分类讨论。

1.根据数据通信的作用分类

复杂数据通信包含有网络经济通信,交流通信等。网络经济通信主要指网络经济的交易,属于高精度、高安全性的通信技术。而交流通信包含更多,比如电信ICT项目等,包含了系统的集成,视频的监控等数据的传输。

2.根据数据通信的途径进行分类

比如VPN技术的应用,VPN是一种利用公网链路架设私有网络的远程访问技术。是一种利用独特的通信途径进行的通信方式,这种方式比较适合远程操控类工作,如视频监控的远程操作等。

二、复杂数据通信网络的稳定性评估方法与结果

1.以网络交易通信为例对复杂数据通信技术的评估和具体问题

上文中已经介绍,复杂数据通信技术包含比较广,而网络交易通信可以说是目前复杂数据通信中技术含量最高且安全性最好的数据通信技术了。本文下面就以网络交易通信为例,具体论述复杂数据通信网络技术的评估方法和具体评估结果。首先,对硬件的评估,现代化网络交易通信大多采取的是第三方金融主体的参与,利用非对称加密技术进行网络信息加密进行的通信,对于特殊交易会配备企业自己的服务器。甚至很多企业双方进行网络交易通信时都有自己独立的数据库,然而在实际操作中可以看出,在通信过程中是需要很大的缓存空间的,尤其是在公钥加密与解密工作时对缓存空间要求更大,所以对存储设备的要求较高。比如,网络交易在进行验证或者第三方进行转账的时候,更多的在使用临时缓存进行处理信息。而且有些企业由于工作人员的更新所造成的储存信息不断更新就更说明了储存设备的重要性。如果储存设备出现了问题而导致财务信息的无法送达会给公司带来极大的经济损失。所以对于硬件评估的具体方法是进行设备的升级和检测,硬件升级的成本较高,但是使用时间较长,对整体网络稳定性来说也是具有重要意义的。

2.由软件引发的信息安全问题

软件原因的核心是操作系统原因。目前大部分企业局域网所用的操作系统都是传统的windows系统,这一系统虽然简单易用,但是其漏洞较多,很容易被病毒或黑客攻击,需要不时的补丁才能让系统安全运行。再加上我国对windows系统没有确切的了解,所以很多时候容易泄露核心秘密。所以我国很多金融行业的操作系统都以Linux为主,是一套建立于Unix之上的操作系统,稳定性和安全性要更高点。当进行网络交易通信时,一般利用非对称加密,将网络信息进行加密传输,并有数字签名和认证中心双重安全保障,所以对于软件的评估一般采用信息被供给的次数以及泄露的次数比较来说明复杂数据通信网络的稳定性。

3.总结评估的内容与结果

综上所述,复杂数据在通信过程中对网络稳定性的评估主要通过四个方面:

一是网络安全性评估,也就是上文所说的软件引发的问题,或者网络病毒与黑客的的攻击和拦截。一般利用加密方法进行的复杂数据传输中是能保证网络安全的。

二是传输的稳定性,这个方面主要取决于硬件设施以及网络的流畅速度。

三是数据完整性的评估,这也是网络安全所研究的课题之一,利用标记的方式判定数据是否完整,在一般情况下,只要做好数据加密工作就能保证数据的完整。

四是数据的不可否认性评估,这个评估层面主要面向于网络交易通信技术,一般利用数字签名和认证中心提供的认证进行数据传输不可否认性的保障。

三、复杂数据通信的改善措施

1.硬件的改善方法

相比较而言,硬件出问题的概率是极小的,所以对硬件问题应该主要采取防范措施而不是具体解决措施。那么具体防范应该做哪些工作呢?第一设立临时备用服务器,将一台配置较高的电脑做成临时服务器,一旦主服务器发生故障或问题时可以由临时服务器接替工作。同时临时服务器也可以起到信息的备份作用,更加加强了复杂数据在通信过程中的安全保障。对于网络的稳定性调控更多的需要专人的检测,尤其是交换机类的网络连接硬件出的问题更需要专门的工作人员进行设置或更新。而在平时的工作中,也需要不定时检查与修正。

2.软件的改善方案与措施

上文中已经提到,在进行复杂数据通信传输时,可以多考虑Unix以及Linux系统,将Unix系统或者Linux系统作为通信时的主要系统,可能会在安全性上得到更大的保障。虽然软件与操作系统是虚拟商品,但是相比较而言,硬件的损坏可以通过更换整修,而软件的损坏更多的会造成数据的丢失,数据的丢失与无法恢复对很多单位来说都是相当严重的损失。所以选择安全的操作系统是保护数据的方法之一。不过,当传输的数据属于非保密性信息时,也可以利用原有系统进行传输,并不需要过多的加强自身的保护措施。

四、结语

在经济发展过程中,许多企业都有很多信息涉及到企业内部的机密,更有些涉及到企业发展的具体方案,是属于企业发展的机密信息。所以企业信息系统安全问题就被提到了更高的要求层面上。就目前来看,我国许多企业对信息系统的安全设置并没有绝对的保障。在数据传输和复杂数据通信时都有着或多或少的不放心。事实上,很多公司采用PLC技术进行远程通信,或者对硬件与软件的改善实现安全通信。逐渐表明了随着信息技术的进步,我国的通信水平以及通信安全保障水平都得到了极大的提高。

参考文献

复杂网络分析例8

灾害是指由某种不可控制、难以预料的破坏性因素引起的、突然的或在短时间内发生的、超越本地区防灾力量所能解决的大量人畜伤亡和物质财富毁坏的现象。由于灾害发生的突然性和破坏性,20世纪80年代以前我国在灾害信息传播上采取了谨慎的态度。而随着社会的不断进步和新的媒体形式层出不穷,网络媒体、手机媒体、数字电视以及即时通讯软件、“博客”等新型网络形式使得信息传播的渠道由单一化向多元化发展,因此灾害信息传播已经不可能受到单方面的控制。

“非典”前期,由于政府和主流大众传媒保持沉默,使得各种谣言通过网络和手机等新型信息传播方式在全国范围内大量传播,导致了严重的社会恐慌。由此可以看出灾害信息传播一旦失控,会使本来失序的社会更加混乱,并由此带来衍生灾害,造成不必要的社会恐慌和经济损失。因此,在当前的信息传播状况下对灾害信息传播方式和特征进行相关方面分析是十分必要的。

目前国内在灾害信息传播方面主要是从新闻学的方面来研究:灾害报道应该实现新闻价值与社会价值的平衡、新闻媒介在公共危机事件中起到重要作用,以及系统介绍灾害信息的发展史等。没有从灾害传播本身的特征进行研究,忽视灾害传播特征对灾害信息传播的影响。为了更有效地实现对灾害传播的控制,有必要针对灾害信息传播特征进行相关研究。

本文首先对灾害信息传播过程进行分析,在此基础上运用复杂网络相关理论对灾害信息传播方式和特征进行了初步探讨。

1灾害信息传播的过程分析

根据当前灾害信息的多样化,其传播内容主要可以分为政府和主流大众传媒的灾害信息和各种谣言、负面信息两大类。各种谣言、负面信息是指由于在灾害信息传播过程中出现的隐瞒或虚报、延迟报道而产生的各种、负面的受众不信任的信息。

本文以Fink(1986)提出的危机4阶段论为基础,对灾害信息传播过程进行了相关分析,给出灾害信息传播的4个阶段,分别为潜伏期、突发期、蔓延期、解决恢复期。以2007年台风罗莎信息传播过程为例(数据来源:百度指数),分析这4个阶段(图1)。

(1)潜伏期由灾害发生到灾害信息开始传播的这一阶段。随着现代信息传播的速度加快,潜伏期的时间越来越短。要对灾害信息传播进行控制,最好的方法就是在灾害信息传播的潜伏期对灾害进行有效控制,减小对社会产生的影响。台风罗莎10月2日08时在菲律宾以东洋面上生成,4日02时加强为强台风。即10月2日至10月4日为台风罗莎信息传播的潜伏期。

(2)突发期从灾害信息开始传播到灾害信息开始迅速传播的阶段。突发期是年阶段中时间最短、对受众心理冲击最严重的一个阶段。如果在突发期内对灾害信息进行刻意隐瞒或虚报、延迟、模式化报道,会使受众失去对传播者的信任,增加公众的疑惑,导致社会危机及衍生灾害的产生。10月5日、6日为台风罗莎信息传播的突发期。

(3)蔓延期灾害信息从迅速传播到平息的一个阶段。在新的信息传播环境下,灾害信息从迅速传播到平息需要一个相当长的时间。网络媒体、手机媒体、数字电视、即时通讯软件、多种传播形式使得灾害信息传播速度快、影响范围广、破坏性强。即使当灾害得到平息和解决时,在新型传播媒介中仍会存在很多议论和大量负面信息。台风罗莎在我国大陆l0月10日结束,但其仍然受到大众的普遍关注。10月7日至l0月16日为台风罗莎信息传播的蔓延期。

(4)解决恢复期灾害妥善解决、人民生活恢复正常、物质生产得到恢复、社会恐慌得到平息、整个社会恢复到灾害发生前的状态。在解决恢复期中,做好灾害信息的传播机理和影响的研究工作,总结灾害信息传播的经验和教训,为完善和健全相关的防灾体系提供依据。以10月17日起为台风罗莎的解决恢复期。

2灾害信息传播网络

2.1灾害信息传播网络的形成

目前国际上在流行病传播、计算机病毒在In.ternet上的传播等领域利用复杂网络进行研究是比较多的。此外,国内外专家对谣言的传播也进行了相关工作Zanette研究了在小世界网络中的传播情况;Moreno等发展了Daley等在1964年提出的谣言传播模型,认为非均匀网络传播过程最终听过但不传播的人数与感染概率有着紧密联系;

Dotts和Watts认为无论是社会网络还是信息网络中的传播蔓延现象,相应的模型都可以归结为泊松模型和临界值模型。

灾害信息传播的基础是社会网络,因此可以应用复杂网络的观点来阐释灾害信息传播的特征。灾害信息传播的网络模型示意图如图2所示。

用节点表示灾害信息传播中的个体,如果两个个体之间可以通过某种方式直接发生传播与被传播关系,就认为这两个个体之间存在连接,这样就得到了传播网络的拓扑结构,进而可以建立相关模型来研究这种传播行为。而灾害信息传播模型研究的关键是传播规则的制定和网络拓扑结构的选择。

2.2灾害信息传播网络的结构

2.2.1灾害信息传播网络结构的划分

灾害信息的传播途径与谣言基本一致,可以参照Moreno等人提出的谣言传播模型。的研究方法对灾害信息传播网络模型的结构进行分析,将灾害信息传播网络中的个体分为灾害信息未知者(Igorants)、灾害信息传播者(Spreaders)、灾害信息知情者(Stiflesr)三种类型。i(t)、s(t)、和r(t)分别代表这三种类型在人群中的比例。

如图3所示,灾害信息在灾害信息传播者、灾害信息未知者之间传播。灾害信息传播者向它的邻居节点传播信息。当接到信息的节点是灾害信息未知者的时候,灾害信息未知者以入的概率变成一个灾害信息传播者。而如果信息传给了灾害信息传播者或者灾害信息知情者,则前者以1/a的概率变成一个灾害信息知情者。

2.2.2网络结构中各参数的分析

参数A代表着信息传播过程中数据会出现丢失的情况,并不是每次连接都成功。参数是表示一个灾害信息传播者在变成一个灾害信息知情者前连接的灾害信息传播者或灾害信息知情者的平均次数。

灾害信息传播者把灾害信息传递到它的相邻节点时,如果该节点为灾害信息未知者,后者也将以入的概率变成一个灾害信息传播者,信息传播成功。如果后者已经知道了灾害信息,则会导致灾害信息传播者失去传播信息的兴趣,从而以l/a的概率变成一个灾害信息知情者,此次信息传播的小过程失败。

2.3灾害信息传播网络的统计性质

灾害信息传播网络的统计性质反映着网络内部结构的不同和系统功能的差异。它的统计性质有以下几个方面。

(1)平均路径长度是指所有节点之间的最大距离的平均值,它描述了网络中节点间的分离程度,即网络有多小,也就是灾害传播网络中所有传播途径传播信息的平均长度。

(2)聚集系数用来描述网络中节点的聚集情况。在灾害信息网络中表示灾害信息传播者与灾害信息未知者、灾害信息知情者的关联程度。

(3)度和度分布一个节点与其他节点相连的边数称为该节点的度。节点度分布是指网络中度为k的节点的概率P(k)随节点度k的变化规律。在灾害信息传播网络中,度就是表示一个灾害信息传播者向k个灾害信息未知者或灾害信息知情者传播信息。顶点的度指标用于描述该传播者对传播网络中其它传播者的直接影响力。节点度的分布函数反映了灾害信息传播网络的宏观统计特征。

(4)介数分为边介数和节点介数。节点介数为网络中所有的最短路径中经过该节点的数量比例;边的介数是网络中所有的最短路径中经过该边的数量比例。介数反映了相应的节点或者边在整个网络的作用和影响力。在灾害信息传播网络中,节点介数说明该节点对于网络中信息流动影响的大小。介数的分布特征反映了不同传播者在网络中的地位,即其传播速度、传播范围和影响程度。对于评价各种传播媒介的重要性、评价防灾体系有着十分重要的意义。

3基于复杂网络的灾害信息传播特征分析

3.1网络节点的大规模性

一个重大灾害发生后,其信息传播网络的节点数必定十分庞大。要做到灾害信息传播既维护了公众的知情权,又不会造成社会恐慌和由此带来的衍生灾害,就应该对大规模的灾害信息传播网络节点进行分析,找到网络中的关键节点,即公众信任度高、社会责任感强、在网络的影响大的节点。衡量这些节点是否关键的主要依据是它们的介数和度分布。

3.2网络连接的稀疏性

在灾害信息传播网络中,并不是所有节点的聚集系数和度分布是相同的。主流大众传媒由于其传递信息的真实性、全面性,受到公众的普遍信赖,那么主流大众传媒所代表的节点的聚集系数和度就要比其他节点的高。在这一区域的网络连接就比较密集。反之,过于失实的灾害信息会受到公众的质疑,其传播范围就比较小,则这部分的网络连接就很稀疏。

3.3连接结构的复杂性

灾害信息传播网络的节点是由主流媒体、网络媒体、手机媒体、数字电视等传播者和受众组成,因此每个节点都具有自己的动力学特征,且各个节点之间相互影响、相互制约,从而整个灾害信息传播网络也就具有极为复杂的动力学特征,不能简单的用规则网络和随机网络对其进行分析。因此,灾害信息传播网络具有连接结构的复杂性。

3.4信息传播的时间复杂性

信息在网络中传播所花费的时间与下一节点对信息的敏感程度、传播节点的度和介数及信息的可靠度等有关。沿海的人们对于有关台风的信息就会比较关注,而对于内陆城市的人而言,此类信息就不很重要。这就体现了灾害信息传播的时间复杂性。

3.5信息传播的变异性

在一个灾害信息传播者向灾害信息未知者传递信息的这一过程中,信息内容是否不会发生变异以及信息来源是否真实可靠,这就是信息传播的变异性。

3.6信息传播引发衍生灾害的可能性

灾害本身具有破坏性,由于灾害信息内容不同,公众对灾害信息的关注程度也不同,必然导致信息传播的速度不一样。而灾害信息的传播也可能引起各种社会问题,甚至形成衍生灾害。例如在“非典”期间各种有关SARS的信息肆意传播,引起某些药品的短缺、物价的抬高以及社会不安定因素突增。在灾害信息传播网络中可表现为信息中心增多、传播过程的重复性。

4结束语

复杂网络分析例9

1.前言

金融系统作为现代化经济发展的重要核心,而银行系统作为金融系统的重要组成部分,对金融系统稳定运行起着关键性作用。当银行爆发危机时,若不能妥善处理,将传染给其他银行,从而使银行系统安全运行受到严重影响,甚至引发货币危机。同时银行危机嫩能够跨国传染,进而引发全球性金融危机。因此,如果防止银行危机的扩散,使银行系统得到有效恢复,成为现阶段研究的重要课题。

2.银行危机传染含义与形式

2.1传染含义

从广义角度来看,银行危机传染主要是指跨国国界性的传播效应或者溢出效应。从狭义角度来看,银行危机传染含义主要分为三点:其一,银行危机传染主要指某个国家出现爆发性危机时,会导致其他国家也可能爆发危机的一种现象;其二,银行危机传染主要是处于危机状态的国家出现溢出效应,并对其他国家银行、金融业造成影响的一个过程;其三,银行危机传染主要是指某个金融市场爆发危机,并影响到其他金融市场交易量及价格,并产生联合波动效应。

2.2传染性形式

2.2.1内部传染形式

主要指当某个银行失去清偿能力时,将爆发清偿危机,并通过银行与银行间的往来业务将危机传染到其他银行。内部传染形式主要有:其一,信息路径。当信息失真或者不对称时,银行责权者将难以对银行经营情况进行识别,在银行危机爆发时,受到外部信息影响,导致存款者与银行间出现挤兑,并扩大危机传染范围。其二,信用路径。随着银行与银行间往来业务与交易量不断增加,银行与银行间形成的在全关系,不仅不能抵押,也无任何保险,当某个银行爆发危机时,容易引发连锁反应,进而扩散至与其往来的银行。其三,支付清算。随着支付清算系统在银行中的应用,虽然加快了资金清算效率,但是也扩大了危机传染范围。某家银行爆发危机时,若无法清偿债务,将产生连锁反应,不仅影响到银行支付清算工作,同时导致银行出现信任危机[1]。

2.2.2外部传染形式

主要指企业与银行间存在业务往来,从而受到银行危机的影响,并将危机传染给其他社会经济部门。外部传染形式主要有:其一,企业传染路径。当银行爆发危机时,首先会将危机传染给企业,然后再由企业将危机传染至与企业有业务往来的银行,从而引发大范围的银行危机。当银行爆发严重性危机时,受到危机传染的银行,由于将危机传染至其他企业,导致企业面临生存危机,而银行危机传染范围也日益扩大。其二,跨国传染路径。将国家银行作为独立系统,由于我国银行与其他国家银行存在业务往来,所以当某个国家银行爆发危机时,危机也将传染至我国银行,甚至引发全球性的金融危机[2]。

3.银行危机传染应对措施

3.1银行网络宏微观环境优化策略

首先,同业存款的调整。通过对银行危机爆发原因进行分析发现,同业存款存在比例问题,同业存款处于最优状态时,其比例与经济环境密切相关。所以,为了确保银行系统稳定运行,必须对同业存款进行有效调整,以提高资金效率,确保银行系统稳定性。其次,规范投资行为。通过对股市案件进行分析发现,投资行为缺乏规范性,是引发金融风险的重要因素。而资本市场发展与金融业密切相关,若资本市场发生动荡,将严重影响到银行系统的安全运行。所以,规范投资行为,对银行危机阻断具有重要意义。再者,加大信息披露力度。由于信息失真或者不对称,给金融市场带来很大的冲击,同时信息可作为危机传染渠道,扩大危机范围。所以,加大信息披露力度,确保信息准确性,是确保金融系统稳定运行,化解银行系统危机的关键。

3.2确保银行系统的稳定性

首先,优化网络结构,保证网络稳定运行。在复杂网络条件下,对银行危机进行深入分析,以掌握网络结构,针对不同网络危机情况,采取针对性的应对措施,以实现银行网络自治化管理,改善银行网络管理机制,确保银行网络系统安全运行。其次,充分节点作用,缩小危机范围。银行网络中有很多大节点,是危机传染重要因素。因此,通过对银行网络节点进行适当调整,以优化银行负债结构,增强银行的风险抵抗能力。

3.3做好危机公关工作

首先,掌握舆论的主导权。当银行爆发危机时,必须通过媒体将银行真实情况及时披露出来,并向人们传达积极性的信息,以避免危机严重化。其次,保证披露信息真实性。当银行出现危机时,使公众内心受到很大冲击,这时银行必须实事求是,确保披露信息的真实性,以阻断谣言。再者,沟通路径要通畅。银行必须与债权者、投资人、重要组织、内部人员及受害者等进行积极沟通。最后,全面做好危机评估工作。当银行爆发危机时,必须对危机实际情况进行准确评估,以避免危机严重化。同时政府机构及监管部门,必须积极介入,以确保信息的准确性,提高公众信任度。(作者单位:灵武市农业银行)

复杂网络分析例10

fuzzy clustering and information mining in complex networks

zhao kun,zhang shao-wu,pan quan

(school of automation, northwestern polytechnical university, xi’an 710072, china)

abstract:there is seldom a method which is capable of both clustering the network and analyzing the resulted overlapping communities. to solve this problem, this paper presented a novel fuzzy metric and a soft clustering algorithm. based on the novel metric, two topological fuzzy metric, which include clique-clique closeness degree and inter-clique connecting contribution degree, were devised and applied in the topological macro analysis and the extraction of key nodes in the overlapping communities. experimental results indicate that, as an attempt of analysis after clustering, the new indicators and mechanics can uncover new topology features hidden in the network.

key words:network fuzzy clustering; clique-node similarity; clique-clique closeness degree; inter-clique connection contribution degree; symmetrical nonnegative matrix factorization(s-nmf); network topology macrostructure

团结构是复杂网络普遍而又重要的拓扑属性之一,具有团内连接紧密、团间连接稀疏的特点。网络团结构提取是复杂网络分析中的一个基本步骤。揭示网络团结构的复杂网络聚类方法[1~5]对分析复杂网络拓扑结构、理解其功能、发现其隐含模式以及预测网络行为都具有十分重要的理论意义和广泛的应用前景。目前,大多数提取方法不考虑重叠网络团结构,但在多数网络应用中,重叠团结构更为普遍,也更具有实际意义。

现有的网络重叠团结构提取方法[6~10]多数只对团间模糊点进行初步分析,如nepusz等人[9,10]的模糊点提取。针对网络交叠团结构的深入拓扑分析,本文介绍一种新的团—点相似度模糊度量。由于含有确定的物理含意和更为丰富的拓扑信息,用这种模糊度量可进一步导出团与团的连接紧密程度,以及模糊节点对两团联系的贡献程度,并设计出新指标和定量关系来深度分析网络宏观拓扑连接模式和提取关键连接节点。本文在三个实际网络上作了实验分析,其结果表明,本方法所挖掘出的网络拓扑特征信息为网络的模糊聚类后分析提供了新的视角。

1 新模糊度量和最优化逼近方法

设a=[aij]n×n(aij≥0)为n点权重无向网络g(v,e)的邻接矩阵,y是由a产生的特征矩阵,表征点—点距离,yij>0。假设图g的n个节点划分到r个交叠团中,用非负r×n维矩阵w=[wki]r×n来表示团—点关系,wki为节点i与第k个团的关系紧密程度或相似度。w称为团—点相似度矩阵。令

mij=rk=1wkiwkj(1)

若wki能精确反映点i与团k的紧密度,则mij可视为对点i、j间相似度yij的一个近似。所以可用矩阵w来重构y,视为用团—点相似度w对点—点相似度y的估计:

w twy(2)

用欧式距离构造如下目标函数:

minw≥0 fg(y,w)=y-w twf=12ij[(y-w tw)。(y-w tw)]ij(3)

其中:•f为欧氏距离;a。b表示矩阵a、b的hadamard 矩阵乘法。由此,模糊度量w的实现问题转换为一个最优化问题,即寻找合适的w使式(3)定义的目标函数达到最小值。

式(3)本质上是一种矩阵分解,被称为对称非负矩阵分解,或s-nmf (symmetrical non-negative matrix factorization)。s-nmf的求解与非负矩阵分解nmf[11,12]的求解方法非常类似。非负矩阵分解将数据分解为两个非负矩阵的乘积,得到对原数据的简化描述,被广泛应用于各种数据分析领域。类似nmf的求解,s-nmf可视为加入限制条件(h=w)下的nmf。给出s-nmf的迭代式如下:

wk+1=wk。[wky]/[wkw tkwk](4)

其中:[a]/[b]为矩阵a和b的hadamard矩阵除法。

由于在nmf中引入了限制条件,s-nmf的解集是nmf的子集,即式(4)的迭代结果必落入nmf的稳定点集合中符合附加条件(h=w)的部分,由此决定s-nmf的收敛性。

在求解w之前还需要确定特征矩阵。本文选扩散核[13]为被逼近的特征矩阵。扩散核有明确的物理含义,它通过计算节点间的路径数给出任意两节点间的相似度,能描述网络节点间的大尺度范围关系,当两点间路径数增加时,其相似度也增大。扩散核矩阵被定义为

k=exp(-βl)(5)

其中:参数β用于控制相似度的扩散程度,本文取β=0.1;l是网络g的拉普拉斯矩阵:

lij=-aiji≠j

kaiki=j(6)

作为相似度的特征矩阵应该是扩散核矩阵k的归一化形式:

yij=kij/(kiikjj)1/2(7)

基于扩散核的物理含义,团—点相似度w也具有了物理含义:团到点的路径数。实际上,w就是聚类结果,对其列归一化即可得模糊隶属度,需要硬聚类结果时,则选取某点所对应列中相似度值最大的团为最终所属团。

2 团—团关系度量

团—点相似度w使得定量刻画网络中的其他拓扑关系成为可能。正如w tw可被用来作为点与点的相似度的一个估计,同样可用w来估计团—团关系:

z=ww t(8)

其物理含义是团与团间的路径条数。很明显,z的非对角元zjk刻画团j与团k之间的紧密程度,或团间重叠度,对角元zjj则刻画团j的团内密度。

以图1中的对称网络为例,二分团时算得

z=ww t=1.337 60.035 3

0.035 31.337 6

由于图1中的网络是对称网络,两团具有同样的拓扑连接模式,它们有相同的团内密度1.337 6,而团间重叠度为0.035 3。

3 团间连接贡献度

zjk度量了团j与团k间的重叠程度:

zjk=na=1wjawka(9)

其中:wjawka是这个总量来自于点a的分量。下面定义一个新指标来量化给定点对团间连接的贡献。假设点i是同时连接j、k两团的团间某点,定义点i对团j和团k的团间连接贡献度为

bi=[(wjiwki)/(na=1wjawka)]×100%(10)

显然,那些团间连接贡献大的点应处于网络中连接各团的关键位置,它们对团间连接的稳定性负主要责任。将这种在团与团间起关键连接作用的点称为关键连接点。为了设定合适的阈值来提取团间关键连接点,本文一律取b>10%的点为关键连接点。

4 实验与结果分析

下面将在三个实际网络上展开实验,首先根据指定分团个数计算出团—点相似度w,然后用w计算团—团关系和b值,并提取关键连接点。

4.1 海豚社会网

由lusseau等人[14]给出的瓶鼻海豚社会网来自对一个62个成员的瓶鼻海豚社会网络长达七年的观测,节点表示海豚,连线为对某两只海豚非偶然同时出现的记录。图2(a)中名为sn100 (点36)的海豚在一段时间内消失,导致这个海豚网络分裂为两部分。

使用s-nmf算法聚类,海豚网络分为两团时,除30和39两点外,其他点的分团结果与实际观测相同,如图2(a)所示。计算b值并根据阈值提取出的五个关键连接点:1、7、28、36、40(虚线圈内),它们对两团连接起到至关重要的作用。图2(b)为这五点的b值柱状图。该图显示,节点36(sn100)是五个关键连接点中b值最大者,对连接两团贡献最大。某种程度上,这个结果可以解释为什么海豚sn100的消失导致了整个网络最终分裂的影响。本例说明,s-nmf算法及团间连接贡献程度指标在分析、预测社会网络演化方面有着独具特色的作用。

4.2 santa fe 科学合作网

用本算法对newman等人提供的santa fe科学合作网络[15]加以测试。271个节点表示涵盖四个学术领域的学者,学者合作发表文章产生网络连接,构成了一个加权合作网络。将本算法用于网络中一个包含118个节点的最大孤立团,如图3(a)所示。

图3(a)中,四个学科所对应的主要组成部分都被正确地分离出来,mathematical ecology(灰菱形)和agent-based models(白方块)与文献[15]的结果一致,中间的大模块statistical physics又被细分为四个小块,以不同灰度区分。计算了24个点的团间连接度贡献值b,从中分离出11个b值大于10%的点作为关键连接点:1、2、4、6、11、12、20、47、50、56、57,其标号在横轴下方标出,见图3(b),并在图3(a)中用黑色圆圈标记,这些连接点对应那些具有多种学科兴趣、积极参与交叉研究的学者。除去这11个点时,整个网络的连接布局被完全破坏,见图3(a)下方灰色背景缩小图,可见关键连接点的确起到重要的沟通各模块的作用。

4.3 杂志索引网络

在rosvall等人[16]建立的2004年杂志索引网络上进行测试。网络节点代表杂志,分为物理学(方形)、化学(方形)、生物学(菱形)、生态学(三角形)四个学科领域,每个学科中各选10份影响因子最高的刊物,共40个节点,若某刊物文章引用了另一刊物文章,则两刊间有一条连线,形成189条连接。使用s-nmf对该网4分团时,聚类结果与实际分团情况完全一致,如图4(a)所示。

由本算法得出的团—点相似度w在网络宏观拓扑结构的挖掘方面有非常有趣的应用,如第2章所述,用w计算团—团相似度矩阵z=wwt,其对角元是团内连接密度,非对角元表征团与团的连接紧密程度,故z可被视为对原网络的一种“压缩表示”。如果将团换成“点”,将团与团之间的连接换成“边”,利用z的非对角元,就能构造出原网络的一个压缩投影网络,如图4(b)所示。这是原网络的一个降维示意图,也是团与团之间关系定量刻画的形象表述,定量地反映了原网络在特定分团数下的“宏观(全局)拓扑轮廓”,图上团间连线色深和粗细表示连接紧密程度。由图4(b)可以看到,physics和chemistry连接最紧密,而chemistry与biology和biology与ecology次之。由此推测,如果减少分团数,将相邻两团合并,连接最紧密的两团必首先合并为一个团。实际情况正是如此:分团数为3时,biology和ecology各自独立成团,physics 和chemistry合并为一个大团,这与文献[11]结果一致。

5 讨论

网络模糊聚类能帮助研究者进一步对团间的一些特殊点进行定量分析,如nepusz等人[9]用一种桥值公式来刻画节点在多个团间的共享程度,即节点从属度的模糊程度。而本文的团间连接贡献度b反映出节点在团间连接中所起的作用大小。本质上它们是完全不同的两种概念,同时它们也都是网络模糊分析中所特有的。团间连接贡献度指标的提出,将研究引向对节点在网络宏观拓扑模式中的影响力的关注,是本方法的一个独特贡献。无疑,关键连接点对团间连接的稳定性起到很大作用,如果要迅速切断团间联系,改变网络的宏观拓扑格局,首先攻击关键连接点(如海豚网中的sd100)是最有效的方法。团间连接贡献度这一定义的基础来自于对团与团连接关系(z)的定量刻画,这个定量关系用以往的模糊隶属度概念无法得到。由于w有明确的物理含义,使得由w导出的团—团关系z也具有了物理含义,这对网络的宏观拓扑分析非常有利。

6 结束语

针对复杂网络交叠团现象,本文给出了一个新的聚类后模糊分析框架。它不仅能对网络进行模糊聚类,而且支持对交叠结构的模糊分析,如关键点的识别和网络宏观拓扑图的提取。使用这些新方法、新指标能够深入挖掘潜藏于网络的拓扑信息。从本文的聚类后分析不难看出,网络模糊聚类的作用不仅在于聚类本身,还在于模糊聚类结果能够为网络拓扑深入分析和信息挖掘提供支持,而硬聚类则不能。今后将致力于对团间连接贡献度指标进行更为深入的统计研究。

参考文献:

[1]

赵凤霞,谢福鼎.基于k-means聚类算法的复杂网络社团发现新方法[j].计算机应用研究,2009,26(6):2041-2043,2049.

[2]汪小帆,刘亚冰.复杂网络中的社团结构算法综述[j].电子科技大学学报,2009,38(5):537-543.

[3]newman m e j.modularity and community structure in networks[j].proceedings of the national academy of sciences of the united states of america,2006,103(23):8577-8582.

[4]white s,smyth p.a spectral clustering approach to finding communities in graphs[c]//proc of siam international conference on data mining.2005.

[5]enright a j,dongen s v,ouzounis c a.an efficient algorithm for large-scale detection of protein families[j].nucleic acids research,2002,30(7):1575-1584.

[6]bezdek j c.pattern recognition with fuzzy objective function algorithms[m].new york:plenum press,1981.

[7]palla g,derenyi i,farkas i,et al.uncovering the overlapping community structures of complex networks in nature and society[j].nature,2005,435(7043):814-818.

[8]reichardt j,bornholdt s.detecting fuzzy community structures in complex networks with a potts model[j].physical review letters,2004,93(21):218701.

[9]nepusz t,petroczi a,ngyessy l,et al.fuzzy communities and the concept of bridgeness in complex networks[j].physical review e,2008,77(1):016107.

[10]zhang shi-hua,wang rui-sheng,zhang xiang-sun.identification of overlapping community structure in complex networks using fuzzy c-means clustering[j].physical review a:statistical mechanics and its applications,2007,374(1):483-490.

[11]paatero p,tapper u.positive matrix factorization:a non-negative factor model with optimal utilization of error estimates of data values[j].environmetrics,1994,5(2):111-126.

[12]anttila p,paatero p,tapper u,et al.source identification of bulk wet deposition in finland by positive matrix factorization[j].atmospheric environment,1995,29(14):1705-1718.

[13]kondor r i,lafferty j.diffusion kernels on graphs and other discrete structures[c]//proc of the 19th international conference on machine learning.san francisco:morgan kaufmann,2002.