期刊在线咨询服务,发表咨询:400-888-9411 订阅咨询:400-888-1571股权代码(211862)

期刊咨询 杂志订阅 购物车(0)

数据分析的方法模板(10篇)

时间:2023-08-20 14:46:43

数据分析的方法

数据分析的方法例1

依存句法分析任务的输入是一个已完成分词的自然语言句子。形式化地,输入句子可以表示为:x=W0W2…Wi…Wn,其中,wi表示输入句子的第i个词;W0表示一个伪词,指向整个句子的核心词,也就是根节点(ROOT)。图1表示输入句子“刚满19岁的欧文现在效力利物浦队。”的依存树。

[JZ][HT5”H]图1 依存树示例[ST5”HZ][WT5”HZ][JZ]Fig.1[ST5”BZ] Example of a dependency parse

最一般地,一个依存句法树由多个依存弧构成,表示为:d={(h,m,l):0≤h≤n,0

依存句法分析的目标是给定输入句子x,寻找分值(或概率)最大的依存树d*,具体公式为:

因此,依存句法分析存在四个基本问题:

(1)如何定义Score(x,d),即采用哪种方式将依存树的分值分解为一些子结构的分值。这是模型定义问题;

(2)采用哪些特征来表示每一部分子结构,即特征表示问题;

(3)如何获取特征的权重,即模型训练算法问题;

(4)给定模型参数,即已知特征的权重,如何搜索到分值最大的依存树。这是解码问题。

2依存句法分析的方法

数据驱动的依存句法分析方法主要有两种主流的方法:基于图(Graph-based)的分析方法和基于转移(Transition-based)的分析方法。这两种方法从不同的角度解决这个问题。CoNLL上的评测结果表明这两种方法各有所长,并且存在一定的互补性[2,6]。下面对各类方法展开细致分析。

2.1基于图的依存句法分析方法

基于图的依存分析模型将依存句法分析问题看成从完全有向图中寻找最大生成树的问题。一棵依存树的分值由构成依存树的几种子树的分值累加得到。模型通过基于动态规划的解码算法从所有可能的依存树中搜索出分值最高的依存树。相关的研究工作主要包括:

(1)模型定义。根据依存树分值中包含的子树的复杂度,基于图的依存分析模型可以简单区分为一阶、二阶和三阶模型。一阶模型中,依存树的分值由所有依存弧的分值累加得到,即依存弧之间相互独立,互不影响[7]。二阶模型中,依存树的分值中融入了相邻兄弟弧(Sibling)和祖孙弧(Parent-child-grandchild)的分值[8,9]。三阶模型中,进一步增加了祖孙兄弟弧(Grandparent-parent-sibling)等三条依存弧构成的子树信息[10]。

(2)特征表示。在上述模型定义的基础上,研究人员也提出了相应的一阶、二阶、三阶子树特征[7-10]。每种子树特征考虑句子中的词语和词性信息、依存弧的方向和距离信息等。随着高阶子树特征的使用,依存句法分析模型的准确率也有较大幅度的提高。

(3)训练算法。基于图的依存分析方法通常采用在线训练算法(Online Training),如平均感知器算法(Averaged Perceptron)[11]、被动进取算法(Passive-Aggressive)[12]和Margin Infused Relaxed算法(MIRA) [13]。在线学习算法以迭代的方式训练特征的权重。一次迭代中遍历整个训练数据集合,每次根据一个训练实例的分析结果对当前的权重向量进行调整。

(4)解码算法。一阶模型对应的解码算法为Eisner算法[14]。Eisner算法的本质是动态规划,不断合并相邻子串的分析结果,直到得到整个句子的结果,其时间复杂度为O(n3)。进而,McDonald和Pereira (2006)对Eisner算法进行扩展,增加了表示相邻兄弟节点的数据类型,时间复杂度仍为O(n3)。Carreras (2007)同样对Eisner算法进行扩展,得到面向二阶模型的基于动态规划的解码算法,时间复杂度为O(n4)。Koo和Collins (2010)提出了面向三阶模型的解码算法,时间复杂度为O(n4)。一些研究者提出采用基于柱搜索的解码算法,允许模型方便地融入更高阶的解码算法,同时保证较低的时间复杂度[15,16]。

2.2基于转移的依存句法分析方法

基于转移的依存分析模型将依存树的搜索过程建模为一个动作序列,将依存分析问题转化为寻找最优动作序列的问题。模型通过贪心搜索或者柱搜索的方式找到近似最优的依存树。其优点在于可以充分利用已形成的子树信息,从而形成丰富的特征,以指导模型决策下一个动作。相关的研究工作主要包括:

(1)模型定义。基于转移的依存句法分析方法提出早期,研究者们使用局部分类器(如最大熵分类器)决定下一个动作,选择概率最大的动作[17,18]。这样,一个依存树的概率由其对应的动作序列中每一个动作的概率累乘得到。近年来,研究者们采用线性全局模型来决定下一个动作,一个依存树的分值为对应动作序列中每一个动作的分值的累加[19-21]。

(2)特征表示。基于转移的依存句法分析方法的优势在于可以充分使用已构成的子树信息。Zhang和Nivre (2011)在前人工作的基础上,提出了丰富的特征集合,如三阶子树特征,词的配价信息等[21]。

(3)训练算法。早期,研究者们在训练语料上训练出一个局部分类器,在解码过程中重复使用,决定下一个动作。通常采用的分类器有基于记忆的分类器、支持向量机等。近年研究发现采用全局线性模型可以提高句法分析的准确率,通常采用平均感知器在线训练算法。

(4)解码算法。其任务是找到一个概率或分值最大的动作序列。早期采用贪心解码算法,即每一步都根据当前状态,选择并执行概率最大的动作,进入到下一个状态。如此反复直至达到接收状态,形成一棵合法的依存树[17,18]。进而,研究者们提出使用柱搜索的解码方式扩大搜索空间,即同时保留多个分值最高的状态,直到搜索结束时选择最优的动作路径[22,19]。Huang和Sagae (2010)提出在柱搜索中加入动态规划,通过合并等价状态进一步扩大搜索空间[20]。随着搜索空间的增大,依存句法分析的准确率有显著提高。

2.3模型融合的方法

基于图的方法和基于转移的方法从不同的角度解决问题,各有优势。基于图的模型进行全局搜索但只能利用有限的子树特征,而基于转移的模型搜索空间有限但可以充分利用已构成的子树信息构成丰富的特征。McDonald和Nivre (2011)通过详细比较发现,这两种方法存在不同的错误分布。因此,研究者们使用不同的方法融合两种模型的优势,常见的方法有:stacked learning [2,23];对多个模型的结果加权后重新解码[24,25];从训练语料中多次抽样训练多个模型(Bagging)[26,27]。

2.4词性标注和依存句法分析联合模型

依存句法分析模型中,词性是非常重要且有效的特征。如果只使用词语特征,会导致严重的数据稀疏问题。自然语言处理中,词性标注和依存句法分析这两个问题通常被当成两个独立的任务,以级联的方式实现。即对于一个输入句子,假定其分词结果已知,先对句子进行词性标注,然后在词性标注结果的基础上进行依存句法分析。这种级联的方法会导致错误蔓延。也就是说,词性标注的错误会严重影响依存分析的准确率。由于汉语缺乏词形变化信息(如英语中的词后缀变化如-ing,-ed,-es,-ly等),因此汉语的词性标注比其他语言如英语更具挑战性。近年来,研究者们通过建立词性标注和依存句法分析联合模型,在同一个模型中解决这两个紧密相关的任务,允许词性信息和句法结构互相影响和帮助,取得了不错的效果。一方面,联合模型中,句法信息可以用来指导词性标注,从而帮助解决一部分需要句法结构才能够消解的词性歧义。另一方面,更准确的词性标注,也可以反过来帮助依存分析。Li等通过扩展基于图的依存句法分析模型,首次提出汉语词性标注和依存句法分析联合模型[28],并且提出了适用于联合模型的训练算法[29],显著提高了词性标注和依存句法分析的准确率。进而,一些研究者们提出基于转移的词性标注和依存句法分析联合模型[30,31]。Ma等(2012)尝试了基于Easy-first的汉语词性标注和依存句法分析联合模型[32]。

2.5基于多树库融合的方法

对于统计的数据驱动的分析模型而言,标注数据的规模很大程度上影响着分析结果的准确率。依存句法分析是一种结构化分类问题,比二元分类和序列标注问题更具挑战性,因此依存句法分析更容易受到数据稀疏问题的影响,树库规模对依存句法分析的准确率影响很大。然而,标注树库是一件艰巨的任务,通常需要耗费很大的人力和物力。目前的研究结果表明在一个树库上训练出的句法分析的模型似乎很难进一步提高句法分析的准确率。然而,汉语存在多个树库。这些树库由不同的组织或机构标注,遵循不同的标注规范,面向不同的应用。尽管各个树库遵循不同的标注规范,但却都是根据人们对汉语语法的理解而标注,因此包含很多共性的标注结构。同时,不一致的标注结果应该也是有规律可循的。所以,一些研究者们尝试同时利用多个树库,帮助句法分析的准确率。李正华等(2008)曾尝试统计和规则相结合的方法,将短语结构的源树库CTB转化为符合CDT标注规范的依存结构,然后将转化后的树库和CDT合并,提高训练数据的规模,以提高依存句法分析准确率[33]。Niu等(2009)提出一种基于统计的树库转化方法,将依存结构的CDT树库转化为满足CTB标注规范的短语结构树库,进而使用语料加权的方式增大训练树库的规模,提高了短语结构句法分析的性能[34]。Li等(2012)提出一种基于准同步文法的多树库融合方法,不是直接将转化后的树库作为额外的训练数据,而是使用准同步文法特征增强依存句法分析模型,从而柔和地学习标注规范中规律性的不一致,提高依存句法分析的准确率[35]。

3依存句法分析面临的挑战

自从2006年开始,CoNLL国际评测一直关注依存句法分析,不但提供了多语言、高质量的树库,并通过对各种方法的比较分析,让研究者们对依存分析问题的理解更加清晰,极大地促进了依存句法分析的发展。依存分析已经成为自然语言处理的一个热点问题,方法也越来越成熟,并且在许多领域得到了应用。然而,目前依存句法分析还存在很多挑战,这些挑战也可能是未来依存分析发展的趋势。具体分析如下:

(1)提高依存分析准确率。目前主流的两种依存分析方法都存在一定的缺陷。基于图的方法很难融入全局特征。而基于转移的方法虽然原理上可以利用丰富的特征,但是实际使用的特征还是属于局部特征,另外也还存在错误级联的问题(柱搜索只能缓解这个问题)。融合不同依存分析模型的方法可以提高分析性能,但是提高幅度比较有限。研究可知,只有从新的角度理解这个问题本身,提出新的建模方法,或者应用新的机器学习方法,才有望大幅度提高依存分析性能。一些学者提出的利用未标注数据帮助依存分析模型是一个很好的思路,值得深入研究。

(2)提高依存分析效率。基于图的依存分析方法融入高阶特征可以提高性能,但是效率很低,无法适应实际应用的需求。在不明显降低分析性能的前提下,如何提高依存分析效率也是一个很有实际价值的问题。

(3)领域移植问题。研究发现,当训练数据领域与测试数据领域不相同时,即使差距不大,也会导致句法分析性能下降很大。以英语为例,从华尔街日报树库移植到Brown语料时,句法分析性能下降近8%。目前依存树库所覆盖的领域、规模都很有限,而标注树库的代价很大。因此解决领域移植问题,对于依存分析的实际应用至关重要。

数据分析的方法例2

【Abstract】 With the development of information technology, data sharing and interactive between the departments and grades increase rapidly, and the basic data flow diagram is incapable of mining and expressing the complicate data requirement of networked information system. An effective data requirement analysis method based on swimlane data flow diagram is presented in this article, which takes the advantages of swimlane flowcharts and data flow diagram.

【Keywords】 swimlane; data flow diagram; requirement analysis

管理信息系统建设的基础在于政府、军队、企事业单位的信息资源规划。信息资源规划的核心任务在于各部门、各层级数据需求的获取与分析,其主要方法来自于业务流程分析和数据流分析[1]。然而信息技术的飞跃发展,使得部门间、层级间的数据共享与交互呈现指数级的增长[2],传统的基本形式的数据流图也不能充分的挖掘和表达复杂的网络化的信息系统数据需求,本文结合泳道流程图[3]和数据流图两者的优势,提出了一种基于泳道数据流图的数据需求分析方法。

1 基本形式的数据流图

数据流图(Data Flow Diagram),是从数据传递和加工的角度,以图形的方式刻画数据在系统中流动和处理的过程。

数据流图有以下几种主要元素:(1)数据流。数据流是数据在系统内传播的路径,由一组成分固定的数据组成。如订票单由旅客姓名、年龄、单位、身份证号、日期、目的地等数据项组成。数据流是流动中的数据,具有流向,除了与数据存储之间的数据流不用命名外,数据流应该用名词或名词短语命名。(2)数据源(终点)。代表系统之外的实体,可以是人、物或其他软件系统。(3)对数据的加工(处理)。加工是对数据进行处理的单元,它接收一定的数据输入,对其进行处理,并产生输出。(4)数据存储。表示信息的静态存储,可以代表文件、文件的一部分、数据库的元素等。

这里给出一个物资采购管理流程的数据流图的实例,如图1所示。

这个数据流图给出了数据源(评估人员),数据流,数据加工(如收货管理、采购统计等)和数据存储(如采购申请信息,供应商资料等),给出了数据输入与输出的流向,但是数据源或终点不够明确,数据产生和消费的职能部门、岗位以及时序等都无法清晰明了的展现出来,各部门,各层级间的独立信息和共享信息不能一一分明。为解决这些问题,可以采用泳道数据流图。

2 泳道数据流图

泳道数据流图是根据业务实际需求,在基本数据流图的基础上,结合泳道流程图具有的跨职能部门业务处理流程能力和数据流图刻画数据单元输入输出及其处理过程的能力,形成一种图形化分析跨职能部门业务数据需求的方法。

泳道数据流图包括以下几种基本元素:(1)数据流、数据存储、数据处理同基本形式的数据流图;(2)泳道。职能部门是业务处理的核心单位(业务流程主体),也是数据源或终点,在泳道数据流图中表现为一个泳道,是数据产生、处理或存储的容器或者空间。在这个泳道空间中,可以包含数据流、数据存储和数据处理。泳道空间所包括的数据处理,意味着由该职能部门完成该项数据处理,该职能部门是流入该项数据处理的数据流(含特定数据项)的消费者;其所包括的数据存储,意味着该项数据存储由该职能部门产生并维持其序列化,该职能部门是数据存储中所含数据项的生产者;在泳道数据流图中,泳道从左向右水平排列,也可从上到下垂直排列。(3)阶段。阶段是一个容纳业务流程元素或数据元素的时段,它是业务流程在时间上的意义分割,展现业务流程执行或控制的时序;同时也是业务数据产生、处理和存储的时序。在泳道数据流图中,阶段按时间先后可以从上到下排列,也可以按时间先后从左到右排列。(4)起始点。数据的输入输出以及处理追随着业务活动的过程,其起始点常常起于某项业务活动的开始。(5)终止点。数据处理的终点常常是数据输出,例如数据库存储、表单等。但业务活动常常有比较明晰的终止点。为简明表达业务数据需求,泳道流程图纳入终止点。(6)分岔点。数据处理过程常常因为业务逻辑的需要输出不同的数据项,从而产生分岔点。(7)数据项。数据项为数据流中的数据组分,具有明确的定义,包括名称、类型、长度、精度、取值范围、能否为空、是否主键等信息。

泳道数据流图中,以各个职能部门形成的泳道横向水平(或纵向垂直)排列,各个岗位纵向垂直(或横向水平)排列,由业务起始点开始,结束于终止点。分别明确各职能部门,各阶段的数据流、数据项、数据处理过程和数据存储方式和内容。

3 泳道数据流图的应用实例

以前文的物资采购管理流程为例,按照上述泳道数据流图绘制步骤,物资采购管理流程所涉及的泳道数据流图绘制如图2所示。

图中,职能部门分为申购部门,计划部门,评估部门、采购实施部门和财会部门。流程分为需求请领与评估、计划拟制、采购实施和财会审计四个阶段。流程起始于需求请领与评估阶段,由申购部门发起物资采购申请,该部门产生“采购申请信息”,处理“请购管理”过程,并将填写完备的“采购申请信息”发送到计划部门的采购计划拟制人员。计划部门接收“采购申请信息”、“样品评估信息”、“供应商评估信息”,从而“制定采购计划”,完成“采购单管理”,生成“采购单信息”。这个过程中,计划部门的采购计划拟制人员是“采购申请信息”、“样品评估信息”、“供应商评估信息”的消费者,又是“采购单信息”的生产者。其中“样品评估信息”由评估部门的产品评估人员生产,而“供应商评估信息”则由评估部门的供应商评估人员生产。后续的数据流信息则由采购实施部门和财会部门生成、处理并完成。

4 结语

泳道数据流图不仅拥有基本形式数据流图的优势,而且还可以清晰地分析数据项的生产者和消费者,分析数据流在跨职能部门间的流转过程,并给出数据处理和数据存储的执行者,从而更加充分的挖掘和表达信息系统的数据需求,是一种有效的信息系统数据需求分析方法和途径。

参考文献:

数据分析的方法例3

Key Words:Social survey data;Three-dimension matrix;Hypergraph

社会调查是了解各方面信息的重要途径之一,社会调查数据主要是通过调查问卷的方法得到的。由于社会调查数据的维数较高,加上人为主观因素,数据类型主要为二元变量、离散变量、序数变量等为主,所以对于社会调查数据的分析和处理大都基于统计学,只对单一题目进行统计学分析,其分析方法主要是基于题型进行处理的,对于题目和题目之间的关系很少关心[1]。许多数据挖掘算法因为种种限制无法在社会调查的数据分析中得到应用。因为方法的限制,所以现在很多社会调查只能验证事先想好的内容和假设,很少可以对高维数据进行相对复杂的回归分析处理。

根据以上存在的问题,该文建立了基于三维矩阵的数学模型,将单选题、多选题和排序题用向量形式进行表示,每一题定义为空间中的一个维度,从而所有的题目就可以构成一个N维空间。每份问卷的信息用一个M×N矩阵表示。这样表示可以将所有问卷内容当作一个整体,作为后续算法的基础。

1 社会调查数据的特点

通常情况下,社会调查数据特点如下。

(1)相关性。对于一个样本个体而言,它具有本身的多个特征,这些特征之间就具有一定的相关性。对于多个样本而言,个体与个体的特征之间具有相关性。如果样本随时间而变化,那么该样本在不同时刻的特征之间又具有相关性。因此,由于上述多个原因使得社会调查数据具有了复杂的相关性,传统的统计学调查难以解决这样的问题。

(2)离散性。因为社会调查数据是通过自填式问卷、网络调查数据库等方法得到,所以社会调查数据一般以离散变量为主,且这些数据之间只有标示作用,并没有严格的逻辑关系。

(3)模糊性。社会调查数据当中不可避免的会接触到各种表达方式和概念,因此,它具有模糊性。

因为由自填式问卷或结构式访问的方法得到的社会调查数据具有以上特点,所以在实际应用中基于统计学的处理方法只能笼统的显示数据的部分特性,如频数、离散程度等[2]。对于数据之间的关系只能分析出维数极少的大致的关系。

而且利用软件进行数据挖掘时,因为现有的软件中的数据挖掘算法对于数据类型和格式要求较高,所以能应用到的数据挖掘算法很少。就算是数据要求较低的关联分析,其结果也存在大量的冗余。因此,我们需要建立一个合适的社会调查数据的数学模型来完善原先的方法并使跟多的数据挖掘方法可以运用到其中,使得结果更准确。

2 社会调查数据的建模

研究中我们发现,三维矩阵可适用于社会调查数据的建模。

2.1 三维矩阵的定义

三维矩阵的定义:由n个p×q阶的矩阵组成的n×p×q阶的矩阵A称为三维矩阵,又称立体阵。Ak,i,j表示三维矩阵A的第k层,第i行,第j列上的元素。其中n,p,q分别表示三维矩阵的高度,厚度和宽度。

2.2 三维矩阵模型的建立

调查问卷的题目一般有三种类型:单选题、多选题和排序题。这三类题目都可以表示成向量的形式,其中每一道单选题、多选题可以表示成一个向量,排序题可以表示成多个向量组成的矩阵。对于单选题和多选题,可以按选项的顺序可以表示成一个向量,其中选中的项用“1”表示,未选中的项用“0”表示。对于排序题,可以表示成一个n×n的方阵,其中n表示该排序题的选项个数,。这样,每一题就可以定义为空间中的一个维度,从而所有的题目就可以构成一个N维空间。每份调查问卷的信息用一个M×N矩阵表示(M为题目的最大选项数),其在每一维上的选择称之为一个元素,这样每份问卷的信息就包括了N个元素。以第1,2,3题数据为例,其中第1题为单选题选择“B”,用向量表示为一个元素,第2题为多选题选择“ACE”,用向量表示为一个元素,第3题为排序题顺序为CBADEFIHG,用矩阵表示,每一个列向量是一个元素,如图1所示。

那么,假设有一问卷信息用一个大小为M×N的矩阵表示。K份的问卷信息就可以用K个大小为M×N的矩阵表示。将这K个矩阵叠加,形成一个三维矩阵。这个三维矩阵就是我们建立的三维矩阵数学模型,如图2所示。

在图2中我们看到,该三维矩阵数学模型有三个坐标轴,它们分别是题目,人数,选项。题目轴以每一道题为一个单位;人数轴以每一份问卷为一个单位;选项轴的刻度为A,B,C,D,E,F等题目选项,其个数为该调查问卷中选项最多的题目的选项个数。

在此基础之上,这样的三维矩阵具有以下性质。

(1)在题目轴中选取对应的题目,将三维矩阵面向竖切得到截面1(如图2中01所示),截面2表示每一道题所有人选择的信息。

(2)在人数轴中选取对应的人,将三维矩阵横切得到横截面1(如图2中02所示),横截面1表示对应的人选择所有题目的信息。

在得到三维矩阵后,可对它进行像素化处理,置1的元素用黑点代替,置0元素的则空白,在得到像素化三维矩阵后我们可以将三维矩阵沿着人数维度上向下投影,这样就可以得到一个具有浓黑不一的点的平面。通过这些点的浓度,可以知道每一选项选择的人数。接下来我们可用灰度级表示点的浓度,筛选出浓度大于一定程度的点,在此基础上进行后续算法处理。

上述三维矩阵数学模型具有数学三维矩阵的所有性质,可依据调查问卷的需求进行转置,加权、相乘、筛选等数学处理,另外在数学处理的基础上,采用超图理论可以大大丰富了调查问卷的处理方法。

3 基于超图算法的调查问卷分析技术

超图是离散数学中重要的内容,是对图论的推广[3]。超图是有限集合的子系统,它是一个由顶点的集合V和超边集合E组成的二元对,超图的一条边可以有多个顶点的特性,这与一般的图有很大不同。超图分为有向超图与无向超图两类,在无向超图的每条超边上添加方向后得到的有向二元对就是有向超图。超图在许多领域有广泛的应用。

大家可以利用无向超图表示每一道题的选择情况,先将这每一题的每一个选项设成一个节点,然后将三维矩阵从上向下投影,如果某一题的若干个选项同时被一个人选择,就用一条超边包围这些节点,那么选这些选项的人越多,投影得到的超边就越浓。这样就用超图表示了问卷中每道题的信息,可以进行聚类处理。

利用有向超图,可以将关联规则表示成有向超图的形式,在得到了关联规则后,设实际中得到的关联规则的形式为:,前项和后项都是由多个项组成的集合。该文定义一条关联规则由一条有向超边表示,有向超边的头节点表示关联规则的前项,有向超边的尾节点表示关联规则的后项。每条有向超边的头节点和尾节点均可以为多个,如此便成功表示了复合规则,从而可以使用相关算法进行冗余规则检测。

通过基于有向超图的冗余规则检测就可以将关联规则之间存在着的大量冗余检测出,减少挖掘资源的浪费,从而增加了挖掘结果的有效性。

传统的聚类方法都对原始数据计算它们之间的距离来得到相似度,然后通过相似度进行聚类,这样的方法对于低维数据有良好的效果,但是对于高维数据却不能产生很好的聚类效果,因为高维数据的分布有其特殊性。通过超图模型的分割实现对高维数据的聚类却能产生较好的效果。它先将原始数据之间关系转化成超图,数据点表示成超图的节点,数据点间的关系用超边的权重来表示。然后对超图进行分割,除去相应的超边使得权重大的超边中的点聚于一个类中,同时使被除去的超边权重之和最小。这样就通过对超图的分割实现了对数据的聚类。具体的算法流程如下。

首先,将数据点之间的关系转化为超图,数据点表示为超图节点。如果某几个数据点的支持度大于一定阈值,则它们能构成一个频繁集,就将它们用一条超边连接,超边的权重就是这一频繁集的置信度,重复同样的方法就可以得超边和权重。

然后,在基础此上,通过超图分割实现数据的聚类。若设将数据分成k类,则就是对超图的k类分割,不断除去相应的超边,直到将数据分为k类,且每个分割中数据都密切相关为止,同时保持每次被除去的超边权重和最小,最终得到的分割就是聚类的结果。

数据分析的方法例4

企业数据分析编写过程中,常用的分析方法有对比分析法、趋势分析法、结构分析法和综合分析法等。本文结合工作实际,对如何运用这四种基本分析方法谈点想法。

对比分析法

所谓对比分析法,是指将两个或两组以上的数据进行比较,分析它们的差异性,从而揭示这些数据所代表的事物的发展变化情况和规律性。对比分析法是比较研究的一种方法,在企业数据分析中的应用十分普遍。它的特点是,通过比较分析,可以非常直观地看出企业某方面工作的变化或差距,并且可以准确、量化地表示出这种变化或差距是多少。

在实际应用中,企业数据的对比分析,一般有以下几种具体情况:

一是将企业当年的数据与历年(去年或前几年)的数据进行对比分析,目的是为了搞清楚与去年或前几年相比,企业某一方面或某些方面的发展变化情况。比如,某公司2006年利润100万元,2007年利润115万元,年增长率为15%。通过这种对比,我们就可以公司利润的变化情况有一个更直观、更清楚的认识。当然,在许多时候,这种对比分析不会局限在某一个数据,而是一组数据。比如,在对企业当年的利润与去年利润进行对比分析的同时,还可以将产量、销售量、销售额、成本、税金、市场占有量、占有率等指标进行对比分析,从而更全面了解掌握企业的发展现状。

二是将本单位数据与同行业(外单位、同行业平均水平)的数据进行对比分析,目的是为了搞清楚与外单位、同行业平均水平,本单位某一方面或各方面的发展水平处于什么样的位置,明确哪些指标是领先的,哪些指标是落后的,进而找出下一步发展的方向和目标。比如,2005年,某发电厂供电煤耗为340克/千瓦时,当年全国火电行业平均煤耗指标为310克/千瓦时,该发电厂的实际煤耗指标比全国火电行业平均煤耗多了30克/千瓦时。通过这样的对比分析,我们可以看出,该发电厂在能耗方面存在着比较突出问题,如何节能降耗应该成为企业下一步重点关注的一个工作内容,也是提高企业经济效益的一条重要途径。

为了一目了然地看出数据对比的直观效果,对比分析一般可用柱式图表表示。

趋势分析法

所谓趋势分析法,是指通过对某一个或几个数据在一定阶段的变化情况进行分析,从而发现该数据所代表事物的发展趋势和规律,并可进一步分析形成这种趋势的原因,为企业领导决策提供依据和参考。趋势分析法实际上是一种历史研究的方法,在企业数据分析的编写中,主要用来表示企业某一方面或某些方面的工作在一定时期内的发展趋势和规律。其特点是对某一时期的某一数据进行持续性考察,进而得出趋势性的结论。

一般说来,对数据进行趋势分析的结果不外乎以下四种情况:

一是某项数据的变化呈逐年加大的趋势,称为上升趋势。比如某企业利润额:2001年为150万元、2002年173万元、2003年220万元、2004年360万元、2005年500万元。从对这组数据的分析中可以得出结论:该企业的利润呈逐年上升的趋势。

二是某项数据的变化呈逐年减小的趋势,称为下降趋势。例某企业产品的市场占有率:2001年为30%、2002年24%、2003年15%、2004年9%、2005年6%。从对这组数据的分析中可以得出结论:该企业产品的市场占有率呈逐年下降的趋势,说明该产品的市场竞争力正在下降,企业应该对该产品进行升级换代,或者开发生产新的产品。

三是某项数据或上升或下降,每年都有较大变化,称为震荡趋势。比如某企业的经营成本:2001年为50万元、2002年83万元、2003年61万元、2004年46万元、2005年103万元。从对这组数据的分析中可以得出结论:该企业每年的经营成本变化较大,呈震荡趋势,说明企业在控制经营成本方面还要进一步采取措施。

四是某项数据几年来基本不变,或变化很小,称为稳定趋势。例如某企业的人均产值:2001年为60万元、2002年63万元、2003年61万元、2004年62万元、2005年63万元。从对这组数据的分析中可以得出结论:该企业的人均产值每年变化不大,呈稳定趋势。

为了更形象地看出数据在一定时期内的变化轨迹,对数据的趋势分析一般可以用曲线图表表示。

结构分析法

所谓结构分析法,就是通过分析数据的构成情况,即分析构成某一数据的各子数据的情况和权重,从而揭示构成某一事物的各方面因素在其中的作用大小和变化情况。结构分析法也是常用的企业数据分析方法,通过这一分析方法,有利于我们发现和把握事物的主要矛盾和矛盾的主要方面,对企业而言,可以据此确定工作重点或经营的主攻方向。

在实际工作中,当我们需要对企业的某一数据作深入分析时,常常需要用到结构分析法。例如我们分析某供电局利润的结构情况:2007年,企业利润为1000万元,其中主业占80%、三产占20%。这就是结构分析的方法,从中我们就可以清楚地知道,主业和三产对企业利润的贡献比例。在这个基础上,我们还可以作进一步的分析,在200万元的三产利润中:火电建设公司占35%、电力设计院占30%、电缆厂占15%、电表厂占10%、电杆厂占5%、宾馆占5%。从而我们可以看出火电建设公司和电力设计院两家对三产利润的贡献率达到了65%,是发展三产的主力军。从供电局的角度而言,抓好三产工作,重点是要抓好火电建设公司和电力设计院的工作。

为了直观地反映某一数据的构成情况,结构分析法一般采用圆饼图表来表示分析的结果。

综合分析法

在编写企业数据分析时,往往不是单一地使用一种数据分析方法,为了使数据分析更透彻、更深入,更多时候我们都需要采用综合分析的方法。所谓综合分析法,就是将以上两种或两种以上的分析方法结合起来使用,从而多角度、多层次地分析揭示数据的变化、趋势和结构情况,以增加数据分析的深度。

综合分析法在具体应用中,有以下几种情况:

一是对比分析与趋势分析相结合的方法。就是通过对两个或两组以上的数据在一定阶段的变化情况进行比较分析,从而发现数据所代表事物的发展趋势、差别和关系,并可进一步分析原因,为企业领导决策提供依据和参考。比如,我们可以使用这一方法来分析一定阶段企业利润和成本的变化和相互关系。再如,我们将“十五”期间本企业的利润指标与其他企业的利润指标进行比较分析,所应用的也就是对比分析与趋势分析相结合的方法。

二是对比分析与结构分析相结合的方法。就是对两个或两组以上的数据的构成情况进行分析比较,从而可以看出构成这两个或两组以上的数据的各种因素的差异性,以此剖析产生这种差异的原因,并提出相应的对策措施。比如,2006年,A供电局利润500万元,B供电局利润700万元。如果只采取对比分析的方法,我们获得的结论就是:“B供电局利润比A供电局多200万元”。结合结构分析:A供电局利润500万元中,主业为450万元,三产为50万元;B供电局利润700万元中,主业为560万元,三产为140万元。由此看出,A、B供电局在主业利润差距并不大,差距主要在三产上。因此,发展三产应成为A供电局利润增长的主要着力点。

数据分析的方法例5

(一)统计规律分析

就是采用数理统计方法、模糊数学方法以及适用于小同环境要素的数学和物理方程等方法,对所得的监测数据进行深度剖析,做出详细的分析评价。这种数据分析方法主要适用于环境调查、环境规划和环评等工作。

(二)合理性分析

实际的环境监测中,影响环境要素变化的因素错综复杂,而有效的能用于综合分析的监测数据十分有限,所以我们需要考虑到各种环境要素之间的相互影响,以及监测项目之间的关系,理论结合实际全面分析数据的合理性,这样才可能得到准确可靠的、合理的监测数据分析结果。

二、提高环境监测数据分析质量的方法

为了促进环境执法工作的严肃和公正,在科学化环境管理政策中,提高环境数据分析质量很有必要。在前人的研究工作基础之上,我们提出了以下几种方法来提高数据分析质量。

(一)加强审核

加强各项审核是提高环境监测数据分析质量的重要方法,它主要是指加强对现有数据的综合审核。在进行例行监测或是年度监测计划时,我们的工作一般都是连续性的展开的,一年或是好几年,因此,我们可以建立一个动态的分析数据库,录入每次的监测数据,包括每个污染源的详细信息(污染点的地理位置和排放口的排污状况等),在以后的审核中,我们可以迅速地在数据审核中对于同一采样点、同一分析项目进行新旧数据的分析对比。当数据分析结果出现异常时,可以及时的发现并找到原因,这可以对污染应急事故的发生起到提前警示的作用。另外,在数据审核中,也要密切注意到同一水样、不同的分析项目之间的相关性,比如:同一水体中氟化物和总硬度、色度和pH的关系、氨氮和总氮之间的相关性等,这样也能及时发现数据分析中出现的误差。

(二)加强监督机制

通过调研我们发现,目前在传统的监测数据质量控制系统中依旧存在许多不足,我们可以通过引入反馈和交流机制,加强监督机制来有效提高数据分析的质量。首先,通过强化平面控制,在系统内部全面优化管理的模式,提高工作人员的分析技术水平,尽可能的减少或消除数据误差,以此来提高监测分析的准确性;其次,我们应该主动接受来自外界的监督,对于外界有异议的监测数据要进行反复的检测;再次,我们也应该多举办技术交流会,让技术人员可以与各级环境监测部门的人员沟通,学习他们的先进技术和方法,同时进行数据分析结果对比,找到自身的不足,发现问题并能及时更正。

(三)加强采样及实验室测量质量的控制

1.采样控制

工作人员在每次采样前,都应该根据实际环境情况来制定采样技术细则,做好采样控制,比如:需要校准仪器并确保仪器可以正常运转;使用的采样管和滤膜要正确安装,采样器干净整洁没有受到污染源的污染,其放置的位置也能满足采样要求等。采集好的样品,要妥善存放避免污染。如果样品不能及时进行检测,考虑到样品的稳定性,最好将样品密封并存放在于冰箱中。

2.实验室测量控制

在实验室进行样品测试之前,首先应该对所要用到的玻璃量器及分析测试仪器进行校验。日常工作中,也应该根据各种仪器保养规定,对仪器定期进行维护和校验,确保仪器可以正常运转工作。其次,需要准确调配各种溶液,特别是标准溶液,配置时要使用合格的实验用蒸馏水。测试数据时,先要测定标准样品并绘制标准曲线。测定样品时要检查相关系数和计算回归方程,并对实验系统误差进行测验,每一步都不能少。

数据分析的方法例6

关键词:环境监测;质量浓度;数据;分析;方法

Key words: environmental monitoring; mass concentration; data analysis; method;

中图分类号:X83文献标识码:A 文章编号:2095-2104(2012)

一、监测数据综合分析的目的和作用

环境监测是科学性很强的工作,它的直接产品就是监测数据。监测质量好坏集中反映在数据上,准确、可靠、可比的环境监测数据是环境科学研究工作的基础,是环境管理的依据。一个环境监测站每年可提供成千上万的监测数据,但这些数据本身是孤立的、离散的,必须从不同的目的和作用出发,把环境监测所获得的资料、数据,通过不同的途径和方法分类、统计、转化、汇总,找出其本质的东西,获取环境管理所要求的各种综合数据。环境监测数据综合分析的目的是完成监测数据、信息资料向环境质量定性和定量结论的转变,通过监测数据、信息资料的深加工与自然环境、社会经济发展等诸因素的综合分析,实现为污染防治决策和环境建设决策的转变。环境监测数据综合分析是环境监测过程中环节的重要环节,也是最终环节。一般来说,环境监测综合分析技术的水平高低,代表着监测站技术水平的高低,也决定着监测站在环境管理中的地位和作用。

二、监测数据综合分析的方法

在对环境质量进行综合评价或对区域环境污染状况进行评价时,都是以一定数量的监测数据和资料为依据的。这些数据和资料包括环境要素的监测数据、环境条件数据、污染源调查监测数据、现场调查数据和实测数据等等。环境监测综合分析采用的方法很多,并在不断完善和发展,通常采用的分析方法有统计规律分析、合理性分析、效益分析等。

2.1 统计规律分析

统计规律分析中包括了对环境要素进行质量评价的各种数学模式评价方法,也就是应用数理统计方法,模糊数学方法和适用于不同环境要素的数学、物理方程等方法,对监测数据资料进行剖析,解释,做出规律性的分析和评价。该分析方法主要应用于环境调查、环境规划或课题、环评等比较大的工作中。

2.2 合理性分析

由于影响环境要素变化的因素十分复杂,而用于综合分析的监测数据资料有限,所以需要结合环境要素的各项条件和污染源参数,理论结合实际分析其合理性。应考虑到环境要素之间的相互影响,监测项目之间的相关和对比关系,全面分析其合理性,这样才能提供准确、可靠、合理的监测数据。如何合理的分析数据,可以从以下几个方面判断:

2.2.1 通过项目之间的相关性来分析

监测项目多种多样,有机的、无机的都有,但是物质本身具有相互关系,两个或两个以上的项目监测数据往往存在一种固定关系,这就为我们分析单个已实行质量控制措施的监测数据正确与否提供了依据,对一些例行监测数据,可做出直观的判定。例如,氟含量与硬度之间的关系。F与Ca、Mg形成沉淀物容积度较小,因此,在中性、弱碱性水溶液中,如氟含量在(mg/L)级,则其氟含量与Ca、Mg含量呈明显负相关,即与硬度值呈负相关,所以高氟区内的水质监测结果中硬度监测值一般较低。如果氟含量较高,同样硬度监测值也很高,数据就要重新分析。再如CO、BOD5和高锰酸盐指数之间的关系。根据COD、BOD5和高锰酸盐指数的概念,COD是指用强氧化剂,在酸性条件下,将有机物氧化成CO2 与H2O所消耗的氧量平;BOD5是指在水温为20℃的条件下,微生物氧化有机物所消耗的氧量;高锰酸盐指数是在一定条件下,用高锰酸钾氧化水样中的某些有机物及无机物还原性物质,由消耗的高锰酸钾量计算相当的氧量;结合其实际的测定过程,对于同一份水样三者的监测结果,应存在以下规律:COD>BOD5,COD>CODMn。三氮与溶解氧也存在一定的关系。环境中氮的存在形式根据环境条件的变化而发生变化,尤其受水体中溶解氧的质量浓度影响,一般溶解氧高的水体硝酸盐氮的质量浓度高于氨氮质量浓度,反之氨氮质量浓度高于硝酸盐氮质量浓度,亚硝酸盐氮质量浓度与之无明显关系。二氧化硫与氮氧化物之间的关系:对于以煤为主要燃料的煤烟型污染区域,其大气环境中二氧化硫体积质量大于氮氧化物,一般为氮氧化物的2~6倍。在以汽油、柴油为燃料的区域内,如马路边,交通繁忙而居民少的区域,氮氧化物体积质量则大于二氧化硫。综上所述,物质之间存在的相互关联性对综合分析监测数据的合理性起着至关重要的作用,它直观的体现出数据在分析过程是否存在分析误差,可以在第一时间分析出数据是否合理,为进一步综合分析数据提供了准确依据。

2.2.2 通过掌握的资料对监测值进行判定

对现有的数据进行综合分析,首先要了解采样地点的本底值范围,特别是例行监测或者是年度监测计划。这种工作一般情况下都是连续性的,一年或是几年,数据可比性比较好,对同一点位的数据,如个别项目变化较大,可以先将该值列为可疑数值,然后进行合理性分析。进行合理性分析,首先要了解是否有新的污染源介入,其次是采样全过程有无异常,包括水质的颜色,气味、流量的大小等。与以往数据进行比对,采样是否规范,采样的容器是否达到可用标准等。再次是实验室分析,如查找显示剂保存时间是否过期,标准曲线是否及时绘制,分光光度计是否调零等等。对于气体来说,还要考虑采样时的风向,采样仪器是否校准等。对于可疑值,在分析过程中已经知道数据是可疑的应将可疑值舍去;对复查结果时已经找出出现可疑值原因的,也应将可疑值舍去;对找不出可疑值出现原因的,不应随意舍去或保留,要对留样重新进行实验室分析或根据数理统计原则来处理。

2.2.3 通过监测项目的性质对监测值判定

在同一水样中有许多项目根据其性质可以判定相关的监测值是否正确。如总氮,是指可溶性及悬浮颗粒中的含氮量,如果同一水样监测结果出现总氮与氨氮、亚硝酸盐氮、硝酸盐氮数据倒挂,就表明监测结果是不正确的,需要重新分析找出原因;同样,还有总磷与可溶性磷以及无机磷之间数据的倒挂;大气中,氮氧化物与一氧化氮、二氧化氮,总悬浮颗粒物与可吸入颗粒物之间数据的倒挂等,都是不合理现象。同样,在噪声监测中,理论上监测数据L10 一定大于L50、L90、Leq,在实际监测中如果出现Leq 大于L10,如果不是监测数据或仪器出现问题,就是由于瞬时之间噪音值的突然增大,应当修正数据使用。以上只是列出部分项目之间的关系,还有许多项目关系需要我们在日常生活中不断总结和发现,运用到日常的环境监测综合分析中,更好地服务于环境管理。

2.2.4 通过了解污染源对监测值进行判定

监测数据是多种多样的,不仅仅包括环境空气、地表水、地下水等等,也包括点源,如我们常说的工业污染源。工业污染源多种多样,不同的行业有不同的污染物产生,多数行业都有自己的特殊污染物产生,化学需氧量和氨氮只是多数工业污染源的共性污染物。因此,要在日常工作中对辖区内的污染源或者是重点污染源有所了解,根据行业的不同,选择有针对性的监测项目来监督污染企业。如国家最新颁布执行的制药行业六项标准,就是根据制药行业不同工业生产工艺和污染治理技术的特点,分别制定了《发酵类制药工业水污染物排放标准》、《提取类制药工业水污染物排放标准》、《化学合成类制药工业水污染物排放标准》、《中药类制药工业水污染物排放标准》、《生物工程类制药工业水污染物排放标准》、《混装制剂类制药工业水污染物排放标准》。国家对这些行业制定了最多25项污染物监测分析排放标准,最少11项污染物监测分析排放标准,其中有共性的污染物,也有特殊的污染物,根据特殊的污染物是否存在,就可以判定是哪类制药行业。又如对化工行业来说,有机物含量种类较多,重金属比较少;对于重金属行业来说,有机物含量较少;造纸行业主要是有机污染等。如果在一个生产有机化工的企业,废水监测出高质量浓度的重金属,则监测数据应重新考虑,需按照综合分析方法分析其原因。

2.3 效益分析

数据分析的方法例7

中图分类号:TE08文献标识码: A

前言

环境监测的数据不仅是我国对于生态研究和环境质量现状最主要的工作,也是我国治理生态环境和环境污染的根本。因此,要加强对于环境监测数据的研究工作。

一、 监测数据综合分析的目的和作用

环境监测是科学性很强的工作,它的直接产品就是监测数据。监测工作质量好坏直接反映在数据的质量,准确、可靠、有效、可比的环境监测数据是环境科学研究工作的基础,是环境管理的依据。一个环境监测站每年可提供成千上万的监测数据,但这些数据本身是孤立的、离散的,必须从不同的目的和作用出发,把环境监测所获得的资料、数据,通过不同的途径和方法分类、统计、转化、汇总,找出其本质的东西,获取环境管理所要求的各种综合数据。

环境监测数据综合分析的目的是完成监测数据、信息资料向环境质量定性化和定量化结论的转变,通过监测数据、信息资料的深加工与自然环境、社会经济发展等诸因素的综合分析,实现为污染防治决策和环境建设决策提供科学依据。环境监测数据综合分析是环境监测过程中重要工作环节,也是最终环节。一般来说,环境监测综合分析技术的水平高低,代表着监测站技术水平的高低,也决定着监测站在环境管理中的地位和作用。

二、目前我国大部分地区的空气质量检测数据

备注:部分城市环境空气质量指数(AQI)数据来源:中国环境监测总站网站,全国城市空气质量实时平台2013年1月12日21时―22时更新数据。

三、 监测数据综合分析的方法

在对环境质量进行综合评价或对区域环境污染状况进行评价时,都是以一定数量的监测数据和资料为依据的。这些数据和资料包括环境要素的监测数据、环境条件数据、污染源调查监测数据、现场调查数据和实测数据等等。环境监测综合分析采用的方法很多,并在不断完善和发展,通常采用的分析方法有统计规律分析、合理性分析、效益分析等。

(一)统计规律分析

统计规律分析中包括了对环境要素进行质量评价的各种数学模式评价方法,也就是应用数理统计方法,模糊数学方法和适用于不同环境要素的数学、物理方程等方法,对监测数据资料进行剖析,解释,做出规律性的分析和评价。该分析方法主要应用于环境调查、环境规划或课题、环评等比较大的工作中。

(二)合理性分析

由于影响环境要素变化的因素十分复杂,而用于综合分析的监测数据资料有限,所以需要结合环境要素的各项条件和污染源参数,理论结合实际分析其合理性。应考虑到环境要素之间的相互影响,监测项目之间的相关和对比关系,全面分析其合理性,这样才能提供准确、可靠、合理的监测数据。如何合理的分析数据,可以从以下几个方面判断:

1、 通过项目之间的相关性来分析

监测项目多种多样,有机的、无机的都有,但是物质本身具有相互关系,两个或两个以上的项目监测数据往往存在一种固定关系,这就为我们分析单个已实行质量控制措施的监测数据正确与否提供了依据,对一些例行监测数据,可做出直观的判定。例如,氟含量与硬度之间的关系。F与Ca、Mg形成沉淀物容积度较小,因此,在中性、弱碱性水溶液中,如氟含量在(mg/L)级,则其氟含量与Ca、Mg含量呈明显负相关,即与硬度值呈负相关,所以高氟区内的水质监测结果中硬度监测值一般较低。如果氟含量较高,同样硬度监测值也很高,数据就要重新分析。再如COD、BOD5和高锰酸盐指数之间的关系。根据COD、BOD5和高锰酸盐指数的概念,COD是指用强氧化剂,在酸性条件下,将有机物氧化成CO2与H2O所消耗的氧量;BOD5是指在水温为20e的条件下,微生物氧化有机物所消耗的氧量;高锰酸盐指数是在一定条件下,用高锰酸钾氧化水样中的某些有机物及无机物还原性物质,由消耗的高锰酸钾量计算相当的氧量;结合其实际的测定过程,对于同一份水样三者的监测结果,应存在以下规律: COD > BOD5, COD>CODMn。

三氮与溶解氧也存在一定的关系。环境中氮的存在形式根据环境条件的变化而发生变化,尤其受水体中溶解氧的质量浓度影响,一般溶解氧高的水体硝酸盐氮的质量浓度高于氨氮质量浓度,反之氨氮质量浓度高于硝酸盐氮质量浓度,亚硝酸盐氮质量浓度与之无明显关系。

二氧化硫与氮氧化物之间的关系:对于以煤为主要燃料的煤烟型污染区域,其大气环境中二氧化硫体积质量大于氮氧化物,一般为氮氧化物的2~6倍。在以汽油、柴油为燃料的区域内,如马路边,交通繁忙而居民少的区域,氮氧化物体积质量则大于二氧化硫。

综上所述,物质之间存在的相互关联性对综合分析监测数据的合理性起着至关重要的作用,它直观的体现出数据在分析过程是否存在分析误差,可以在第一时间分析出数据是否合理,为进一步综合分析数据提供了准确依据。

2、 通过掌握的资料对监测值进行判定

对现有的数据进行综合分析,首先要了解采样地点的本底值范围,特别是例行监测或者是年度监测计划。这种工作一般情况下都是连续性的,一年或是几年,数据可比性比较好,对同一点位的数据,如个别项目变化较大,可以先将该值列为可疑数值,然后进行合理性分析。

进行合理性分析,首先要了解是否有新的污染源介入,其次是采样全过程有无异常,包括水质的颜色,气味、流量的大小等。与以往数据进行比对,采样是否规范,采样的容器是否达到可用标准等。再次是实验室分析,如查找显示剂保存时间是否过期,标准曲线是否及时绘制,分光光度计是否调零等等。对于气体来说,还要考虑采样时的风向,采样仪器是否校准等。对于可疑值,在分析过程中已经知道数据是可疑的应将可疑值舍去;对复查结果时已经找出出现可疑值原因的,也应将可疑值舍去;对找不出可疑值出现原因的,不应随意舍去或保留,要对留样重新进行实验室分析或根据数理统计原则来处理。

3、 通过监测项目的性质对监测值判定

在同一水样中有许多项目根据其性质可以判定相关的监测值是否正确。如总氮,是指可溶性

及悬浮颗粒中的含氮量,如果同一水样监测结果出现总氮与氨氮、亚硝酸盐氮、硝酸盐氮数据倒挂,就表明监测结果是不正确的,需要重新分析找出原因;同样,还有总磷与可溶性磷以及无机磷之间数据的倒挂;大气中,氮氧化物与一氧化氮、二氧化氮,总悬浮颗粒物与可吸入颗粒物之间数据的倒挂等,都是不合理现象。同样,在噪声监测中,理论上监测数据L10一定大于L50、L90、Leq,在实际监测中如果出现Leq大于L10,如果不是监测数据或仪器出现问题,就是由于瞬时之间噪音值的突然增大,应当修正数据使用。以上只是列出部分项目之间的关系,还有许多项目关系需要我们在日常生活中不断总结和发现,运用到日常的环境监测综合分析中,更好地服务于环境管理。

(三) 对于数据的效益分析

对于环境监测的数据类型分为例行监测,环评监测和验收监测以及监督监测等等。对于监督数据的监测来说,当分析数据相对较少的时候,数据合理性比较好判断;而对于数据较多的例行监测、环评监测来说,在较短时间内判断数据是否准确、合理、可靠,上述综合分析方法提供了简单、明了的依据,在实际工作中能够及时为环境管理提供准确的监测信息,减少企业不必要的重复工作,在有效的时间内提供更优质的服务。

结论

综上所述,我国对于环境监测数据的研究还需要更加科学有效的方法。环境监测数据的测量是系统而又复杂的,要从多方面进行分析,找出环境中所存在的问题,并且进行相应的科学治理措施。实现我国生态环境的可持续发展。

参考文献:

数据分析的方法例8

大数据是一种时代现象,目前主要是商业概念。还未形成严谨的学术定义。过去,大数据通常用来形容一个公司创造或手机的大量非机构化和半结构化的数据,如网络日志、社会关系网络上的用户活动数据、互联网搜索引擎上的详细搜索记录等等。对于传媒行业,大数据指跨媒体或全媒体数据,如电视机顶盒的回路数据、电脑或移动终端收看视频的数据、社交媒体上对于收看节目的相关评论等。

当下我们提及大数据,还指一种解决问题的方法,即通过手机、整理生活中的方方面面的海量数据,并对其进行分析挖掘,从中获得有价值的信息,这种对大数据的应用与实践已经演化出一种新的商业模式,即公司的核心竞争力在于其拥有的数据规模以及它运用这些数据解决问题的能力。这种解决问题的方法在于对各领域情况进行量化分析:信息准确描述,使我们认知不清晰的方面变得清晰,帮助我们去判断现状和趋势、确定未来战略,在记录、表述、分析、重组后让它带来效益。

传媒业本身就是生产和传播信息的产业,大数据时代,传媒业大有可为:信息源更加丰富,传媒机构可利用数据资源,量化分析,更好地把握信息;对受众需求的把握更加准确,传媒机构可根据受众需求确定传播内容和传播策略,实现精准传播;传播效果的反馈对于不断调整内容和策略,赢得受众,提示品牌形象有很大帮助。首先数字化,让电脑处理这些数据即建立数据库;在数字化基础上进行数据化,变成软件可以识别的数据化文本:智慧地使用已有的理论和方法,让这些数据发挥价值——内容提取、分享、互动,让它们更好地服务于使用者,挖掘其中的商业性创新价值。然而大数据在中国传统媒体中的影响目前并未实现,虽然中国少数传统媒体已经实践或正在实践中,对于互联网媒体,这个领域的实践已经走在了传统媒体的前面。

2 借力大数据进行电视受众分析

2.1 过去的受众分析方法

其一,过去的人员测量仪,一种可以记录受众收看或收听时间的专门仪器,可以定时反馈给数据中心。其二,日记卡,由受访者填写特定格式的表格,记录自己的收视行为。其三,面访,通过上门或拦截访问了解受众的收视行为。其四,电话访问,由访员向目标受众打电话了解受众的收视行为。首先,记录受众观看行为的仪器是抽样的形式安装到用户家中的,这种仪器的安装行为本身对受众观看心理有一定影响,从而导致记录仪器的不准确。其次,观众观看行为的复杂性,这些信息资料庞大,不是简单的受众回访、记录就能得到准备的数据,需要更高的技术来测量。由此可见,这种简单的受众行为分析显然不能适应当下受众复杂的行为变化趋势,也不能够为电视媒体提供精准可靠的分析数据,我们需要借助大数据进行信息分析。

2.2 利用大数据分析电视受众行为

首先,海量电视收视样本监测。利用海量数据收集技术,获得传统的电视收视信息、数字电视、智能电视受众收视行为。目前大部分用户使用数字机顶盒,通过数字机顶盒可以实现信息的传送和反馈,而且这些数据包括内容丰富,有电视直播频道、网络视频资源库、付费点播频道、特色频道等等。数字电视的推广使受众点播回看、增值业务等行为纳入受众观看行为内,这是传统的收视监测难以监测到的。例如在北京市场,北京卫视(高清)、CHC动作频道等都是传统收视率监测很难监测到的频道,而在海量样本监测中均属于常规可监测频道。其次,整合网络视频、移动终端视频观看行为,量化分析受众观看行为。虽然新媒体时代下,互联网声称取代传统的电视媒体,但调查分析,互联网视频观看内容大部分还是传统的电视媒体提供的。媒体受众的行为变迁、跨媒体使用行为的增长,也要求对媒介受众行为监测更加精细化和综合化——如何在新媒体环境下更好地把握受众行为偏好,拓展电视媒体的经营空间,成功实现节目创新和经营创新?成为新时期电视媒体发展的关键议题。这就需要借助网络视频网站、移动终端视频观看数据,精准分析受众的观看行为。具体实施方面,需要电视媒体与网络视频网站合作,在为其提供视频资源的同时,电视媒体需要借助网络视频网站受众观看数据,加上从数字机顶盒获取的量化信息,进行深入分析,精准把握受众对节目内容的关注焦点、对节目发展的心理期待、对节目环节的个性意见、对节目品牌的情感归属等一系列重要问题,对电视节目的生产编排以及成长发展提供有力支持。再者,利用数据收集加工处理平台,挖掘受众喜好,为电视生产制作提供量化信息。大数据之大,重点并不是它的容量大,而在与其强大的数据收集加工处理能力,深入数据分析提取有效信息的能力,这才是大数据的真正价值,谁做到了这一点,就能在市场中获胜。

目前做电视媒体受众详细数据收集与分析的公司是基本上由尼尔森垄断的,中国并没有监管收视率调查的行政机构,做电视媒体受众分析的都是市场调查公司。目前尼尔森、央视索福瑞等调查数据较为权威,虽然价格不菲,但是大多数电视行业数据分析都是这几家做的。尼尔森根据客户的具体需求来定制调查方案,对于一般性的调查需求,尼尔森拥有一套在全球范围内得到认可的专有调查产品和方法,为客户提供最有力的可比性标准化数据。有少量传媒集团着手于专业调查机构合作,深入开发大数据的潜在功能,如2012年2月广东佛山传媒集团与尼尔森公司合作,寄希望于记住尼尔森大数据分析的平台,通过对数据的整合、分析、管理,为他们的转型发展提供战略性的策略依据。

对于电视媒体的受众调查分析,尼尔森采用第四代收视测量海量样本回路数据收视研究,这是全球最新的收视率测量解决方案:受众观看行为通过机顶盒的升级,使得机顶盒能够对观众开关机顶盒时间、转换频道、使用增值业务等具体操作行为进行精确到秒的准确记录,被机顶盒记录的数据通过有线数字电视网络,在一个高度安全的封闭通路中,传输至监测服务器进行多层加密,再通过互联网回传至数据处理中心,整个过程遮蔽了认为干扰的可能性,最大限度报纸了数据采集和传输的安全性,在理论上达到全样本测量。因为这些数据量大几乎达到全样本测量,需要进行量化分析,这就是大数据的应用。

广电行业目前处于三网融合的大环境 中,在这个过程中不可避免地相互渗透和交叉,经营上互相合作、互相竞争,内容上出现了融合,内容的融合意味着数据的融合。目前电视媒体对受众调查分析的意识开始增强,但在实践中电视媒体并没有全面应用数据融合带来的海量受众数据信息。而IT、家电等外行将利用技术进入广电领域对电视媒体有一定的警示意义,但是对于拥有优质精心制作的媒资的电视媒体,若能抓住受众行为在大数据时代下的变化,将是大赢家。

参考文献:

数据分析的方法例9

一、数据挖掘及其作用

数据挖掘(Data Mining,DM),又称为数据库中的知识发现(Knowledge Discovery in Database,KDD),是指从大量数据中提取有效的、新颖的、潜在有用的、最终可被理解的模式的非平凡过程。它融合数据库系统、人工智能、统计学、机器学习、信息科学等,是一个新兴的多学科交叉应用领域[1]。简单地说,数据挖掘就是把存放在数据库、数据仓库或其他信息库中的大量的数据中“挖掘”或“找到”有趣知识的过程。近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用,包括行业监管、商务管理、生产控制、市场分析、工程设计和科学探索等。

有一个“尿布与啤酒”的故事,可以用来说明数据挖掘的作用。沃尔玛数据仓库里集中了其各门店的详细原始交易数据。沃尔玛在这些原始交易数据的基础上,利用数据挖掘技术方法对这些数据进行分析和挖掘。一个意外的发现是:跟尿布一起购买最多的商品竟是啤酒!经过大量实际调查和分析,发现美国的太太们常叮嘱她们的丈夫下班后到超市为小孩买尿布,而丈夫们中有30%~40%的人在买尿布的同时也为自己买一些啤酒。于是沃尔玛干脆将尿布与啤酒摆在同一个货架上,从而更方便了顾客,促进了销售。按常规思维,尿布与啤酒风马牛不相及,若不是借助数据挖掘技术方法对大量交易数据进行挖掘分析,沃尔玛是不可能发现数据内在这一有价值的规律的。那么,怎么样来挖掘数据呢?

二、常用的数据挖掘方法和应用举例

挖掘数据,简单来说就是要通过读活数据(传统方法)、知识运用(推理方法)、大海捞针(筛选方法)、专业软件(技术方法)等方法或手段,挖掘出有用数据。

(一)读活数据――传统方法

通过阅读政策、理论和报表数据,运用政策传导和理论根据,去挖掘数据背后的真实状况。在阅读的基础上,进一步计算比较基础数据的增加值、增长率和标准值等变化规律,及时发现各指标在运行过程中发生的突变情况。在阅读、比较的基础上进一步分析。

分析实例一,利率对银行的影响:2007年12月21日到2008年12月23日,央行连续4次下调基准利率,假设在银行存贷款总额不变的情况下,存、贷款余额和银行的利息收支变化情况如表一:

表一 利率对银行的影响

从银行的角度来看,当基准利率下调时,支付的存款利息和收到的贷款利息都会减少,而且在存贷比保持某个比例时,利差会增大,而不是通常人们认为的那样利差会减少。从消费者的角度来看,存款人少收的利息大于贷款人少付的利息,结果银行增加的收入来自存款人减少的收入。

(二)知识运用――推理方法

通过经济理论知识来实证当前社会经济的情况或预测世界经济可能会出现的情况。

分析实例二,用奥肯定律来分析我国的GDP和失业率之间的关系:萨缪尔森和诺德豪斯合著的《经济学》第16版456页确切表述,“按奥肯定律,GDP增长比潜在GDP增长每快2%,失业率上升1个百分点,公式表示为:失业率的变动=-(实际GDP的增长率-潜在GDP的增长率)/2”[2]。2008年,全年国内生产总值同比增长9.6%。2009年GDP增长8.7%,则实际下降0.9个百分点,根据奥肯定律来推测,失业率应上升0.45个百分点,达到4.65%。

分析实例三,GDP与固定资产投资的关系:通过用加速模型对中国1978~1997年数据进行检验,从而推断出那些以有效需求不足为假设前提的模型不能解释中国的现实。其次,以供不应求为特征的存量调整模型能较好地解释中国固定资产投资的决定因素。在正常年份,实际国内生产总值增长1%,合理的实际固定资产投资应增长1.85%[3]。即GDP增长一个点,约需要投资增长2个点。因此,用GDP与投资总量之间的这种理论关系,可以推算出非信贷投资总额。比如:2008年保山市GDP增长率为13.1%(G),从GDP增速倒推,与其相适应的投资增速应在26.2%左右,但本地银行贷款实际增长22.27亿元,增速仅为16.84%,少增9.36%,表明可能有其他资金投放在本地;年初贷款余额N=131.79亿元,S=N×G×2-M=131.79×13.1%×2-22.27=12.37亿元。表明外地资金在本地当年投放12.37亿元左右。

分析实例四,金融危机与菜农的关系:美国金融危机后?圯中国涉外企业十分困难,大多处于关停状态?圯大量农民工返乡?圯返乡后自己种蔬菜(再说也无法买到原来吃的蔬菜)?圯以往这些农民工日常消费的蔬菜没有人消费,形成消费链断裂?圯河南菜农的蔬菜卖不出去?圯河南菜农生产过剩。事实上,根据国新办于2009年2月2日上午10时举行新闻背景吹风会,离开本乡镇外出就业的农民工的总量大概是1.3亿人,大约有15.3%的农民工因全球金融危机而失去了工作,或者没找到工作。据此推算,全国大约有2000万农民工失去工作,或者还没有找到工作而返乡了。假设每个农民工日均消费1市斤蔬菜,返乡农民工有2000万,就意味着菜农每天有2000万斤蔬菜卖不出去。

(三)大海捞针――筛选方法

可以通过Excel的筛选命令,从众多的数据中筛选出需要的信息。

分析实例五,异地贷款统计:在《银行业非现场监管信息系统》中,没有对异地贷款信息专门统计,给异地贷款风险监管带来难度,可是,银行业《风险预警系统》给我们提供了丰富的客户信息资源。《风险预警系统》中包含了哪个银行在什么地方对哪个企业授信多少、发放贷款多少,以及现在贷款的质量怎么样等48项信息。当银行与企业不在同一个地方时,贷款就衍变为异地贷款,考察全省汇总数据,我们很快发现,可以用筛选方法,将异地贷款统计出来。方法是:分别用筛选命令,筛选出注册地在本地各县区的所有客户,并将其汇总在同一张Excel表中,再删除本地银行机构的客户信息,剩下的就是外地银行在本地客户的贷款信息。反之,也可以筛选出本地银行在外地客户的贷款信息。

(四)专业软件――技术方法

通过《银行业非现场监管信息系统》的查询方法和分析模型,进行“时间序列分析”和“同质同类比较分析”,可以挖掘出更多有用的监管信息;通过Excel中强大的函数库,可以获得更多的统计分析结果;通过《马克威分析系统》等专业分析软件,可以从海量信息和数据中寻找规律和知识,建立起概念模型,为决策者提供科学的决策依据。

分析实例六,2009年全国贷款总额预测:根据2002年至2009年一季度贷款余额和全年贷款总量,以及2010年一季度的贷款余额,可以用回归分析预测出2010年贷款总量。如表二所示:

表二 金融机构人民币信贷收支表(单位:亿元)

表中用回归分析预测函数FORECAST预测了2010年的全年贷款总量将达到47.9万亿元,FORECAST(x,known_y's,known_x's)中的x是2010年一季度贷款余额;known_y's是2003至2009年的贷款总量,是因变量;known_x's是2003至2009年一季度贷款余额,是对应的自变量。在本例中,函数表达式是FORECAST(B11,C3:C10,B3:B10)。

在表中,如果计算同比增加量,2010年全年同比增加贷款7.96万亿元左右。如果以时间作为自变量,全年各项贷款余额作为因变量,画出全年贷款余额折线图和三阶趋势线,我们发现,决定系统R2=0.997,接近于1,表示线性拟合程度较高。

考虑到出口减少,外汇储备下降,货币生成机制发生变化,企业更加依赖银行贷款等因素,贷款余额将远不止45万亿元,事实上,2010末贷款余额达到了50.9万亿元,这说明这个回归分析预测函数准确率还是很高的。

参考文献

[1]刘明亮.数据挖掘技术标准综述.计算机科学[J].2008年,(06):5.

数据分析的方法例10

所谓的交通事故预测是根据已发生交通事故的数据进行统计,在对事故原因进行分析的基础上,探寻事故规律,以针对交通事故做出更为合理的推测和判断。当前,交通事故预测方法相对较为多样,如回归分析、时间序列等,虽然都能对交通事故做出科学合理的决策性指导,但各具优缺点和适用条件,因而有关人员应在遵循交通事故预测思想的基础上,对几种主要预测方法进行分析,确保交通部门人员能够根据实际情况而合理选择交通事故预测方法。

1 交通事故预测思想

交通事故对人类造成的危害相对较大,对人类产生严重的威胁。从我国发展实践中可知,交通事故在一定程度上制约我国经济的发展进程,尤其对人类社会福利、医疗保险等方面的影响较大。据不完全统计,2015年全年间,我国交通事故约为10597358起,死亡人数约为68432人,财产损失高达10亿元以上。可见,交通事故威胁隐患相对较大。交通事故预测能够根据已发生交通事故进行统计、分析、处理,在遵循规律的基础上,对未来可能发生的交通事故作出科学合理的预测,该预测结果以科学逻辑推断为基础。就交通事故原因而言,道路环境、交通条件、车辆、驾驶员等都是影响因素。通过交通事故预测,我国交通部门人员能够对交通事故作出科学合理的判断和制定有效的预防策略,以最大限度降低和消除交通事故隐患。

2 交通事故主要预测方法

2.1 回归分析预测法

回归分析预测法在交通事故预测中的有效应用,主要分为线性回归和非线性回归两种方法。首先,背景交通工程研究所人员提出线性回归分析预测法,通过对自变量和因变量之间关系问题的探讨,对因变量趋势加以预测,其模型为:

Y=3577.79+93.3028lgX1+824.921lgX3+326.777lgX4+800.454lgX5-1149.051lgX6-224.902lgX8-45.0499lgX9-152.6081lgX10-287.191lgX11。

其中X1-X11分别表示临时人口、常住人口、机动车辆、自行车、道路长度、道路面积、灯控路口、交通标志、交通标线、失控部位、交警人数。

其次,英国伦敦大学SemeedR.J教授对欧洲国家十余载的交通事故资料进行研究,提出非线性回归分析预测法。对此,他建立幂函数曲线事故模型,

即:D=0.0003。其中D为交通事故死亡人数;N是机动车保有量;P为人口数量。

回归分析预测法能够对交通事故影响因素间的因果关系加以反应,以达到预测结果的目的,但对变化趋势的反应可能较为迟钝。该预测方法适用于样本量较大、数据波动小和极具规律性的预测实践中。

2.2 时间序列预测法

时间序列预测法主要有两种类型,分别为移动平均预测法和指数平滑预测法。首先,移动平均预测法是比较简单的平滑预测技术,通过计算项数时序平均值,对长期发展趋势变化做出科学合理的预测。内蒙古科技大学韦丽琴、徐勇勇利用时间序列ARIMA模型做出科学合理的预测分析,对交通事故加以预测。其次,指数平滑预测法的通式为:

Ft+1=αxt+(1-α)Ft

时间序列预测法属于定量预测方法,拟合效果良好,但在短期预测中,受诸多因素干扰影响较大,使预测结果具有不确定性。该方法适用于国内县区等区域范围较小的预测实践中。

2.3 灰色马尔科夫链预测法

道路交通系统属于动态时变系统,但影响交通安全的因素多且复杂。在灰色马尔科夫链预测法的指导下,相关人员能够通过灰色预测模型,做出短期预测,以缩小预测区间,提高预测效率。云南交通职业技术学院王刚对灰色马尔科夫链预测法而建立模型,对交通事故进行预测,根据实践可知,基于该模型的预测精确度十分高,取得良好的预测成效。

灰色预测以短期预测为主,马尔科夫链预测以长期预测为主,通过二者结合,可提高预测精度,但如若数据变化大,则灰色模型的吻合度和精度下降。借助该预测方法,能够对状态下的转移规律加以预测,并揭示交通事故时序变化总趋势。

2.4 贝叶斯预测法

贝叶斯预测法主要相对于交通事故中的车速问题而言。在交通事故中,车速是重要影响因素,如若车辆速度过快,则驾驶员反应的时间较少,其应急策略不足,造成重大交通安全隐患。贝叶斯预测法能够对未来交通事故发生的可能性进行预测。该预测方法应用中,必须建立在交通事故和车速有关联的基础之上,有助于交通部门人员更好开展数据统计和交通流进行观测。

2.5 灰关联分析及神经网络预测法

就灰关联分析及神经网络预测法而言,哈尔滨工业大学交通研究所和中国城市规划设计研究院的裴玉龙与张宇提出该方法,旨在通过交通事故影响因素分析,对事故进行进一步解析,并建立合理的模型理论和确定预测指标,对未来交通事故发展趋势加以预测。该预测方法的适应性较强,在我国交通事故预测工作实践中有着较为有效的运用,可解决传统预测方法难以解决的问题,建立在BP网络基础之上,并利用计算机开展辅计算活动。

2.6 多层递阶预测方法

多层递阶预测方法能够规避传统统计预测方法的缺陷,以现代控制理论“系统辨识”为重要基础,对对象的未来状态做科学的预测。动态系统数学模型为:y(k)=。在交通事故预测中,多层递阶预测方法是大数据时代背景下的重要处理方式,有利于增强预测效果。

3 结论

交通部门对交通事故进行合理的预测,有利于提高道路交通系统的安全系数。所以,相关人员合理选择交通事故预测方法具有必要性,为规避交通事故而做出科学合理的决策。目前,使用较多的交通事故预测方法主要有:回归分析预测法、时间序列预测法、灰色马尔科夫链预测法、贝叶斯预测法、灰关联分析及神经网络预测法等,因其各具优缺点和适用条件,因而要求相关人员必须对系列问题进行深入探究,确保公路交通事故预测的有效性。

参考文献

[1]李景文,高桂清.交通事故预测分析[J].中国安全科学学报,2015,6(01):20-23.

[2]刘志强.道路交通事故预测方法比较研究[J].交通与计算机,2013,19(05):7-10.