期刊在线咨询服务,发表咨询:400-888-9411 订阅咨询:400-888-1571股权代码(211862)

期刊咨询 杂志订阅 购物车(0)

数据分析方法模板(10篇)

时间:2024-01-10 14:58:46

数据分析方法

数据分析方法例1

(1)现状分析:告诉你过去发生了什么;

(2)原因分析:告诉你为什么发生了;

(3)预测分析:告诉你将来发生什么。

明确数据分析这三大作用后,那么大家是否思考过这三大作用都要通过什么方法来实现呢?现在我们就来看看数据分析三大作用都需要用哪些数据分析方法来实现。这三大作用基本可分别对应对比、细分、预测三大基本方法,每个基本方法都有相应具体的数据分析方法,如对比基本方法下有对比分析、分组分析、结构分析、交叉分析、矩阵分析、综合评价分析等,这些方法核心关键词都是对比。下面我们就来学习这几个常用的分析方法。

对比分析法

第一个数据分析方法就是对比分析法。它可是数据分析的基本方法之一。对比分析法,是指将两个或两个以上的数据进行比较,分析它们的差异,从而揭示这些数据所代表的事物发展变化情况和规律性。对比分析的特点是:可以非常直观地看出事物某方面的变化或差距,并且可以准确、量化地表示出这种变化或差距是多少。

对比分析法可分为静态比较和动态比较两类。

(1)静态比较是在同一时间条件下对不同总体指标的比较,如不同部门、不同地区、不同国家的比较,也叫横向比较,简称横比。

(2)动态比较是在同一总体条件下对不同时期指标数值的比较,也叫纵向比较,简称纵比。

这两种方法既可单独使用,也可结合使用。进行对比分析时,可以单独使用总量指标、相对指标或平均指标,也可将它们结合起来进行对比。比较的结果可用相对数表示,如百分数、倍数等指标。

目前对比分析常用的有以下几个维度:

(1)与目标对比。实际完成值与目标进行对比,属于横比。例如每个公司每年都有自己的业绩目标或计划,所以首先可将目前的业绩与全年的业绩目标进行对比,看是否完成目标。

(2)不同时期对比。选择不同时期的指标数值作为对比标准,属于纵比。与去年同期对比简称同比,与上个月完成情况对比简称环比。通过对比自身在不同时间点上的完成情况,就可知道自身是进步还是退步。

(3)同级部门、单位、地区对比。与同级部门、单位、地区进行对比,属于横比。这样可了解自身某一方面或各方面的发展水平在公司、集团内部或各地区处于什么样的位置,明确哪些指标是领先的,哪些指标是落后的,进而找出下一步发展的方向和目标。

(4)行业内对比。与行业中的标杆企业、竞争对手或行业的平均水平进行对比,属于横比。同样我们也可了解自身某一方面或各方面的发展水平在行业内处于什么样的位置,明确哪些指标是领先的,哪些指标是落后的,进而找出未来发展的方向和目标。

(5)活动效果对比。对某项营销活动开展前后进行对比,属于纵比。做这样的比较可以分析营销活动开展得是否有效果,效果是否明显;还可对企业投放广告的前后业务状况进行对比分析,了解投放的广告是否有效果,如品牌知名度是否提升、产品销量是否有大幅增长等。

对比分析的维度不限于以上5点,这里只是列出常用的5种维度,当然还有其他维度,可根据自己的实际情况采用不同的维度进行对比分析。

进行对比分析时还要考虑以下几点因素:

(1)指标的口径范围、计算方法、计量单位必须一致,即要用同一种单位或标准去衡量。如果各指标的口径范围不一致,必须进行调整之后才能进行对比。没有统一的标准,就无法比较。例如600美元与3000元人民币就无法直接比较,需要根据当期的汇率进行换算后才可进行比较,否则不具有可比性。

(2)对比的对象要有可比性。例如不能拿广州市与华西村、美国与亚洲进行对比。总之对比对象之间相似之处越多,可比性就越强。因此,我们在选择和确定对比对象时,一定要分析它们是否具有对比的意义。

(3)对比的指标类型必须一致。无论绝对数指标、相对数指标,还是其他不同类型的指标,在进行对比时,双方必须统一。例如2012年广州的GDP值与2012年深圳GDP增长率,是无法进行对比的。

分组分析法

数据分析不仅要对总体的数量特征和数量关系进行分析,还要深入总体内部进行分组分析。分组分析法是一种重要的数据分析方法,这种方法是根据数据分析对象的特征,按照一定的标志(指标),把数据分析对象划分为不同的部分和类型来进行研究,以揭示其内在的联系和规律性。

分组的目的就是为了进行组间对比,是把总体中具有不同性质的对象区分开,把性质相同的对象合并在一起,保持各组内对象属性的一致性、组与组之间属性的差异性,以便进一步运用各种数据分析方法来解构内在的数量关系,因此分组分析法必须与对比分析法结合运用。

分组分析法的关键在于确定组数与组距。在数据分组中,各组之间的取值界限称为组限,一个组的最小值称为下限,最大值称为上限;上限与下限的差值称为组距;上限值与下限值的平均数称为组中值,它是一组变量值的代表值。

结构分析法

结构分析法是指研究总体内各部分与总体之间关系的分析方法,即总体内各部分占总体的比例。一般某部分的比例越大,说明其重要程度越高,对总体的影响也就越大。例如通过对国民经济的构成分析,可以得到国民经济在生产、流通、分配各环节占国民经济的比重,或是各部门贡献比重,揭示各部分之间的相互联系及其变化规律。

结构分析法的优点是简单实用,在实际的企业运营分析中,市场占有率就是一个非常经典的应用。

交叉分析法

交叉分析法通常用于分析两个或两个以上分组变量(字段)之间的关系,以交叉表形式进行变量间关系的对比分析,所以也叫交叉表分析法。交叉表当然也有二维以上的,维度越多,交叉表就越复杂,所以在选择几个维度的时候需要根据分析的目的决定。

交叉分析的原理就是从数据的不同维度综合进行分组细分,以进一步了解数据的构成、分布特征。

矩阵分析法

矩阵分析法是指根据事物(如产品、服务等)的两个重要属性(指标)作为分析的依据,进行分类关联分析,进而找出解决问题的一种分析方法,也称为矩阵关联分析法,简称矩阵分析法。

矩阵以属性A为横轴,属性B为纵轴,组成一个坐标系,在两坐标轴上分别按某一标准(可取平均值、经验值、行业水平等)进行刻度划分,构成4个象限,将要分析的每个事物对应投射至这4个象限内,进行交叉分类分析,直观地将两个属性的关联性表现出来,进而分析每一个事物在这两个属性上的表现,因此它也称为象限图分析法。

综合评价分析法

综合评价分析法是针对事物不同方面的数量特征,运用数学、统计等方法,得出综合数量水平的一种分析方法。综合评价分析法的基本思想是将多个指标转化为一个能够反映综合情况的指标来进行分析评价。如不同国家的经济实力,不同地区的社会发展水平,各企业经济效益评价、企业内各员工绩效评价等,都可以运用这种方法。进行综合评价分析,主要有5个步骤:

步骤1:确定综合评价指标体系,即包含哪些指标;

步骤2:收集数据并进行不同计量单位的数据标准化处理;

步骤3:确定指标体系中各指标的权重;

步骤4:对经过处理后的指标进行汇总计算综合得分;

数据分析方法例2

中图分类号:P208 文献标识码:A 文章编号:1672-3791(2016)02(a)-0003-04

Abstract:In view of the problems of the social survey data processing and analysis, this paper establishes the mathematical model of three dimensional matrix which is based on the three dimensional matrix.On the basis of the established three dimensional matrix model,we can use the properties of three dimensional matrix to deal it with a variety of mathematical methods, and use the hypergraph theory for further analysis. This enriches the method of the survey data processing greatly.

Key Words:Social survey data;Three-dimension matrix;Hypergraph

社会调查是了解各方面信息的重要途径之一,社会调查数据主要是通过调查问卷的方法得到的。由于社会调查数据的维数较高,加上人为主观因素,数据类型主要为二元变量、离散变量、序数变量等为主,所以对于社会调查数据的分析和处理大都基于统计学,只对单一题目进行统计学分析,其分析方法主要是基于题型进行处理的,对于题目和题目之间的关系很少关心[1]。许多数据挖掘算法因为种种限制无法在社会调查的数据分析中得到应用。因为方法的限制,所以现在很多社会调查只能验证事先想好的内容和假设,很少可以对高维数据进行相对复杂的回归分析处理。

根据以上存在的问题,该文建立了基于三维矩阵的数学模型,将单选题、多选题和排序题用向量形式进行表示,每一题定义为空间中的一个维度,从而所有的题目就可以构成一个N维空间。每份问卷的信息用一个M×N矩阵表示。这样表示可以将所有问卷内容当作一个整体,作为后续算法的基础。

1 社会调查数据的特点

通常情况下,社会调查数据特点如下。

(1)相关性。对于一个样本个体而言,它具有本身的多个特征,这些特征之间就具有一定的相关性。对于多个样本而言,个体与个体的特征之间具有相关性。如果样本随时间而变化,那么该样本在不同时刻的特征之间又具有相关性。因此,由于上述多个原因使得社会调查数据具有了复杂的相关性,传统的统计学调查难以解决这样的问题。

(2)离散性。因为社会调查数据是通过自填式问卷、网络调查数据库等方法得到,所以社会调查数据一般以离散变量为主,且这些数据之间只有标示作用,并没有严格的逻辑关系。

(3)模糊性。社会调查数据当中不可避免的会接触到各种表达方式和概念,因此,它具有模糊性。

因为由自填式问卷或结构式访问的方法得到的社会调查数据具有以上特点,所以在实际应用中基于统计学的处理方法只能笼统的显示数据的部分特性,如频数、离散程度等[2]。对于数据之间的关系只能分析出维数极少的大致的关系。

而且利用软件进行数据挖掘时,因为现有的软件中的数据挖掘算法对于数据类型和格式要求较高,所以能应用到的数据挖掘算法很少。就算是数据要求较低的关联分析,其结果也存在大量的冗余。因此,我们需要建立一个合适的社会调查数据的数学模型来完善原先的方法并使跟多的数据挖掘方法可以运用到其中,使得结果更准确。

2 社会调查数据的建模

研究中我们发现,三维矩阵可适用于社会调查数据的建模。

2.1 三维矩阵的定义

三维矩阵的定义:由n个p×q阶的矩阵组成的n×p×q阶的矩阵A称为三维矩阵,又称立体阵。Ak,i,j表示三维矩阵A的第k层,第i行,第j列上的元素。其中n,p,q分别表示三维矩阵的高度,厚度和宽度。

2.2 三维矩阵模型的建立

调查问卷的题目一般有三种类型:单选题、多选题和排序题。这三类题目都可以表示成向量的形式,其中每一道单选题、多选题可以表示成一个向量,排序题可以表示成多个向量组成的矩阵。对于单选题和多选题,可以按选项的顺序可以表示成一个向量,其中选中的项用“1”表示,未选中的项用“0”表示。对于排序题,可以表示成一个n×n的方阵,其中n表示该排序题的选项个数,。这样,每一题就可以定义为空间中的一个维度,从而所有的题目就可以构成一个N维空间。每份调查问卷的信息用一个M×N矩阵表示(M为题目的最大选项数),其在每一维上的选择称之为一个元素,这样每份问卷的信息就包括了N个元素。以第1,2,3题数据为例,其中第1题为单选题选择“B”,用向量表示为一个元素,第2题为多选题选择“ACE”,用向量表示为一个元素,第3题为排序题顺序为CBADEFIHG,用矩阵表示,每一个列向量是一个元素,如图1所示。

那么,假设有一问卷信息用一个大小为M×N的矩阵表示。K份的问卷信息就可以用K个大小为M×N的矩阵表示。将这K个矩阵叠加,形成一个三维矩阵。这个三维矩阵就是我们建立的三维矩阵数学模型,如图2所示。

在图2中我们看到,该三维矩阵数学模型有三个坐标轴,它们分别是题目,人数,选项。题目轴以每一道题为一个单位;人数轴以每一份问卷为一个单位;选项轴的刻度为A,B,C,D,E,F等题目选项,其个数为该调查问卷中选项最多的题目的选项个数。

在此基础之上,这样的三维矩阵具有以下性质。

(1)在题目轴中选取对应的题目,将三维矩阵面向竖切得到截面1(如图2中01所示),截面2表示每一道题所有人选择的信息。

(2)在人数轴中选取对应的人,将三维矩阵横切得到横截面1(如图2中02所示),横截面1表示对应的人选择所有题目的信息。

在得到三维矩阵后,可对它进行像素化处理,置1的元素用黑点代替,置0元素的则空白,在得到像素化三维矩阵后我们可以将三维矩阵沿着人数维度上向下投影,这样就可以得到一个具有浓黑不一的点的平面。通过这些点的浓度,可以知道每一选项选择的人数。接下来我们可用灰度级表示点的浓度,筛选出浓度大于一定程度的点,在此基础上进行后续算法处理。

上述三维矩阵数学模型具有数学三维矩阵的所有性质,可依据调查问卷的需求进行转置,加权、相乘、筛选等数学处理,另外在数学处理的基础上,采用超图理论可以大大丰富了调查问卷的处理方法。

3 基于超图算法的调查问卷分析技术

超图是离散数学中重要的内容,是对图论的推广[3]。超图是有限集合的子系统,它是一个由顶点的集合V和超边集合E组成的二元对,超图的一条边可以有多个顶点的特性,这与一般的图有很大不同。超图分为有向超图与无向超图两类,在无向超图的每条超边上添加方向后得到的有向二元对就是有向超图。超图在许多领域有广泛的应用。

大家可以利用无向超图表示每一道题的选择情况,先将这每一题的每一个选项设成一个节点,然后将三维矩阵从上向下投影,如果某一题的若干个选项同时被一个人选择,就用一条超边包围这些节点,那么选这些选项的人越多,投影得到的超边就越浓。这样就用超图表示了问卷中每道题的信息,可以进行聚类处理。

利用有向超图,可以将关联规则表示成有向超图的形式,在得到了关联规则后,设实际中得到的关联规则的形式为:,前项和后项都是由多个项组成的集合。该文定义一条关联规则由一条有向超边表示,有向超边的头节点表示关联规则的前项,有向超边的尾节点表示关联规则的后项。每条有向超边的头节点和尾节点均可以为多个,如此便成功表示了复合规则,从而可以使用相关算法进行冗余规则检测。

通过基于有向超图的冗余规则检测就可以将关联规则之间存在着的大量冗余检测出,减少挖掘资源的浪费,从而增加了挖掘结果的有效性。

传统的聚类方法都对原始数据计算它们之间的距离来得到相似度,然后通过相似度进行聚类,这样的方法对于低维数据有良好的效果,但是对于高维数据却不能产生很好的聚类效果,因为高维数据的分布有其特殊性。通过超图模型的分割实现对高维数据的聚类却能产生较好的效果。它先将原始数据之间关系转化成超图,数据点表示成超图的节点,数据点间的关系用超边的权重来表示。然后对超图进行分割,除去相应的超边使得权重大的超边中的点聚于一个类中,同时使被除去的超边权重之和最小。这样就通过对超图的分割实现了对数据的聚类。具体的算法流程如下。

首先,将数据点之间的关系转化为超图,数据点表示为超图节点。如果某几个数据点的支持度大于一定阈值,则它们能构成一个频繁集,就将它们用一条超边连接,超边的权重就是这一频繁集的置信度,重复同样的方法就可以得超边和权重。

然后,在基础此上,通过超图分割实现数据的聚类。若设将数据分成k类,则就是对超图的k类分割,不断除去相应的超边,直到将数据分为k类,且每个分割中数据都密切相关为止,同时保持每次被除去的超边权重和最小,最终得到的分割就是聚类的结果。

如图3所示是基于超图算法的选题型调查问卷的分析技术的流程图,主要包括4个主要部分,一是用向量表示调查问卷结果,二是将向量表示的调查问卷转化为三维矩阵数学模型表示调查问卷结果,三是使用超图算法进行优化,四是根据要求显示调查问卷结果。

4 结语

该文针对社会调查数据处理与分析中存在的问题,建立了基于三维矩阵的数学模型,将单选题和多选题表示成向量,将排序题表示成多个列向量,从而每一题可以表示成空间的一个维度,每一个向量就是一个元素,这样每一张问卷就可以表示成一个矩阵,通过将多个矩阵叠加就可以得到三维矩阵。该数学模型可以利用三维矩阵的性质对其进行多种数学处理,如竖切、横切、像素化后投影等。在数学处理的基础上,该文又提出超图理论对数据进行聚类和检测冗余规则的分析。

参考文献

[1] 陈慧萍,王煜,王建东.高维数据挖掘算法的研究与进展[J].计算机工程与应用,2006(24):170-173.

[2] 张东.基于VFP的调查问卷通用统计汇总生成系统的设计与实现[J].科技资讯,2006(10):183.

[3] 奚维吉.用户满意度调查的数据处理[J].科技资讯,2007(8):253-254.

[4] 崔阳,杨炳儒.超图在数据挖掘领域中的几个应用[J].计算机科学,2010,37(6):220-222.

[5] 朱玉全,杨鹤标,孙蕾.数据挖掘技术[M].南京:东南大学出版社,2006.

[6] 王志平,王众托.超网络理论及其应用[M].北京:科学出版社,2008.

[7] Jong Soo Park,Ming-Syan Chen,Philip S.Yu.Using a hash-based method with transaction trimming for mining associationrules [J].IEEE Transactions on knowledge and engineering,1997,9(5):813-825.

[8] 王海英,黄强,李传涛,等.图论算法及其 MATLAB实现[M].北京航空航天大学出版社,2010.

[9] H.Toivonen. Sampling large databases for association rules [C]// Proc. 1996 Int. Conf. Very Large Data Bases (VLDB'96).1996.

[10] Marco Dorigo, Vittorio Maniezzo, Alberto Colorni. The ant system: optimization by a colony of cooperative agents [J].Physical Review Letters,1995,75(14):2686-2689.

数据分析方法例3

虽然对我国GDP统计数据的各种评论中存在一些不实的言论,但也有不少是基于科学和客观的研究。

综观近十年来对我国GDP核算的讨论,从中外学者评判我国GDP统计数据质量的方法看,主要有以下几种:一是一致性分析方法,即选取一些重要经济指标,如能源消费、客运货运量等来看它们和GDP之间的变动是否一致,从而判断GDP增长率是否真实;二是运用一些方法直接对产出进行测算,如运用实物产出指数、全要素生产率等方法直接对产出及增速进行测算;三是分析计算不变价GDP时价格调整方法是否合理;四是分析GDP统计覆盖范围是否全面;五是从统计制度或政治制度方面找原因。

辨析这些不同方法与观点,有助于我们不断完善当前的GDP统计方法,为把控宏观经济走向提供更精准的判断依据。

方法一:用一致性分析方法判断GDP高估或低估

这是经常被用来判断GDP统计数据是否可信的方法。最有代表性的是美国匹兹堡大学教授托马斯・罗斯基(Thomas Rawski)的分析。罗斯基认为,中国能源使用、城市就业、消费价格指数和经济增长指数不一致;生产数据之间以及生产数据与投资数据之间不一致;社会消费品零售额与人均消费支出、住户收入增长之间不一致,因此,中国的GDP不可信。

他指出,中国GDP增长的上限值应该是航空客运量的增长率,因为乘坐飞机的人是中国人口中最富有的,他们的收入比一般人增长得快。1997年-1998年国内航线的旅客周转量增长2.2%,因此,中国1997年-1998年GDP增长的上限是2.2%。

对于罗斯基的方法有不少人提出了质疑。任若恩(2002)认为,罗斯基的观点建立在假设经济增长率与能源增长率大致相等及官方能源数据是准确的基础上,但日本、韩国、德国、英国和美国的情况证明,经济增长率与能源增长率应该大致相等的假定并不成立。

任若恩对罗斯基提出的经济增长上限观点也提出了不同看法。他认为:第一,航空客运在交通中的份额低,交通在国民经济中的份额也不高;第二,通过1983年-2000年客运周转量增长率和GDP的比较,证明它们之间的关系并不紧密。张新、蒋殿春(2002)也对罗斯基的方法提出了疑问,并证明能源的生产与消费均与GDP没有直接关系,就业增长和GDP增长也是一种无序的关系。

另外,也有分析认为,中国在能源和航空客运量统计等方面存在缺漏(Holz,2007)。这说明用能源或运输的数据来评价GDP统计数据的方法并不十分可靠。

尽管如此,在罗斯基之后还有不少学者或机构用类似的方法分析我国GDP数据的可靠性。如2009年一些国外学者认为,2008年四季度GDP增长6.8%的统计数据与发电量和工业产出连续下降的情况不相符;中国2009年第一季度GDP同比增长6.1%的数据与当季石油需求下降3.5%的情况不符合,与异常疲软的电力需求不吻合,因此GDP增长存在高估,这与有些学者质疑1998年亚洲金融危机期间我国GDP高估的逻辑类似。

刘伟、蔡志洲(2009)对我国工业电力消耗与工业增长之间的关系、工业增长和经济增长之间的关系进行了分析,认为根据发电量和工业增长下滑来否定我国经济增长是站不住脚的。张永军(2009)认为,工业结构的变化,尤其是高电耗产品产量下降是造成电力消耗量下降的主要原因。同时,替代能源的采用也是工业用电量减少的原因之一。

方法二:直接对产出进行测算

孟连、王小鲁(2000)用168种工业产品产量的实物量数据估计工业增长率,结果显示1991年-1997年国家统计局公布的工业增加值增长率高估了4个百分点以上;他们还运用生产函数法计算了全要素生产率,得出1992年-1997年全要素生产率从2.5%跃升到7.3%,认为这是不可信的,通过排除法可知,这一段时期的GDP被高估了约2.5个百分点。

但任若恩(2002)认为,孟连和王小鲁通过实物量数据计算工业增加值的研究缺乏必要的透明性,研究过于粗糙,还没有考虑到增加值率的变化问题。他分析,通过全要素生产率的超常增长来判断经济增长率是否真实的方法是完全不能接受的,因为全要素生产率增长率的计算既取决于所使用的方法,也取决于所使用的数据,两个因素的结合可能产生非常不同的估计结果,不同的全要素生产率也可能是由其他因素的变化引起,不能由此认定是产出的数据出现问题;试图用全要素生产率增长率的异常来分析产出增长率的误差,是没有任何科学依据的,其逻辑也是颠倒的。

伍晓鹰(Wu,2002)利用实物产出指数(physical output index)方法说明,中国官方关于工业增加值的统计夸大了实际GDP的增长率。伍晓鹰利用117种产品的数据,详细分析了制造业、冶金业以及公用事业产值年度增长情况,认为1952年-1978年和1978年-2003年,中国工业的平均增长率分别为10.1%和9.75%;而政府公布的同期数据分别为11.5%和11.5%。

计量比较经济史家安格斯・麦迪森(Angus Maddison,2006)将自己对中国农业和服务业数据的研究和伍晓鹰(2002)对中国工业产值的估计结合起来,通过将GDP名义价值转换为以1990年为基期的国际元(International dollar,又称吉尔里-哈米斯元(Geary-Khamis dollar),在特定时间与美元有相同购买力的假设通货单位。常用1990年或2000年作基准,与其他年份作比较。国际元由罗伊・C・吉尔里于1958年提出,萨利姆・汉纳・哈米斯于1970年-1972年发展而成,基于通货购买力平价(PPP)和商品国际平均价格建立。国际元和国际汇率皆可用作比较各国人均国内生产总值,(不过在比较各地生活水平时,国际元比国际汇率更准确),得出中国1990年至2003年间GDP平均增长率为7.9%,低于国家统计局公布的1992年至2004年年均增长9.9%的增长率。

但香港科技大学教授卡斯腾・霍尔茨(Carsten Holz, 2004,2006)对伍晓鹰和麦迪森的方法持强烈反对态度。他认为,计算一个规模庞大而且发展迅速的经济体的GDP本身存在困难,要识别统计局数据中的系统性偏差或者另外得出令人信服的估算结果也不容易。

他对伍晓鹰的方法的具体批评包括:假定投入产出技术不变和固定的增加值率的方法存在问题;低估了产出质量的改进,因而导致对真实工业增长的估计存在下偏误差。伍晓鹰之后一直在改进方法,但并没有直接计算GDP增长率。

方法三:分析价格调整方法是否合理

不少人认为,国家统计局在计算实际GDP增速时使用的价格调整方法不当也是高估GDP的重要原因。德怀特・帕金斯(Dwight H. Perkins,1988)、艾尔伯特・凯德尔 (Albert Keidel,1992)、胡永泰(1996)和麦迪森(1998)认为,用可比价格核算GDP平减指数未能充分反映价格的实际增长程度。这种做法低估了通货膨胀水平,进而高估了GDP增速。胡永泰(1998)和伍晓鹰(1998)也认为,中国的官方统计由于低估GDP平减指数而高估了实际GDP增速。任若恩(1997)用价格指数缩减方法得出,1986年-1994年GDP增长率高估了3.8个百分点;麦迪森(1998)用生产指数法得出,1978年-1994年GDP增长率高估了2.4个百分点,他在2001年的分析中认为1995年-1998年GDP增长率高估了2.1个百分点;伍晓鹰(2002)用生产指数法得出,1978年-1997年工业增加值高估了3.3个百分点。

近些年来,虽然国家统计局调整了核算不变价GDP的方法,但不少研究仍指出,价格指数不完善,影响了GDP不变价核算的准确性,如没有编制服务业生产者价格指数和服务贸易价格指数,金融业增加值的价格指数缩减方法还可以优化(孙天琦,2011)。

伍晓鹰(2007)认为,在新的产品和服务问世初期,其价格相对较高;随着服务业产品和服务的成熟,其价格会迅速回落。由于国家统计局无法对服务业价格的这一变化过程进行适当、合理的调整,服务业增加值被低估了。伍晓鹰提出,2004年经济普查中没有考虑价格因素,所有生产和收入等数据均是时点数据和名义变量,这就导致GDP增值率的修正没有将价格缩减指数考虑在内,具有相当大的武断性。

方法四:分析GDP统计覆盖范围是否全面

一些研究者认为,规模以下工业企业的增加值没有全部纳入GDP之内。但讨论得最多的是服务业增加值被低估的问题。麦迪森和伍晓鹰指出,传统的物质产品平衡表体系(MPS)下,银行、保险、住房服务、不动产管理、社会服务、医疗、教育、娱乐、私人服务、研发、军事、警察、党政机关等“非物质资料服务业”被排除在“物质服务业”之外。虽然这些项目目前已经被纳入国民经济核算范围内,但官方对这部分增加值的统计尚缺乏必要的透明度。伍晓鹰(2007)还指出,1992以来,新兴的服务产品和服务业层出不穷,这些新的产品和服务未能及时纳入GDP核算范围内。

汤姆・奥尔利克(Tom Orlik,2011)认为,两次经济普查后,服务业增加值得到了大幅度提高,这表明国家统计局在服务业产值统计方面做得越来越好。但是,低估服务业产值仍然是中国在国民经济核算方面面临的最严重的方法论问题。

还有人指出其他方面存在的低估问题。宋小川(2007)认为,现行GDP统计方法没有包括非市场经济、地下经济和闲暇活动;低估了中国劳务等产业创造的价值及其增长潜力;无法追踪企业在技术革新、产品设计、品牌打造和员工培训这些无形资产方面的投资;忽略了中国经济中迅速增加的知识经济成分,特别是教育投资成分。因此,中国的实际经济总量及其增长率,特别是增长潜力要远高于官方的统计数字。

亚洲开发银行(2007)认为,中国GDP核算体系事实上低估了实际GDP的数据,主要表现在以下几个方面:首先没有统计软件支出;其次,没有对国有的道路、桥梁、大坝以及灌溉系统等固定资本消费进行统计;第三,利用初始价格(acquisition prices)而非当前市场价格(current market prices)进行价值评估;第四,没有考虑家庭住房的房产价值及其升值部分。

但蒋萍(2008)认为,中国的GDP不仅包括了非市场生产活动,而且所占比重并不低;GDP不包括无酬家务劳动不是中国的错,联合国国民经济核算体系中规定,GDP不包括无酬家务劳动;中国的GDP不仅包括地下生产,也有可能包括了非法生产。她认为地下生产确实存在统计不全面的问题,但这是漏算的问题,不是规则问题。

蒋萍分析,支出法GDP大于生产法GDP的原因很多,其中之一很可能与非法生产有关,GDP支出额包括了用非法收入购买的货物和服务,而生产法未包括非法生产的生产额。

方法五:分析统计制度或政治原因对GDP统计的影响

奥莱克桑德・莫夫夏克(OleksandrMovshuk, 2002)的观点具有代表性。

他指出,中国GDP被高估的原因有两个方面:(1)政府政绩评估体系使GDP容易被高估;(2)中国国民经济统计采取的国家和省两级核算体制也使国家统计局无法有效保证GDP核算的独立性。

霍尔茨(2003)认为,国家统计局不可能在主观上故意公布不准确的GDP统计数据,中国GDP统计数据质量欠佳主要是因为中国的统计体系是从MPS转换而来的,要做到完全按照国际SNA标准核算GDP还需要很长时间,这在客观上导致中国的统计数据质量欠佳。

许宪春(2009)认为,我国GDP实行分级核算方式,是导致国家与地区之间GDP差异的原因之一。国家统计局已采取很多措施,但问题尚未得到根本解决。有必要加强统计法制建设,加大统计执法检查力度,减少地区GDP数据人为因素的干扰,并对地区GDP核算方式进行改革,逐步采取地区GDP统一核算方式,即国家统计局直接计算或组织部分省区市统计局统一计算各地区GDP数据,逐步实现地区与国家GDP数据的一致性。

评论与建议

以上分析和评价中国GDP统计数据质量的方法,从不同的角度探讨了影响我国GDP统计数据质量的原因,有些还对GDP总额或增加值进行了估计或测算,还有的提出了改进GDP核算的方法。

这些分析方法都是很有价值的。

一致性分析方法有助于我们更加清晰地了解经济指标间的联系以及经济结构的变化,能促进我国统计体系的完善和指标间平衡关系的改善。直接测算产出和对价格调整方法进行研究,可以为我国改进GDP核算技术提供参考和借鉴。关于GDP统计范围是否全面、统计制度与政治原因对GDP统计的影响的分析则有助于我国进一步完善GDP核算制度。

尽管每一种方法都有合理性,但也都存在局限。如一致性分析方法常常被用来判断GDP数据是否真实,但这种方法必须建立在作为参照的数据是真实可靠的基础上,如果我们怀疑GDP统计的真实性,那么又如何保证作为参照的数据的可靠性呢?

另外,指标之间的相关关系往往是一种长期关系,在短期内不可能是简单的一一对应关系;并且,在结构发生变化或经济面临外部冲击时,经济中某些指标之间的关系会发生变化,就不能用一致性分析方法判断GDP数据是否真实。

数据分析方法例4

1.介绍

随着信息化应用的推广,大型机构中信息系统的数量在逐渐增多。但由于各系统数据规范不完整、系统间缺少数据接口,而使数据整合工作成为IT部门的一项重要工作;关于数据整合的重要性、数据整合的工具有很多论著[1-5]。数据整合包含了数据的提取、转换和加载,其中涉及计算机技术和业务逻辑。数据整合是非常重要的,甚至会影响信息系统/数据仓库建设的成败。一个对象存储在多个系统中,使得在数据整合的过程中必须要进行数据的比对,而且,此时的数据比对工作也是数据整合的核心内容。

每个系统对同一对象的理解角度不同,因此给出的对象定义也不相同;同时考虑数据的完整性,数据的时间局限性等导致数据的比对工作并不顺利。数据比对一般由计算机程序自动处理,后期则需要人工参与。涉及到数据比对的数据整合存在于诸多信息系统建设过程中,如国家基础信息库系统的建设;人口库数据分别来源于公安局、劳动局、教育局、劳动和社会保障局等,法人库数据来源于工商局、税务局、经委等;地理信息资源库来源于规划局、房地局、水务局、建管局、交管局等。

本文先定义了一种以主数据定义和分析主数据流为主线的数据比对方法。结合实际项目案例给出具体比对过程。

2.数据比对过程和方法

本文介绍的数据比对方法,以原因分析为重点,强调不匹配数据的原因分析并结合业务逻辑,对历史数据和增量数据给出整改方法。

数据比对的过程可以分为以下7个步骤分别是:数据获取、主数据定义、主数据流分析、程序比对逻辑、人工比对逻辑、原因分析、处理建议。

2.1 数据获取

从两个(或多个)源系统中获得待比对的原始数据。需要注意的是每个信息系统均为运行的系统,数据会产生变化。因此应该首先统一数据获取的时间。如获取截止到2008年10月1日24:00止的数据。并对该时间点之后的增量数据做标记,以备后续的数据比对。

2.2 主数据定义

按照新系统或数据比对的业务要求,定义比对的关键数据项(数据字段)。确定这些数据项的含义、来源(以哪个系统数据为准)、在各自系统中的名称、各自系统中对应的数据项(数据字段)。此步骤是数据比对工作的核心部分,需要明确关键数据项的来源和责任。如对于人口数据:姓名和身份证号码来源于公安局,教育程度来源于教育局,就业单位信息来源于劳动和社会保障局等。

在定义好主数据之后,需要视具体应用系统情况而定,对原始数据进行数据清洗。以便剔出非法数据,降低人工比对的工作量和提高数据比对的成功率。数据清洗工作一般由计算机程序进行。

2.3 主数据流分析

根据具体的业务逻辑和业务流程,确定所有主数据在相关信息系统中的生命周期。需要明确以下内容:

(1)主数据的责任部门或责任人:是谁在何时创建、修改、交换或删除主数据;

(2)主数据的相关系统:相对于主数据生命周期的每个阶段,分别在哪个信息系统中保存,系统间接口关系。

(3)主数据流与业务流程的关系:新增流程、修改流程、删除流程对主数据的影响。

本步骤主要是关注主数据的修改记录。

2.4 程序比对逻辑

数据比对的第一阶段,一般通过计算机程序处理进行。需要整理出程序比对的逻辑,尽可能分析各原始数据的业务逻辑,寻找尽可能多的数据对应关系。有些数据只能通过唯一的标识进行比对,如人口信息通过身份证号码进行比对或者通过联合身份证号码和姓名一起进行比对;有些数据可以有多种程序比对逻辑,如电路数据中第一种程序是电路编号相同,第二种程序是工程编号相同,第三种程序是电路两端地址均相同。

2.5 人工比对逻辑

由于信息系统建设的时间不同、业务流程与IT系统的结合程度不同、部分业务数据不完整等情况,程序比对往往达不到100%。因此在程序比对后产生的遗留数据必须由人工来完成。

在人工比对过程中,需要整理出人工比对的方法。如人口数据比对中,不同身份证号码相同配偶名称和身份证号码,则可以认定为同一个人。

2.6 原因分析

对于人工比对的数据,我们需要分析数据不匹配的原因。可能是由于无业务流程或纸制流程的问题,可能由于流程与IT系统衔接的问题,可能由于系统间数据交换导致的数据不完整的问题,可能是人工输入错误的问题等等。

在分析的过程中需要考虑哪些原因影响存量数据,只影响到历史数据并且修正后不会再次出现;哪些原因是由于业务流程导致的,在修正该业务流程之前还会再次出现。

数据不匹配的原因分析是一项具有挑战性的工作,同时也是一项有意义的工作。通过原因分析,可以对业务部门的工作进行评价考核,对业务流程进行梳理改造,对业务与IT系统结合给出完善意见。

2.7 处理建议

人工比对的数据,按照不同的原因提供不同的处理意见。直接修改:对于不影响业务流程、不影响业务操作的数据,按照主数据的定义和责任直接在相关系统中修改;

业务部门尽快修正:对于一些影响正常业务操作的数据,如帐务系统中应收帐而未收帐数据、财务系统中存款或余额不一致、资源系统中应使用而未用资源等情况,由相关业务部门牵头尽快改修正。

制定细致解决方案:对于原因比较复杂的、涉及到业务流程的数据,则需要招集各相关部门研究,制定细致的解决方案。由于业务流程导致的数据不匹配,需要给出流程改进的建议。不匹配数据的修改越快越好。

3.项目案例数据比对

下面以实际项目作为例,介绍数据比对的过程。

某通信运营商大客户网管系统中包含传输专业、交换专业和数据专业(IP、ATM、DDN)总计五种电路数据。需要从前端CRM中获取客户名称和电路编号(简称前端电路);从后端NetMaster资源系统中获取电路编号和电路状态等详细信息(简称后端电路)。以下数据是20家样本大客户的传输专业电路数据(简称样本数据)的比对结果。

3.1 数据获取

截止时间为2013年10月30日24:00,分别获取了样本数据的前端电路总计2110条,后端电路总计2428条。前端电路根据客户名称以及客户层次关系获取,后端电路的客户名称没有层次关系因而采用客户名称的关键字模糊查询进行获取。

3.2 主数据定义

如表1所示,样本数据的主数据为:客户名称、电路编号、电路A端地址、电路Z端地址。

3.3 主数据流分析

该通信运营商传输业务分为本地业务和长途业务,本文只介绍本地业务流程。由于目前传输本地业务的拆机和移机流程未固化到信息系统,因此本文分析了早期的新增电路流程(如图1所示)。

(1)政企客户部负责受理大客户的传输电路业务;

(2)政企客户部通过CRM系统录入客户的名称、电路甲端地址、电路乙端地址以及其他数据并保存;

(3)由CRM系统自动产生客户编号;

(4)由CRM系统调用97系统产生电路编号,同时记录到CRM系统和97系统中;

(5)业务流程流转到NetMaster系统,由网络运行部录入A端地址、Z端地址,报完工;

(6)完工信息经97系统流转到CRM系统,完成开帐。

3.4 程序比对逻辑

(1)CRM中的资产编号和NetMaster系统中的链路编号相同的,程序比对成功。

(2)CRM中的电路一端地址中记录相关长途电路编号,而且和NetMaster系统中的链路编号为长途电路编号相同的,程序比对成功。

(3)程序比对结果:

前端电路:电路总数2110条,程序比对成功总数1614条,程序比对成功76.49%。

后端电路:电路总数2428条,程序比对成功总数1838条,程序比对成功75.70%。

3.5 人工比对逻辑

由于传输电路业务开展时间较长,并且信息系统建设情况比较复杂,因此出现了部分程序比对不成功的电路数据。经过各相关部门的人工比对,整理出以下人工比对逻辑:

前端电路存在,查找不到后端电路:

(1)根据前端电路编号在长途资源库中查找对应的的后端电路的链路编号(电路编号);

(2)前端电路中部分电路是郊区电路,暂时未整合在一起。

可以不计在前端电路中;后端电路存在,查找不到前端电路:

(1)根据后端电路的工程编号在CRM中查找对应的前端电路资产编号(电路编号);

(2)根据后端电路的两端地址、电路类型、客户经理保存资料等信息在CRM中查找对应的前端电路的资产编号(电路编号);

(3)后端电路中部分电路是局内中继电路,不属于大客户的保障电路。可以不计在后端电路中;

经过程序和人工比对传输电路数据比对结果总匹配率为98.33%,如下:

前端电路:电路总数2110条,程序比对1614条,人工比对445条,总成功率97.58%。

后端电路:电路总数2428条,程序比对1838条,人工比对565条,总成功率98.97%。

3.6 不匹配数据原因

经过分析得知,导致数据比对不成功的原因如下:

(1)部分后端电路保存在长途资源库中,未保存在NetMaster系统中。记录数28条。

(2)前后端记录相同工程编号,而不同电路编号,记录数14条。

(3)部分前端电路保存在大客户一站式受理系统中,未保存在前端CRM系统中,记录数12条。

(4)部分后端电路属于总头客户,不保存在前端CRM中。不计在20家大客户电路中,记录数3条。

(5)CRM中电路状态不匹配(正常流程中),分别为未报完工、移机未报完工和拆机,记录数8条。

(6)其他未知原因,记录数8条。

3.7 处理建议

针对数据不匹配的原因分析,我们给出的处理意见如下:

第一,对不匹配数据的处理意见。

(1)对于配置类错误数据直接修改。

这些数据包括由于客户名称不一致、电路编号不一致而导致数据比对不成功;此类数据的修改对业务运行以及各业务系统的数据完整性不产生影响。由相关部门按照主数据的定义规则直接修改。

(2)不属于大客户保障范围电路做标记。

这些数据本不应该属于大客户保障范围电路,应该在系统中对这些电路做标记。

(3)对于其他复杂原因,招集相关部门讨论解决。

第二,对业务流程的改进意见。

(1)传输专业“移机流程”和“拆机流程”的完善。

“拆机流程”未固化到系统中,“拆机流程”以“先装后拆”代替。因此会产生导致早期数据完整性错误,现已完善业务流程。

(2)长途电路的流程存在缺陷,会导致前后端电路编号不一致。需要尽快招集相关部门讨论解决方案。

4.总结

通过对样本大客户电路数据比对过程的研究,总结了程序比对和人工比对的方法,发现了业务流程上的少量问题。为下一步大批量数据比对提供参考,有效提高程序比对、人工比对、数据修正的工作效率;同时为完善IT系统、加强业务流程和IT系统之间的配合提供了参考依据。

参考文献

[1]Monge,A.E.Matching algorithm within a duplicate detection system.IEEE Data Engineering Bulletin,2000, 23(4):14-20.

[2]郭志懋,周傲英.数据质量和数据清洗研究综述[J].软件学报,2002,13(11):2076-2081.

[3]田芳,刘震.数据仓库清洗技术讨论[J].青海师范大学学报(自然科学版),2005(4):50-53.

数据分析方法例5

doi:10.3969/j.issn.1673 - 0194.2017.02.056

[中图分类号]F270 [文献标识码]A [文章编号]1673-0194(2017)02-00-01

0 引 言

随着移动互联网技术的发展,人们越来越习惯于网络购物。在网上购物或刷微博时,常常会看到“猜你喜欢”“可能感兴趣的商品”等广告栏目。而这些内容都是大数据产业的成果,是面向大数据视野得到市场分析的结果。掌握这种市场分析方法,能帮助企业更好地了解消费者的需求,进而更好地开展营销活动。

1 大数据视野下市场分析的问题

在互联网得到普及应用的情况下,大数据时代已经正式到来。目前,互联网上的数据每年都会增长50%。而随着运动、湿度和温度等各类传感器的出现,企业接触到的数据信息也越来越多,而这些数据在给企业带来挑战的同时,也为企业提供了新的市场增长空间。加强数据挖掘和分析,能帮助企业精准地找到用户,从而通过降低营销成本、提高销售率实现利益最大化。因此,企业应面向大数据进行市场分析研究,以便通过统计和分析超大量的样本数据,获得更接近市场真实状态的市场研究成果。

2 大数据视野下的市场分析方法

2.1 基于大数据的市场调研方法

在过去较长的时间里,市场分析是以实地调查为前提,或是通过问卷调查和提供抽样技术,其目的均是为了获得消费者的答案。进入大数据时代后,企业开始通过网络调研进行市场调查。这种方法,能够方便、快捷且经济地完成市场调查。具体来讲,就是企业通过门户网站完成市场调研模块的建立,然后将新产品邮寄给消费者,并要求消费者在试用后进行网上调查问卷的填写,这样就能够投入较少的人力和物力来完成市场调研。由于这种市场分析方法具有一定的互动性,能够在概念阶段利用虚拟仿真技术完成产品测试,从而使消费者参与到产品的开发,进而使市场需求得到更好的满足。

2.2 基于大数据的市场信息挖掘

面向大数据视野研究市场分析的问题,企业可以发现有效的市场分析需要大量的数据信息提供支撑。所以,企业还要使用基于大数据的市场信息挖掘技术,以便对市场需求进行更好的分析。首先,在智能手机逐步得到普及应用的情况下,企业还应在移动终端开展市场研究,借助移动APP完成消费信息的采集。企业对这些数据进行深入分析,能够完成产品回购率、产品促销奖励评估和购买时点等内容的分析。其次,在零售终端,POS机得到较好的建设和应用下,企业可以通过扫描商品条形码完成购买地点、名称和零售价等信息的采集,进而使其更好地掌握商业渠道的动态信息。此外,消费者往往具有从众性,企业加强对社交平台的信息挖掘能更好的掌握消费潮流。比如,利用微博评论可以完成消费者对某种产品偏好的了解,从而完成消费者真实消费心理及态度的分析,进而更好地掌握市场信息。

2.3 多学科分析方法的引入

以往的市场分析通常需要采取社会学调查方法完成资料搜集,再利用数据分析软件完成数据分析,并获得描述性或预测性的分析报告。在大数据时代,由于要完成海量数据的分析,因此,可以引入相对论、整体论和跨文化比较研究等多个学科的分析方法,以满足大数据时代数据分析的需要。就目前来看,大数据来自各种移动终端和网络,其是能反映消费者行动过程和轨迹的数据记录,采用传统的市场分析方法难以对这种过程性数据进行分析,而引入以分析过程见长的人类学的分析方法,则能对市场消费者的行动过程进行描述,从而使消费者的行动趋向得到揭示。

2.4 定量与定性分析方法的结合

采取定性或定量这两种分析方法中的一种,可以完成片段式或截面式数据内容的分析。但在大数据时代,数据变得更加复杂,因此可以使用定量和定性相结合的分析方法进行市场分析。一方面,企业通过网络调研完成大量数据信息的搜集,从而采取定量分析法进行市场分析研究。这种方法,能够使市场研究人员成为“隐形人”,从而更加客观地观察消费者,并通过对超大样本量进行统计分析,完成市场状态的分析。另一方面,针对文本、视频和图形等非量化数据,可以通过智能化检索和分析来完成定性分析,以便在保护消费者隐私的基础上,更好地分析市场需求。

2.5 数据复杂属性的还原

在传统的市场分析工作中,可以将数据看成是一些片段而进行分析。而这样的分析,实际上是脱离具体情境和社会关系的分析过程,虽然可以根据自身经验和想象来进行情境原,但得到的研究结果却不够客观和科学。在大数据背景下,企业可以使用能够还原数据复杂属性的市场分析方法,以便更好地完成、嵌入某些社会关系的消费者的购买行动和轨迹的分析,进而获得更加有效及真实的分析结果。因此,使用的市场分析方法应更关注数据的社会背景,从而更好地完成大数据的整合与分析。

3 结 语

在大数据时代,企业要选择适当的市场分析方法,以便使自身的数据处理能力得到提高,从而通过获取的高质量的数据信息来提高自身竞争力,进而更好地适应社会发展的要求。因此,希望本文对大数据视野下的市场分析方法展开的研究,可以为相关工作的开展带来启示。

主要参考文献

数据分析方法例6

统计应用作为数学的重要领域,在大多数情况下,数据被收集并且通过一定方法在系统中存储,重要策略被记录,并应用于其他领域。随着数据恢复方法和统计分析方法的逐步集成,大数据的统计数据分析方法在财务管理中变得越来越重要。面对当今全球化的压力和经济市场的激烈竞争,使用财务管理的统计整合是提高有效管理效率,优化资源分配和科学行为的有效步骤。通过市场经济的发展和经济水平的不断提高,数据集成和财务管理水平运用了大数据的统计分析。在建立大规模数据的经济增长政策时,技术在宏观经济研究中起着重要作用。大数据统计分析的作用正在增加,其在管理中的用途正在进一步扩大。显然,加强对经济发展大数据统计分析技术的使用对促进经济增长和提高管理效率非常重要。

一、大数据统计分析方法在经济管理领域运用的意义

为响应市场环境和公司治理内容的变化而促进使用公司治理统计数据的需求主要体现在两个方面:

(一)宏观经济方面发展有若干规律。为了寻找有关经济发展的规律,强大的数据分析技术在宏观经济学中的应用非常重要。一方面,大数据分析统计数据用于从宏观经济发展行业收集数据,对相关行业信息进行实证分析,并调查行业发展和行业问题。使用SPS,Stata和其他数据分析软件,中国拥有最重要的发展法;同时,发现工业发展规律,规范工业发展,开辟新的经济发展方式也很重要[1]。

(二)企业经营管理方面1.提升企业竞争力的必然要求当前,业务发展的竞争越来越激烈。竞争压力主要归因于国内市场经济带来的经济化以及国内市场竞争激烈加入的外国公司的影响。公司必须面对激烈的市场竞争。大众市场信息的统计分析将调整生产和管理策略,并为业务发展的战略调整作出有效的决策。2.提升企业管理水平的必然要求一方面,诸如运营管理、财务管理、风险管理和企业资源管理等相关任务变得越来越复杂。需要统计分析方法来对丰富的业务操作信息进行分类和汇总,为业务管理决策提供有效的信息。同时,企业需要不断满足产品和服务生产方向的政治要求。由于需要与相关部门合作,例如运营财务管理、规避财务风险,因此需要建立相关部门的统计数据,以提高决策效率[2]。

二、大数据统计分析方法在经济管理领域的运用

利用大数据的统计数据分析技术研究宏观经济发展政策,对促进行业发展至关重要。另一方面,如何获取有关复杂数据管理的重要信息,在业务流程和管理方面为公司制定有效的决策是重中之重。关键在于掌握财务管理的大数据分析方法,并使用大数据统计分析技术来分类和提供业务流程管理,隐藏的规则以及来自异常数据点的大量信息。为了应对突发情况,管理人员需要制订正确的决策计划。本文主要讨论宏观经济应用管理领域的统计数据分析方法,以及业务管理、财务管理、风险管理和管理的六个方面。如:

(一)宏观经济方面关于宏观经济产业的运作和发展有若干规律。为了找到宏观经济发展方法,统计分析技术对于稳定经济增长和调查潜在的经济危机很重要。当前,不仅学者,业务经理也开始了解计算机技术的使用,并开始通过统计分析来发现工业发展中的若干问题,学习工业发展的原理。为了找出答案,我们选择了相关的影响因素并采取了相应的行动,采取措施提高工业发展效率。

(二)企业运营管理方面通常,在日常工作程序和工作相关领域中存在某些特定的业务管理和操作规则。另一方面,通过将统计信息应用于业务的运营和管理,公司可以通过分析大数据的统计信息来获得规律。这将帮助公司节省一些资源,避免重复的任务并节省公司的业务资源。如果该政策是从科学的统计评估阶段得出的,则情况与正常情况不同的企业高管应仔细考虑潜在的风险。

(三)企业营销管理方面企业需要建立大型数据管理系统来收集有关企业提供的产品或服务的市场交易信息。因此,消费者的热点必须与受管理的信息系统对齐,以使其隐藏在协同交易信息中。确定消费者对需求的偏好并确定消费者需求。公司的主要产品和服务根据消费者的喜好运作,可以满足消费者的需求,替代市场上的非反应性产品和服务。同时,开发新产品和服务企业领导者可以提供有效的决策信息,并为消费者创建新的热点[3]。

(四)企业财务管理方面应用管理统计信息。它通过审查有关生产过程和运营的统计数据(尤其是财务数据),进行定性和定量分析,帮助评估相关活动,例如商业投资。财务管理是开展业务必不可少的部分,这对于减轻公司的财务风险和提高公司资源分配的效率至关重要。通过统计分析对商业经济数据进行分类和分析,可以为高管、投资者和其他相关利益相关者提供有效的决策信息。

(五)企业人力资源管理方面将统计应用于公司的人力资源管理,并使用统计分析技术结合公司业务管理部门的特征,选择适当的方法来提高效率。人力资源管理很重要,人才基本上是企业的无形资产,在部门保留相关的人力资源是业务发展的关键。回归站评估法用于预测企业发展的人力资源需求,动态分析法用于根据状态预测人力资源的变化。将这两个方面结合起来可以大大提高业务资源的效率。

(六)企业风险管理方面使用统计分析技术对业务流程中的大量业务信息进行分类和分析,发现隐藏的规则和数据差异。重要的是,业务主管需要进行预测,做出正确的决定,解决事件并发现潜在危险。意思是如果统计数据分析有些奇怪,则需要找出业务流程中具有的某些规则,因此业务主管需要寻找更多异常条件,尤其是财务管理,要注意关注状态的变化。另一方面,对公司财务信息进行统计分析是公司规避财务风险的有效手段之一。

三、完善大数据统计分析方法在经济

管理领域运用的措施在本文中,我们将了解如何从六个方面分析大数据的统计数据:宏观经济活动、业务管理、风险管理、财务管理、资源管理和财务管理人员。这被认为是财务管理数据大规模统计方法的一种改进。必须在三个方面进行现场应用:

(一)社会宏观经济层面尽管存在宏观经济法则,但根据过去的经验,由于缺乏安全可靠的数据和分析方法,宏观经济法则的分析则一直被认为是伪科学。大数据分析技术提供了探索宏观经济法则的机会,大数据技术使用数据创建系统,而使用许多信息技术的科学分析是宏观经济法研究中的重要一步。特别是,某些行业使用行业信息和对经济趋势预测的全面分析来帮助识别和克服复杂的工业发展挑战,可以提高宏观经济发展效率。

(二)企业经营管理层面在公司上载和数据受限的情况下,企业很难优化管理功能以提高性能[2]。由于业务经理的管理理念和管理水平受到限制,因此很难断定业务开发操作和管理流程是否存在问题。统计分析技术可用于计算和评估每个关键决策或业务战略适合性的有效性。如果由于大数据分析技术而导致预期的数据销量存在矛盾,该公司可以调整其总体战略并进行业务变更以优化管理理念。

(三)行业与行业之间存在着一定的鸿沟无论是快速消费品行业、食品行业还是大型公司,其经营理念和经济结构在公司治理方面都存在根本差异。统计数据分析技术使公司能够了解整个行业的消费者需求的性质,分析社会经济状况,能够了解共同的业务条件和业务发展情况,并优化或区分劣质产品。在某些情况下,此更改是提高产品价格的高级更改,如果消耗量和消耗品减少,则可以降低产品价格。产品必须能够升级以满足顾客需求。产品行业、食品行业或大型行业具有不同的经营理念和财务结构,还在进行公司管理。但是,各个行业的业务方向取决于消费者的需求。换句话说,公司开发了产品的功能并使产品的功能适应消费者的需求。对于公司而言,通过优化生产结构并提供更多定价和功能来说服更多消费者也很重要。

(四)企业财务管理层面财务管理贯穿公司治理的整个过程。公司财务管理非常有效,但是存在诸如财务管理的巨大风险之类的问题。对公司财务信息进行统计分析是防范财务风险的有效手段之一。公司需要管理其日常收入和支出,并进行大规模会计处理。企业可以使用大数据分析技术来监测财务管理功能并确保标准化业务的财务安全。利用统计分析技术和大数据,公司可以预测潜在的市场和行业风险,以提供最佳解决方案,还可以提供分析大数据的方法,可以跟踪异常并快速发现异常。

四、结语

本文首先从宏观经济方面、企业经营管理方面等两个方面对大数据统计分析方法在经济管理领域运用的意义进行了分析,然后从宏观经济方面、企业运营管理方面、企业营销管理方面、企业财务管理方面、企业人力资源管理方面以及企业风险管理方面等方面对大数据统计分析方法在经济管理领域的运用进行了分析,最后从社会宏观经济层面、企业经营管理层面、行业与行业之间存在着一定的鸿沟以及企业财务管理层面等方面提出了完善大数据统计分析方法在经济管理领域运用的措施。大数据分析技术被广泛用于宏观经济预测、业务管理和公司风险管理,它在优化公司治理和运营结构,有效改善公司治理以及提高公司统一性和核心竞争力等方面发挥着重要作用,可以使公司在激烈的市场竞争中有一席之地。

【参考文献】

[1]张琳.大数据统计分析方法在经济管理领域中的运用浅析[J].营销界,2019(38):291-292.

[2]杜珉.大数据统计分析方法在经济管理领域中的运用探析[J].山西农经,2019(12):27.

[3]陈雪琴.大数据统计分析方法在经济管理领域中的应用[J].山西农经,2019(5):37.

数据分析方法例7

中图分类号:TP399 文献标识码:A 文章编号:1007-9416(2017)03-0137-02

1 引言

大数据分析首先要建立一个分析模型,分析模型是大数据分析的基石,只有先建立了模型才能对大数据进行分析。构建大数据分析模型传统的方法很难实现,大数据非结构化、属性很难预知,通过数学、统计学等方法构建大数据分析模型都比较困难,机器学习是构建大数据分析模型最有效的方法之一。机器学习通过不断地学习优化、不断地迭代逼近所要的模型。

2 训练数据准备

机器学习构建大数据分析模型的方法是通过训练数据将模型训练出来。从要研究的大数据对象中找出训练集。机器学习分为监督学习和非监督学习,监督学习需要教师,监督机器学习的结果,事先设定好学习目标,期望的结果。非监督学习的数据一般都无标签,学习结果事先也无法预知,通过数据可视化等方法观察学习结果。

房价大数据分析模型机器学习属于监督学习,期望预测值极大地逼近真实值。首先需要采集房价数据作为训练数据,然后设计房价大数据分析模型机器学习算法,计算机通过机器学习算法和学习路径学习训练数据,学习目标是预测的结果极大地逼近真实数据,通过反复迭代,不断地接近目标,训练出所希望的模型。

3 数据清洗

清洗后的训练数据如下:

间数(x1) x1 2 x1 2 x1 3 x1 3 x1 3 x1 3 x1 2 x1 2 x1 2 x1 3 x1 3 x1 3 x1 2 x1 2 x1 1 x1 3 x1 3 x1 3 x1 3 x1 1 x1 2 x1 2 x1 2 x1 2 x1 2 x1 3 x1 2 x1 3 x1 2 x1 2 x1 3 x1 2 x1 2 x1 3 x1 3 x1 3 x1 2 x1 3 x1 2 x1 1 x1 2 x1 2 x1 2 x1 2

面e(x2) x2 126 x2 99 x2 134 x2 137 x2 135 x2 138 x2 104 x2 99 x2 105 x2 126 x2 112 x2 116 x2 88 x2 90 x2 79 x2 120 x2 155 x2 158 x2 161 x2 66 x2 108 x2 88 x2 111 x2 103 x2 104 x2 131 x2 105 x2 130 x2 102 x2 105 x2 148 x2 98 x2 100 x2 128 x2 110 x2 101 x2 121 x2 127 x2 103 x2 67 x2 78 x2 71 x2 81 x2 77

价格(y1) y1 460 y1 425 y1 515 y1 580 y1 630 y1 600 y1 425 y1 439 y1 435 y1 608 y1 460 y1 460 y1 410 y1 380 y1 340 y1 520 y1 685 y1 680 y1 630 y1 328 y1 532 y1 405 y1 495 y1 470 y1 480 y1 690 y1 480 y1 690 y1 462 y1 495 y1 540 y1 440 y1 510 y1 599 y1 395 y1 450 y1 455 y1 595 y1 403 y1 295 y1 315 y1 345 y1 355 y1 335

4 房价大数据分析模型机器学习算法

机器学习首先要设计机器学习学习算法,设计机器学习学习路径,机器学习解决的问题通常可分为预测和分类两类问题。首先我们分析一下要解决的问题是属于预测问题还是分类问题,然后选择相应的学习算法,设计学习路径,通过训练数据训练和机器学习构建大数据分析模型。模型通过训练数据训练出来以后,对模型进行检验,然后不断进行优化,以达到我们所期望的精度。

以下是梯度下降机器学习算法和学习路径:

首先建立一个估值函数(模型)如下:

x为自变量(特征参数),h(x)为应变量(房价的估值),希望求出此函数的系数θ0、θ1,构成一个完整的函数,此函数就是我们要构建的大数据分析模型。

我们建立一个成本函数,希望预测值与真实值的差趋近于0,也就是成本函数值趋近于0。

J(0, 1)=

其中:

X(I)表示向量X中的第i个元素;

Y(I)表示向量Y中的第i个元素;

表示已知的假设函数;

m为训练集的数量;

Gradient Descent梯度下降方法机器学习步骤:

(1)先随机选定一个初始点;

(2)确定梯度下降方向;

(3)通过实验确定下降步伐,学习率Learning rate;

(4)通过不断地递归,收敛到极小值;

通过梯度下降法使成本函数趋于0,在此条件下求得自变量的系数θ0和θ1,将此θ0和θ1带入到函数中得到我们要的模型。

下面是介绍如何运用梯度下降法,经过反复迭代求出θ0和θ1:

梯度下降是通过不停的迭代,最后沿梯度下降到最低点,收敛到一个我们满意的数据,误差趋近于0时迭代结束,此时的θ0和θ1正是我们要求的函数自变量的系数,有了θ0和θ1,这个假设的函数就建立起来了,这个函数就是我们要建的大数据分析模型。

梯度下降法分为批量梯度下降法和随机梯度下降法,批量梯度下降法速度较慢,每次迭代都要所有训练数据参与;随机梯度下降精度差一些,容易在极值周围震荡;房价大数据分析模型采用的是实时数据梯度下降法(Real Time Online Gradient Descent),可以随着房价的变化随时修正模型的参数。

5 构建房价大数据分析模型

通过数据可视化,我们可以看到房价数据趋于线性,所以我们采用线性回归构建房价大数据分析模型。采用监督学习,先给定一个训练集,根据这个训练集学习出一个线性函数,然后检验这个函数训练的好坏,即此函数是否足够拟合训练集数据,不断优化模型减少残差,最大限度地接近真实值。

假设房价大数据分析模型:

y=aX1+bX2

通过梯度下降法,不断递归,最后使假设值与实际值之差趋近于0,求得此时的模型变量系数a、b,构建线性函数(房价大数据分析模型)。模型通过回归诊断、交叉验证不断进行优化,直到误差达到要求。

以下是采用机器学习算法构建的房价大数据分析模型,用R语言编写房价大数据分析模型程序如下:

令:a=q1;b=q2;

将训练数据以数据框的形式存储。

pricedata

x1

x2

y

造梯度下降算法函数,初始点q1=0、q2=0;下降速率d=0.0001。

grd2

q1=0;

q2=0;

d=0.0001;

i=0;

m=9;

plot(y~x1+x2,data=pricedata,pch=16,col='red');

通过反复迭代得出估值函数系数q1、q2。

while (i

{

i=i+1;

q1=q1-d/m*(q1*x1+q2*x2-y)*x1;

q2=q2-d/m*(q1*x1+q2*x2-y)*x2;

}

return(q1);

return(q2);

}

grd2();

model2

summary(model2);

数据分析方法例8

关键词:

大数据;统计学;研究方法

中图分类号:

F27

文献标识码:A

文章编号:16723198(2015)11005201

随着信息技术的日益发展与普及,信息以及数据在社会经济发展过程中发挥的作用越来越重要。现如今,“大数据”时代已经来临,于是如何更有效地利用数据快速做出科学决策也已成为众多企业甚至是国家所共同关注的焦点问题。在数据处理和分析方法方面,《统计学》以及在其基础上发展而来的实证统计方法是当前的主流,这些方法可以帮助数据持有者从大量的数据中挖掘有价值的信息,并为其相关决策提供理论支撑和方法支持。然而,传统的实证统计方法在最新出现的大数据情境下,却呈现出了诸多缺陷,例如传统数据收集方法无法实现大规模(甚至是总体)数据的收集,传统统计方法和分析软件无法处理大规模数据,等等。于是,在将传统统计学方法应用于最新的大数据情境和问题之前,需要首先明确大数据所要求的处理方法与传统的统计学处理方法存在哪些关联和区别,然后才能够决定是否可以应用既有统计学理论和方法来处理某些大数据问题。

1大数据的界定

根据一位美国学者的研究,大数据可以被定义为:it means data that’s too big, too fast, or too hard for existing tools to process。也就是说,该学者认为:在关于大数据的所有定义中,他倾向于将之定义为那类“太大”、“太快”,或现存工具“太难”处理的数据。一般而言,大数据的特征可以概括为四个V:一是量大(Volume);二是流动性大(Velocity),典型的如微博;三是种类多(Variety),多样性,有结构化数据,也有半结构化和非结构化数据;四是价值大(Value),这些大规模数据可以为持有企业或者组织创造出巨大的商业或社会价值。

Victor在其最新著作《大数据时代――生活、工作与思维的大变革》中指出,大数据时代,思维方式要发生3个变革:第一,要分析与事物相关的所有数据,而不是依靠分析少量数据样本;要总体,不要样本。第二,要乐于接受数据的纷繁复杂,而不再追求精确性。第三,不再探求难以捉摸的因果关系,应该更加注重相关关系。这些变革反映出了大数据处理方式与传统统计学分析方法的很多关联以及主要不同。因此,下面我们分别针对两者的联系和区别进行讨论。

2大数据与统计学分析方法的联系

从18世纪中叶至今,统计学已经经历了两百多年的发展历程,不论是基础理论还是社会应用都极其坚实而丰富。大数据作为一种新兴的事物规律认知和挖掘思维,也将会对人类的价值体系、知识体系和生活方式产生重要影响,甚至引发重大改变。作为两种认知世界和事物规律的基本方法,它们在以下两个方面存在紧密关联。

(1)挖掘事物规律的基本思想一致。统计学(statistics)探索事物规律的基本方法是:通过利用概率论建立数学模型,收集所观察系统的数据,进行量化分析和总结,做出推断和预测,为相关决策提供依据和参考。对于大数据,维克托指出,大数据思维的来临使人类第一次有机会和条件,在非常多的领域和非常深入的层次获得和使用全面数据、完整数据和系统数据,深入探索现实世界的规律,获取过去不可能获取的知识。通过这两个定义可以看出,不论是传统的统计学方法还是新兴的大数据分析方法,都是以数据为基础来揭示事物特征以及发展趋势的。

(2)均采用量化分析方式。大数据分析的基础是数据化,也就是一种把各种各样现象转变为可制表分析的量化形式的过程。不论是传统统计学中所应用的数据(定性和定量数据),还是大数据时代即将被转化和采用其他形式数据(如文字、图像等),最终都是通过量化分析方法来揭示数据中所蕴含的事物特征与发展趋势。

3大数据与统计学分析方法的区别

(1)基础数据不同。在大数据时代,我们可以获得和分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机抽样。这意味着,与传统统计学数据相比,大数据不仅规模大,变化速度快,而且数据来源、类型、收集方法都有根本性变化。

①在数据来源方面,在大数据背景下,我们需要的纷繁多样的数据可以分布于全球多个服务器上,因此我们可以获得体量巨大的数据,甚至是关于总体的所有数据。而统计学中的数据多是经由抽样调查而获得的局部数据,因此我们能够掌握的事“小数据量”。这种情况下,因为需要分析的数据很少,所以必须尽可能精确的量化我们的数据。综上,大数据情况下,分析人员可以拥有大量数据,因而不需要对一个现象刨根问底,只需要掌握事物大体的发展方向即可;然而传统的小数据情况下则需要十分注意所获得数据的精确度。

②在数据类型与收集方面,在既往模式下,数据的收集是耗时且耗力的,大数据时代所提出的“数据化”方式,将使得对所需数据的收集变得更加容易和高效。除了传统的数字化数据,就连图像、方位、文本的字、词、句、段落等等,世间万物都可以成为大数据范畴下的数据。届时,一切自然或者社会现象的事件都可以被转化为数据,我们会意识到本质上整个世界都是由信息构成的。

(2)分析范式不同。在小数据时代,我们往往是假想世界是如何运行的,然后通过收集和分析数据来验证这种假想。也就是说,传统统计实证分析的基本范式为:(基于文献)提出理论假设-收集相关数据并进行统计分析-验证理论假设的真伪。然而,在不久的将来,我们将会在大数据背景下探索世界,不再受限制于传统的思维模式和特定领域里隐含的固有偏见,我们对事物的研究始于数据,并可以发现以前不曾发现的联系。换言之,大数据背景下,探索事物规律的范式可以概括为:数据观察与收集――数据分析――描述事物特征/关系。

(3)数据分析方法不同。传统统计学主要是基于样本的“推断分析”,而大数据情境下则是基于总体数据的“实际分析”,即直接得出总体特征,并可以分析出这些特征出现的概率。

(4)分析视角不同。传统的实证统计意在弄清事物之间的内在联系和作用机制,但大数据思维模式认为因果关系是没有办法验证的,因此需要关注的是事物之间的相关关系。大数据并没有改变因果关系,但使因果关系变得意义不大,因而大数据的思维是告诉我们“是什么”而不是“为什么”。换言之,大数据思维认为相关关系尽管不能准确地告知我们某事件为何会发生,但是它会提醒我们这件事情正在发生,因此相关关系的发现就可以产生经济和社会价值了。

4结语

综上,相对于传统而言,大数据思维主要包括三个重大转变。首先,要分析与某事物相关的所有数据,而不是依靠分析捎来能够的数据样本;其次,研究人员应乐于接受数据的纷繁复杂,而不再追求精确性;最后,认知世界的思想发生了转变,不再探求难以捉摸的因果关系,转而关注事物的相关关系。以上三个转变构成了大数据思维的核心。在统计学的进一步应用和发展完善过程中,需要结合以上转变所产生的挑战,思考有效的统计学发展对策。

参考文献

数据分析方法例9

中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2016)24-0013-02

随着信息技术的迅猛发展,人类社会大步迈入了网络时代,网络数据挖掘已成为数据挖掘中的一个重要研究课题。网络数据挖掘注重事物之间的属性及联系,通过无数个体数据的分析和特殊算法的使用,实现模型的可视化和连接趋势。运用网络数据挖掘可以很好地解决复杂的自然属性组成的问题。

1 数据挖掘技术

1.1概念

数据挖掘就是借助程序管理对海量数据进行分析归纳汇总。其挖掘程序依次为应用界面层、应用服务层和数据库层。三层结构紧密联系,互相配合完成数据挖掘任务。用户要进行数据挖掘,需要应用界面层的请求响应,请求信息反映到应用服务层后,得到允许才可以进入数据库访问,提取相关数据并进行分析。数据挖掘可以有效地对数据进行整理与分析,使之规范化与合理化,方便汇总与管理,提高了相关数据的安全性与有序性,提高了管理效率与管理水平。

1.2传统数据挖掘

1.3网络数据挖掘

网络数据挖掘是个新生事物,笼统地讲析太过抽象,所以我们就以社交网站为例来探析下网络数据挖掘。微博诞生也不过数年光景,就以之为例。微博是大家熟知的社交网站,通过社交网站的数据挖掘的管理流程,就可窥一斑而见全豹,对整个网络数据挖掘的方法与技术就都可以融会贯通了。我们可以举个例子,譬如应用面向对象的系统分析方法与设计等等。

2 网络数据挖掘方法

2.1构建数据仓库数据挖掘体系

网络技术的快速发展,对网络数据进行海选分析及综合提供了便利。以社交网站为例,如果要进行相关信息的数据挖掘,实现高质量与高效率,就要通过对海量数据的处理与整合,使用数据仓库技术及数据挖掘技术是个不错的选择。为最大限度节约时间及减少运行成本,构建数据仓库数据挖掘体系是至关重要的。一般体系结构如下图所示(图2)。构建了数据仓库体系,可以高效对数据进行管理与汇总,对相关数据进行关联分析,最后得出自己需要的信息。

2.2 网络数据挖掘分析

2.2.1 图像内容的信息挖掘

网络用户很多喜欢上传分享一些照片、视频等图像内容,对这类信息如何进行挖掘呢?人们一般运用积分图加速Harr特征来进行信息提取。

Harr特征一般分为边缘特征、斜线特征、中心特征和对角线特征四个类别。将这些特征融合在一起就可以形成新的特征模板。新的特征模板内都有白色与黑色区域,其特征值为白色像素减去黑色像素的差。

3 小结

网络数据挖掘是个技术性很强的全新课题,需要在实际电脑操作中进行不断学习与实践。本文只是简单介绍了一些常用的方法与技术,由于篇幅有限,对具体操作也只是做了简单介绍,希望能为广大朋友牵线搭桥,抛砖引玉,为今后在实际运用中做个指导。

参考文献:

[1] 林秀琴.一种改进的Snort系统模型[J].电脑知识与技术,2011(13).

数据分析方法例10

摘要:

One of the major works in river evolution analysis is to extract profile for the riverbed transverse form analysis and the annual calculation of river bed deformation of sluicing silt. Therefore, the method of the extracting profile plays an important role in the progress of the analysis, whereas the profile data impacts the accuracy of the analysis resultsKey words: river evolution analysis; profile;CAD;GeoHydrology;EPSW

中图分类号:C37 文献标识码:A 文章编号:

1概述

在河演分析工作中,进行断面读取是一项较为重要的工作,尤其在较长河段需要布置较多的断面、测次较多的情况下,如果采取人工读取的方法,那么断面读取工作是比较繁重的,且影响河演分析工作的进度。而断面读取所取得数据的合理性,则直接影响到河演工作断面形态、河床冲淤量计算等分析计算结果。

因此,如何又快又好地完成断面读取工作,取得合理、真实的断面数据,就显得较为重要。本文主要对三种断面读取方法进行比较分析。

2断面读取方法介绍

在工作中,常用以下三种方法来完成断面的读取工作,下面分别作简要介绍:

2.1人工法

采用人工法读取断面是较为原始的一种方法。简单来说,就是利用纸质地形图或电子地形图(多为CAD图形),采用人工量取起点距、读取高程的方法获得断面数据。在采用CAD电子地形图读取断面过程中,可以利用“标注”菜单中的“线性”命令来量取起点距较为方便。

2.2 GeoHydrology软件系统

GeoHydrology软件系统是利用数据库技术、GIS技术、遥感技术、网络技术等现代信息技术,研制开发的一套专业的水沙信息处理系统,实现在一个集成的网络计算环境中完成大量水文泥沙相关的专业计算与数据处理,推动长江流域的信息化。该软件可支持各河流基础资料的数字化及建库,为河流泥沙工作信息化奠定基础;实现专业的水沙计算和水文泥沙信息可视化分析;为水沙运动分析和河道演变分析提供软件工具。 GeoHydrology软件断面读取界面

利用本软件系统,可以将CAD图形转换为*.GEO图形,或采用原有的*.GEO图形,利用软件中“河演分析”菜单中的“任意断面绘制”命令来完成断面的读取,断面点距可以人工输入进行控制。软件运行界面如上图所示。

2.3清华山维图形数据库

工作中,我们常用到清华山维软件,其电子地形图为*.mdb格式,实际上地形图中所有的信息都存储于MDB数据库中。因而,我们采用VB语言编制相应的程序,对MDB数据库进行读取。首先要做的工作就是在MDB图形中布置好断面线,利用人工方法对断面上转折点采用一定的代码(如天文点1915)进行添加并赋值,如左图所示。

随后,运行相关VB程序,对相应MDB数据库进行读取,

主要是对断面线与所有等高线交点数据及所添加转折点高程进行读取,并自动计算相应的起点距,最后生成断面数据文件。

mdb图形中人工加点界面

3断面数据分析比较

3.1示例分析

在此选用了2006年地形图,对三种方法所取得的断面数据进行比较。从断面数据来看,人工法共读取62个点,最低点高程为7.6m,最高点高程为36m;采用GeoHydrology软件,按断面间距10m控制,共读取254个点,最低点高程为7.98m,最高点高程为34.8m;采用MDB数据库,共读取71个点,最低点高程为7.6m,最高点高程为36m。从所选取的示例点来看,起点距与高程基本相一致,三种方法生成的数据差别并不是太大。部分断面数据比较见下表。

断面部分数据比较

进一步采用EXCEL套图对断面数据进行检查,如下图所示。从图上来看,三种不同的方法所读取的断面吻合较好,尤其水下部分三种方法数据成图基本一致;而在近岸部分有所区别,人工法与山维数据库方法所取得数据基本一致,GeoHydrology软件法数据略有差别。整体来说,三种方法所得断面数据均基本能反应断面形态。

三种方法断面数据示例图

3.2数据误差来源分析

从三种方法所取得数据的误差分析来看,人工法读取的断面数据应该最能反应断面地形的真实情况,但由于人工量取距离可能不够精确,在高程的选用上受人为因素影响较大;采用GeoHydrology软件可以较为精确地自动计算每点的起点距,读取的数据较多,但是由于采用格网插值的方式计算高程的局限性,因此数据会存在一定的偏差,尤其在地形图测点分布不均时对格网数据的合理性影响较大;采用VB+清华山维MDB数据库方法,能自动计算每根等高线与断面面线交点的起点距及读取相应的高程,数据精度较高,也能合理反应断面地形的情况,但是受矢量化测图合理性的影响较大,当矢量地形图等高线赋值出现错误时,就需要人工进行修正。

4方法适用性及优劣比较

4.1人工法

人工法读取断面是较为原始的一种方法,适用于断面较少的情况下。其优点是不易出错,能够较好地控制断面的转折点,数据较为合理,能真实地反应断面地形情况;其缺点也是显而易见的,主要是速度慢,效率低,工作时间较长,人为因素影响较大,对河演分析工作进度会产生一定的不利影响。

4.2 GeoHydrology软件

采用GeoHydrology软件断面读取,适用于单测次、断面较多的情况。其优点是采用格网插值方法,数据密度满足要求,基本能反应断面地形的情况,操作容易,读取速度较快;其缺点是对GEO图形要求较高,断面转折点较难控制,关键高程点难以真实反应。

4.3清华山维图形数据库

采用VB+清华山维MDB数据库方法读取断面,适用于多测次、断面较多的情况。其优点是速度较快,能一次性大批量读取断面,自动生成断面数据,能较真实地反应断面地形情况;其缺点是需用手工方法添加关键点,才能控制住断面的转折点,对矢量化地形图合理性要求较高。

5结语