期刊在线咨询服务,发表咨询:400-888-9411 订阅咨询:400-888-1571股权代码(211862)

期刊咨询 杂志订阅 购物车(0)

数据分析论文模板(10篇)

时间:2023-05-16 15:18:18

数据分析论文

数据分析论文例1

网络产生巨大的数据量,例如2013年,每天平均产生两百多万TB的数据量而且信息来源多样,这些信息都是获取有效舆情的数据基础,我们首先要尽可能全面地收集到这些信息。网络数据获取可以采用网站提供的API或网络爬虫工具获取。使用API方式是通过网站提供商获取数据信息,为了避免频繁调用对网站服务产生影响,一般调用API次数都会有一定限制,同时网站对于获取数据权限有各种限制,由于种种限制,目前普遍研究和使用的网络爬虫都不使用API。网络爬虫指从一个或多个指定的网页开始,在全网范围搜索获取网络信息资源,通过简单设置目标网站、爬行间隔和存储位置等就能够自动批量获取网页内容,为数据获取提供极大便利。常见的网络爬虫有传统网络爬虫和聚焦网络爬虫。传统网络爬虫获取的数据有一定盲目性,获取的信息很大一部分都不符合要求,造成时间、资源的浪费。而传统网络爬虫的并行机制也带来数据重复抓取、页面质量下降等问题。但传统网络爬虫具有获取数据完整、速度较快的优点。聚焦网络爬虫增加了页面相关度评价和URL价值评价功能进行信息过滤和分析,利用主题相关度评价模型过滤掉与主题无关的网页,利用URL主题相关度控制爬虫爬行过程,不遍历和主题无关页面,提高爬行效率。聚焦网络爬虫数据相关性高,但速度较慢。在舆情采集过程中合理利用网络爬虫,可以在短时间获取大量网络数据,但这些数据存在大量冗余,数据针对性不高,需要后续提取分析。

二、冗余数据清洗

网络舆情分析的主体是与主题相关的数据信息,通过网络爬虫程序获取的是由HTML和各种脚本语言构成的web页面,web页面由与主题相关的网页正文和与主题无关的数据组成,与主题无关的数据也称为网页噪音。由于web页面的形式多样,正文与噪音之间没有明确的界限,而大量存在的网页噪音造成资源浪费,对正文分析也造成很大干扰。我们需要对页面进行处理,剔除网页噪音,比如页面中的广告、导航信息、说明文字等,提取正文、链接、作者、点击量等主题相关信息。通过去噪处理得到的文档一般包含大量重复信息,互联网信息频繁的转发、复制以及不同URL地址指向同一页面等情况都导致信息重复,重复信息成倍增加工作量,去除重复文档也是进行正文提取、分析的必要步骤。我们可以对文档进行向量化处理之后,计算各个特征词的权重,利用相似度算法计算词语与词语之间的相似度,通过计算文档相似度,去除重复信息。当前网页去重算法有很多,但大多数都是基于shingling和LsH的思想,比如对shingle生成策略的改进,对LsH指纹间海明距离计算的改进,以及对这些算法本身参数设置不同而带来性能变的研究等。

三、正文文本提取

通过去噪去重处理,修剪掉网页多余数据,如何快速有效地提取出需要的正文就需要正文提取技术。正文提取技术也是网络舆情发现的一项重要技术。当前常用的网页正文提取算法包括基于DOM树的网页正文提取技术、基于内容规则的网页正文提取技术、基于统计学特征的网页正文提取技术和基于神经网络的网页正文提取技术等。各种提取技术各有优劣,比如目前应用比较广泛的基于DOM树的网页正文提取技术,它利用HTML的各种标签信息,将网页内容转化成规范的树形结构,通过遍历DOM树的节点,裁剪与正文无关的节点而得到正文内容。这种算法依赖于HTML标签,对于HTML规范性要求很高,而且解析过程效率也较低。利用统计学特征的正文提取技术将HTML代码解析后以行或段为单位保存,统计单位文本和HTML代码的字节数,通过计算文本和字节数比例得到文本密度,如果密度大于事先设定好的文本阈值,则该部分内容判定为正文。这种算法不需要分析源码,判断准确度较高,但限制性也较大,对于正文集中的内容效率较高。实际应用中需要针对舆情来源及其特点,结合使用各种网页正文提取技术,以达到最佳提取效率和准确度。

四、信息分类与关联

网络信息数据多样,来源复杂,数据分布离散。通过文本处理抽取的正文数据往往是相互没有关联的数据,这些文本在使用时就面临无法分析、统计等诸多问题。利用数据挖掘技术可以将文本经过分类、聚类、关联规则发现等一系列处理,从海量数据中发现主题相关的信息,发现其中的模式、规律等,从而为舆情分析与预警提供依据。文本分类指按照预先定义好的类别集合,根据文本内容进行文本自动分类的过程。是一种有监督的机器学习问题。当前的文本分类技术,大多数是基于向量空间模型,用规则的向量来表示不规则的文本数据。文本分类一般分为训练和分类两个阶段,训练阶段需确定类别集合,并在类别集合选取代表性文档计算特征矢量。分类阶段则计算待分类文档特征矢量,通过与各集合特征矢量比较选取相似度最接近的集合。文本聚类在没有类别集合的情况下进行文本分类。主要依据文档相似度,通过计算将相似文档进行归类。不同的聚类算法采取不同的文本向量组织调度策略,以不同的方式进行相似或相异的比较,将大量无序的文本划归为若干类簇,使得不同类簇描述不同事件,得出不同的话题。文本聚类是一种无监督的机器学习问题,不需要预先定义集合,具有一定的灵活性和较高的自动化处理能力。网络获取的数据类型多样,比如对于一个舆情热点事件,我们可能从网页获取事件过程,从论坛、博客等获取关注度和转发量,从公安部门获取人员、关联信息等,这些数据我们需要通过关联规则发现关联关系,将数据整合为相关的数据网。关联规则挖掘过程主要包含两个阶段,第一阶段从获取的复杂数据聚合中找到出现频率高的数据组,第二阶段在这些高频数据组中产生关联规则。有效的关联规则对于舆情分析有重大意义,但目前我国对这一领域的研究应用尚不深入。

五、话题检测与追踪

话题不同于主题、事件等概念,话题是由某一个特定事件和与该事件相关的一系列事件共同构成的。在大量网络信息中,发现某一话题并按照该话题收集与其相关的信息,对信息重新组织,可以有效了解话题的发展与演变。信息的采集、处理、分类、关联等方法将网络中存在的大量无序数据整合为统一的、存在映射关系的数据网,这个过程以网络中已经存在的各类信息为主体进行简单检索和归类。随着网络规模的几何增长,网络信息多样化,网络舆情具有隐蔽性、突发性、自由性等特点。话题发现与跟踪技术的关注点不仅仅在网络已有信息的收集处理上,还要在大量信息基础上,自动分析判断,发现值得关注的深层次的、新的信息并进行追踪,更倾向于新信息的发现,话题跟踪依据与某话题相关的少量事件,判断出后续新闻报道流中与该话题相关的报道,并将相关报道收集起来实现跟踪。通过大规模文档自动聚类建立话题。话题检测与追踪对复杂无序的网络事件进行深入分析,总结事件中的特征规律。当某一网络事件特征符合其中规律时,就可以预测该事件的发展结果,并对于预测可能导致重大后果的事件进行舆情预警。网络监控人员可以根据预警提前对网络事件进行预防疏导,避免产生严重后果。

数据分析论文例2

二、最小二乘法拟合直线

最小二乘法是一种数学优化技术。它以某一社会、经济或自然现象为对象,寻找一拟合曲线,以满足给定对象系统的一组观测数据。通常要求选择的拟合曲线会使各观测数据到拟合曲线的误差的平方和最小。

本文研究销售企业(如商场)异常客户的性质。设一段时期内客户的累计消费金额为y,对应的消费时期为x。假定测得客户的n个数据(x1,y1),…,(xn,yn),则在XOY平面上可以得到n个实验点:Pi(xi,yi)(i=1,…n),这种图形称为“散点图”(如图1,图2)。在利用最小二乘法进行分析时,各种非线性关系的拟合曲线均可线性化,因此此处选择直线y=ax+b作为拟合直线,寻求x与y之间近似线性关系时的经验公式。其中a为直线的斜率,b为直线在y轴上的截距。

如果Pi(i=1,…n)全部位于同一条直线上,则可认为变量之间的关系为y=ax+b,但一般情况下不会如此。记估计值=axi+b,则各实验点与拟合直线之间的误差为εi=-yi=(axi+b)-yi,它反映了用直线y=ax+b来描述(xi,yi)时,估计值与观测值yi之间的偏差大小。则有:

要求偏差越小越好。但由于εi可正可负,简单求和可能将很大的误差抵消掉,只有平方和才能反映二者在总体上的接近程度,这就是最小二乘原则。于是问题归结为根据这一要求来确定y=ax+b中的a和b,使得最小。因为F(a,b)是关于a、b的二次函数并且非负,所以其极小值总是存在的。根据罗彼塔法则,F取最小值时,有:

于是得到了符合最小二乘原则的相应解:

三、基于斜率的异常客户挖掘算法

1.问题描述

本文的目的是研究某一消费时期内,异常客户的消费倾向。取异常客户一年内各月份的累计消费金额为参考,记录的数据如下(表1,表2)。根据其散点图(图1,图2)可以看出,客户的累计消费金额随时间都呈上升趋势,所以难以观察出该客户是否对商场保持持久的忠诚度,是否有转向竞争对手的可能。基于斜率的异常客户挖掘算法正是要解决识别客户性质这一问题。

2.算法描述

算法:Outlier_Analysis。根据输出的a值来判断异常客户的性质:积极的或消极的。

输入:客户数据,即参考点,由有序点对(xi,yi)表示;参考点的个数n。

输出:a(直线的斜率),b(直线在y轴上的截距)。

方法:

(1)初始化a、b。

(2)对客户的n个观测数据(即n个记录点)进行相关数据计算:

(3)ifa<0then

客户购买金额呈减少趋势,为消极客户

else

数据分析论文例3

改革以来中国发生的大规模人口迁移,是制度变迁和经济转型共同作用的结果。中国传统的计划经济体制是围绕推行重工业优先发展战略而形成的。在资本稀缺的经济中,推行资本密集型重工业优先发展战略,不可能依靠市场来引导资源配置,因而必须通过计划分配的机制把各种资源按照产业发展的优先序进行配置。由此,以资本和劳动力为代表的资源或生产要素,既无必要,也不允许根据市场价格信号自由流动,因此,随着20世纪50年代这种发展战略格局的确定,一系列相关制度安排把资本和劳动力的配置,按照地域、产业、所有制等分类人为地“画地为牢”,计划之外的生产要素流动成为不合法的现象。其中把城乡人口和劳动力分隔开的户籍制度,以及与其配套的城市劳动就业制度、城市偏向的社会保障制度、基本消费品供应的票证制度、排他性的城市福利体制等,阻碍了劳动力这种生产要素在部门间、地域上和所有制之间的流动。在这种制度下,不存在劳动力市场,农村居民没有政府的许可不可能向城市流动,劳动和人事部门通过计划来控制劳动力跨部门流动。

1978年底开始的农村家庭承包制改革,使农户成为其边际劳动努力的剩余索取者,从而解决了制度下因平均分配原则而长期解决不了的激励问题(meng,2000)。与此同时,政府开始对价格进行改革,诱导农民提高农业生产率。在农业剩余劳动力被释放出来后,非农产业活动更高的报酬吸引劳动力转移(cook,1999),从而推动农村生产要素市场的发育,原来主要集中在农业的劳动力开始向农村非农产业、小城镇甚至大中城市流动。

由于各种阻碍劳动力流动的障碍尚未拆除,以及政府鼓励农村劳动力就地转移的政策引导,20世纪80年代前期的劳动力转移以从农业向农村非农产业转移为主,主要是在乡镇企业中就业,即所谓的“离土不离乡”。但随着乡镇企业遇到来自国有企业、“三资”企业和私人企业越来越强劲的竞争,必须提高技术水平和产品质量,因而乡镇企业资本增加的速度逐渐加快,吸纳劳动力的速度相应减缓。农村劳动力面临着越来越强烈的跨地区转移的压力。与此同时,外商投资企业、中外合资企业、私营企业和股份公司等其他非国有部门在东部地区发展较快,扩大了对劳动力需求,并成为消除制约劳动力流动体制障碍的一支重要力量。

随着农村劳动力就地转移渠道日益狭窄,1983年政府开始允许农民从事农产品的长途贩运和自销,第一次给予农民异地经营以合法性。1984年进一步放松对劳动力流动的控制,甚至鼓励劳动力到临近小城镇打工。1988年中央政府则开了先例,允许农民自带口粮进入城市务工经商。到20世纪90年代,中央政府和地方政府分别采取一系列措施,适当放宽对迁移的政策限制,也就意味着对户籍制度进行了一定程度的改革。例如,许多各种规模的城市很早就实行了所谓的“蓝印户口”制度,把绝对的户籍控制变为选择性地接受。此外,1998年公安部对若干种人群开了进入城市的绿灯,如子女可以随父母任何一方进行户籍登记,长期两地分居的夫妻可以调动到一起并得以户籍转换,老人可以随子女而获得城市户口,等等。虽然执行时在一些大城市遇到阻力,但至少在中央政府的层次上为户籍制度的进一步改革提供了合法性依据。城市福利制度的改革也为农村劳动力向城市流动创造了制度环境。80年代后期开始逐步进行的城市经济改革,如非国有经济的发展,粮食定量供给制度的改革,以及住房分配制度、医疗制度及就业制度的改革,降低了农民向城市流动并居住下来和寻找工作的成本。

与其他方面的政策改革相比,户籍制度改革在很长时间里没有实质性的突破,成为劳动力流动的最大障碍。所有在就业政策、保障体制和社会服务供给方面对外地人的歧视性对待,都根源于户籍制度。随着时间推移,两方面的因素变化推动政府对迁移政策进行改革。一是城市户籍制度不再拥有外部或隐含的福利,也就是地方政府不再根据个人的户籍来提供就业、社会福利等各方面保障。这样,城市人口规模扩张不会给地方政府增添额外财政负担。二是地方政府意识到,劳动力流动不仅带来资源重新配置,而且也是城市融资的一个重要来源。这样,市场化发育水平相异的城市根据各自目标来推进城市户籍制度改革。

可见,通过户籍制度及一系列其他阻碍人口迁移的制度因素的改革而推动的劳动力流动,不仅是经济发展的一个重要内容,也是整个经济体制向市场机制转变的重要进程,并且以其他领域改革的进展为前提。这个转变或改革的结果便是劳动力市场的形成与发育,劳动力资源越来越多地由市场来配置。而在整个经济不断市场化的过程中,人口迁移也表现出转轨时期的特点。这是中国转轨时期人口迁移的特殊性所在。本文旨在利用2000年人口普查资料来分析人口流动与市场化之间的关系。

一、转轨时期人口迁移理论

人口和劳动力在地区间的流动,是劳动力市场在空间上从不均衡向均衡转变的过程。发展中国家在其经济发展过程中,伴随着工业化和城市化发展,大量农村人口和劳动力从农村流向城市,从低生产率的农业部门流向生产率较高的工业部门。刘易斯(lewis,1954)认为,发展中国家存在着典型的二元经济结构,农村存在着大量剩余劳动力和隐蔽性失业,农业中劳动力的边际生产力几乎等于零或为负值,农村劳动力从农业部门流出不会对农业产出带来负面影响,反而使留在农业部门劳动力的边际产出不断提高;随着城市中劳动力数量不断增加,城市工资水平开始下降,直至城市部门的工资水平与农业部门的工资水平相等,农村劳动力向城市流动才会停止。在刘易斯的模型中,劳动力在城乡之间可以自由流动,不存在显著的制度。城市现代部门的较高工资水平和传统农业部门的低工资水平,是劳动力在城乡之间流动的驱动力量。在托达罗(todaro,1969;harris和todaro,1970)两部门模型分析中,农村人口和劳动力的迁移取决于城市的工资水平和就业概率,当城市的预期收入水平和农村的工资水平相等时,劳动力在城乡之间分配和迁移都达到均衡。

由于城市经济存在着现代正规部门和非正规部门之分,农村劳动力向城市迁移首先进入非正规部门,然后才有可能进入正规部门就业。城市正规部门就业创造率越大,越有利于将更多的非正规部门劳动力转入正规部门;城乡收入差距越大,从农村流向城市非正规部门劳动力数量越多,城市非正规部门劳动力规模也越大。由于城市正规部门的就业创造率取决于工业产出增长率及该部门的劳动生产率增长率,城市工业的快速增长将有利于提高正规部门的就业创造率,从而减少城市非正规部门的劳动力规模。但是,这个效应有可能被城市工资增长所诱发的大量新增农村劳动力流入所抵消。因此,城市正规部门的就业创造结果带来了城市失业率的上升。

费尔茨(fields,1974)认为,托达罗模型中没有考虑农村劳动力在城市正规部门寻找工作的概率问题。由于非正规部门劳动力获得正规部门就业机会的相对概率较低,流入城市的农村劳动力大多数只能滞留于非正规部门。他们之所以能够接受较低的工资水平,主要是在于他们预期能够从得到的城市正规部门工作机会中获得补偿。在托达罗模型基础上,费尔茨引入了搜寻工作机会的观点,一方面强调了城市制度工资和相对就业概率对迁移过程的影响,另一方面也指出,非正式部门大量不充分就业的劳动力保证了劳动力市场实现均衡时的失业率低于托达罗模型得出的估计。非正式部门大量不充分就业的劳动力存在,在一定程度上缓解了城市的失业问题。

随着劳动力流动,城乡劳动力市场开始相互作用。但是,根据托达罗理论,城市失业率上升将起到减缓人口继续向城市迁移。如果依据费尔茨的观点,城市劳动力市场似乎对农村劳动力流动的影响不大。相比之下,在成熟的市场经济中,城市的失业率是影响劳动力流动的重要因素。托普尔(topel,1986)利用美国人口普查资料研究发现,1970~1980年,美国东部、中部和北部各州的平均失业率相对于全国水平上升了23%,同时西部和西南部各州的失业率却显著下降。同期,人口迁移的空间流向恰好与此相反,人口净流入地区为西部和西南部地区,东部、中部和北部均为人口净流出地区。

中国的人口迁移不仅具有发展中国家的一般特征,而且还有经济体制转型的独特之处。如前所述,中国特有的户籍制度及其改革过程,为人口和劳动力自由流动和择业提供了制度基础,这也是研究其他国家人口迁移的理论没有遇到过的问题。随着时间的推移,包括户籍制度在内的各项市场化改革措施必然对人口与劳动力迁移产生显著影响。同时,城市就业环境变化也为我们观察城乡劳动力市场的相互作用提供了条件。

首先,不仅是城乡之间、地区之间的收入差距驱动人口的迁移,市场化水平在城乡和地区间的差异也直接影响农村劳动力迁移决策,从而形成特定的迁移流向。在经济发展的初期,资本相对稀缺而劳动力相对丰富。因此,中国经济的比较优势在劳动密集型产业。在20世纪80年代以前的经济增长模式下,由于政府采取人为扭曲资金价格的方式,在资金密集型产业上投资过多,抑制了具有比较优势的劳动密集型产业的发展,导致产业结构的扭曲,资源配置效率的损失。经济改革以来,通过一系列制度变革,资源配置逐渐转向劳动力较为密集的产业,较好地发挥了中国劳动力资源丰富的比较优势。产品和生产要素市场的发育带来了资源重新配置效率的改善,对经济增长做出了重要的贡献(cai等,2002)。由于生产要素市场发育上在地区之间不平衡,这种资源重新配置的效果主要体现在沿海地区。2000年,92.1%进出口贸易集中在东部地区,中西部地区分别为4.3%和3.6%.同年,86.5%的外商直接投资集中在东部地区,中西部地区分别为8.9%和4.6%.因此,劳动力迁移在东部地区更为活跃,迁移的流向也以从中西部地区向东部地区为特征。

其次,正如在其他国家观察到的那样,较大的迁移距离增加了交通成本、弱化了社会网络关系和目的地的就业信息,减少了迁移者的收益预期,因此,迁移距离上升降低了迁移发生概率。工作的不稳定性和信息获得的不确定性,不仅造成了迁移流向是一个从县内流向县外,从省内向省外的渐进过程,而且使得亲友等社会网络成为迁移者获得非正规部门就业信息的主要方式。格林伍得(greenwood,1969)认为,迁移存量对人口在地区之间迁移扮演着社会网络的作用。先前的迁移可以为后来者提供信息和其他方面的帮助,减少迁移风险,从而对后期的迁移产生影响。蔡fǎng@①(cai,1999)研究发现,75.8%的省内迁移者、82.4%的跨省迁移者的就业信息获得是通过住在城里或在城里找到工作的亲戚、老乡、朋友获得的。因此,农村劳动力向城市流动通常受到距离所反映出的社会网络强弱的限制,形成分阶段迁移。

第三,尽管户籍制度继续阻隔着农村劳动力向城市迁移,但市场化改革使得城乡劳动力市场开始融合,城市就业环境变化必然对农村劳动力向城市流动带来影响。随着国有企业亏损和非国有部门扩大,越来越多的原国有企业职工开始和迁移者在非正式部门展开就业竞争。在这种情况下,农村劳动力“是走还是留”,取决于正式部门和非正式部门的就业状况,而且其决策通常是暂时的,而不是长期的。这与harris和todaro(1970)模型中所讨论的情况(迁移者在非正式部门临时就业、等待得到正式部门就业机会),以及sethuraman(1981)观察到其他发展中国家的情况(大多数迁移者将他们在非正式部门就业视为永久性的)都有显著差异。一个普遍观察到的现象是,中国农村劳动力向城市和发达地区流动,通常具有季节性特点,最多以年为单位在原住地和迁入地之间往返,呈现出“钟摆式”的流动模式。正如solinger(1999)指出的那样,城市对农村劳动力的大量需求是推进户籍制度改革的必要条件。在非国有经济、特别是外商投资较快的地区,市场力量日益显现,迁移受到鼓励。

二、空间分布特征变化

1990年以来,中国地区收入差距进一步扩大,吸引了中西部地区劳动力向东部地区流动。同时,要素市场发育及资源配置市场化程度,对地区经济增长越来越起着主导性的作用。东部地区不仅对外开放时间早,而且市场发育迅速,较高的市场化水平不断消除了劳动力等要素跨地区间流动的制度,以至成为劳动力流动的主要吸纳地区。而劳动力向东部地区流动反过来也推动了该地区的经济增长,改善了劳动力资源配置效率(cai等,2002)。表1显示了人口迁移空间分布状况的长期变化。1987~2000年,人口迁移的空间分布特征是:地区内部迁移(其中主要是省内迁移)比例始终高于地区间的迁移比例。但地区内部和地区之间的迁移比例则随着时间不断发生变化。东部地区内部迁移比例提高,东部地区流向中西部地区的比例下降。而中西部正好与此相反,中部和西部地区内部迁移比例趋于下降,中部向西部、西部向中部的迁移比例也在下降,而中西部向东部地区流入比例不断上升。

注:(1)从统计口径上看,1987年迁移数量包括迁入时间在半年以上的市、镇和县之间的迁移人口;1990年迁移数量包括迁入时间在1年以上的市、县之间的迁移人口;1995年迁移数量包括迁入时间在半年以上的市,区、县之间的迁移人口;2000年迁移数量包括迁入时间在半年以上的乡、镇、街道之间的迁移人口。(2)全部迁移人口包括地区内部和地区之间的人口迁移,不同年份在迁移时间规定和迁移范围上的差别对地区之间分布会带来一定影响。尽管如此,我们仍可以比较不同年份之间迁移流向的变化。

资料来源:《1987年全国1%人口抽样调查资料》、《1995年全国1%人口抽样调查资料》、《中国1990年人口普查资料》、《中国2000年人口普查资料》。

根据2000年第五次人口普查的10%资料显示,全部迁移人口数量为1246万,占总人口的10.6%,其中省内迁移为7.7%、跨省迁移为2.9%.在总迁移人口中,省内迁移的比重始终很高,为73.4%.当我们描述跨省迁移的流向时,其主要以东部地区为迁移目的地的倾向更加明显。表2给出了三类地区跨省迁移比例的空间交叉分布。2000年,东部地区跨省迁移近65%集中在东部其他各省(市),中部地区跨省迁移超过84%集中在东部地区,西部地区跨省迁移超过68%集中在东部地区。从时间趋势上看,1987~2000年,东部地区内部跨省迁移比例上升了近15%,而中西部地区向东部地区迁移比例上升将近24%,后者比前者高出9个百分点。

从流动的出发地和目的地看,迁移可以被划分为城市到城市的迁移、城市到农村的迁移、农村到农村的迁移和农村到城市的迁移四种主要类型。从这种类型划分来观察地区间迁移的流向,也有助于我们理解转轨时期中国人口迁移的特点。从全国来看,城市到城市的迁移和农村到城市的迁移是目前迁移的主要形式。2000年,两者合计占总迁移人口的77.9%,而且农村到城市迁移的比重(40.7%)大于城市到城市的迁移(37.2%)。农村到农村的迁移比重较低,仅占全部迁移的18.2%.而城市到农村的迁移比例最低,不到总迁移人口的1/25.从时间趋势看,城市到城市的迁移所占比重,在东部、中部和西部三类地区都呈现上升趋势,而农村到城市的迁移比重略呈下降趋势。

三、迁移的决定因素:计量分析

在迁移决定因素的实证分析中,早期的迁移模型将重力迁移模型和就业为目的的迁移模型合二为一,假定迁移数量不仅与迁入地和迁出地的人口和迁移距离有关,而且取决于两个地区之间的工资和失业率的比较。通常,采用下列双对数模型来分析这些因素对迁移流向的影响(lowry,1966;greenwood,1969;fields,1979)。即:。式中,m为迁移率,x为影响迁移流向的各种因素,d为迁移距离,i,j分别为迁出地和迁入地。

舒尔茨(schultz,1982)认为,人口变量反映的是其他影响迁移而没有在模型出现的社会经济变量的作用,它没有行为学上的意义。由于迁移是人口增长的一部分,在迁移实证模型中引入人口规模会带来计量上的共同偏差(fields,1979)。而且,由于迁移存量实际上是人口规模的一部分,如果在实证模型中同时引入这两个变量,将带来严重的多重共线问题,大大降低回归参数估计的效率。因此,通常做法是在实证模型中不引入人口变量。

在回归方程的函数形式选择上,费尔茨(fields,1979)认为,迁移决策本质上是在相互排斥的替代方案之间的一种选择,非对称模型比对称模型对人口迁移具有更强的解释能力。此外,双对数线性回归方程还能够消除奇异值和异方差对估计效率的影响,满足理论上就业机会与工资之间的乘积要求,以及提高回归方程的拟合程度等。他选择了滞后解释变量办法来消除解释变量的内生性问题。我们也采用了所有解释变量数据均为1995年数据的办法来解决迁移模型的内生性问题。

本文数据来自2000年第五次全国人口普查长表资料(10%样本)和微观数据(长表1%样本),1995年全国1%人口抽样调查资料及国家统计局《中国统计年鉴(1996)》。在数据处理上,正式出版的第五次人口普查长表资料没有农村向城市跨省迁移劳动力数量及其失业率数据,我们利用第五次全国人口普查的微观数据计算了这些数据。用于回归分析变量的统计值见表3.

表3用于回归分析变量的统计值

注:*根据微观数据计算。

迁移率的计算,我们采用格林伍得(greenwood,1969)的定义,用1995年11月1日至2000年10月30日从省迁到省的人口数,除以1995年11月1日以前住在省的人口数。根据长表计算得到的迁移率,包括了所有年龄段跨省农村到城市、城市到城市、农村到农村、城市到农村的四种类型迁移人口;用微观数据计算15~64岁农村劳动力向城市的迁移率。按照这种方法计算得到的两个迁移率的平均值都不高(见表3)。

迁移距离为省会之间铁路公里数。中国地域辽阔,铁路是中国跨省迁移的主要交通方式。这点可以从每年春节农民工返乡造成的铁路拥挤状况中得到印证。迁移距离不仅反应了用于直接交通费用的高低,而且在一定程度上代表了迁移所带来的心理成本大小。随着迁移距离增加,迁移带来的不确定性和迁移风险也会上升,迁移成本随之增加(schultz,1982;greenwood,1975)。这在劳动力市场不发达的情况下尤其如此。

直接用城市工工资收入和农村人均纯收入来作为工资率的变量显然不合适。随着收入多元化,相当于实际收入的部分并没有反映到名义收入之中,城乡收入在可比性上也存在一定问题(solinger,1995;jefferson,1992)。奥尼尔(o''''neill,1970)建议采用消费指标来克服收入指标作为工资率变量上的不足。我们利用各省城乡人口作为权重,对城乡居民人均消费支出进行加权平均,作为各省的工资率变量,预期工资率对迁移流向存在两种不同的效应。其中,迁入地为正向效应,而迁出地为负向效应。

1995年全国1%抽样调查和第五次人口普查都对城乡劳动力的就业状况进行了统计。1995年调查问卷中有三项指标用来测度劳动力在调查前一周是否处于失业状态:第一项是从未工作正在找工作,第二项是失去工作正在找工作,第三项是企业停产等待安置的劳动力。2000年人口普查只包括前两项。据此可以计算得到1995年和2000年城乡劳动力的失业率,分别为2.2%和3.6%.由于城乡劳动力的失业率包括了农村劳动力,这低估了城市劳动力市场的就业状况。《中国2000年人口普查资料》公布了分城市、镇和农村的经济活动人口资料,据此计算的城市、镇和农村的失业率分别为9.4%、6.2%、1.2%.利用2000年微观数据计算的城市本地劳动力、城市向城市迁移劳动力、农村向城市迁移劳动力的失业率,分别为9.1%、7.9%和3.6%.如果在迁移模型中忽略了迁移存量,将导致高估其他解释变量对迁移的影响(greenwood,1969)。按照格林伍得的方法,迁移存量应该是以1995年为时点,计算出生在省且居住在省的所有人口。由于中国人口普查资料只提供了出生后一直住在本地和1995年11月1日之前迁入本地等资料,因此,我们采用1995年11月1日之前迁入本地人口指标作为迁移存量的变量。本文中长表的迁移存量包括所有人口,微观数据的迁移存量只包括15~64岁的人口。我们预期迁移存量对人口迁移有正向效应。

在分析地区人均收入差异和经济增长中,贸易开放程度通常被看做是影响地区收入增长的重要因素(barro和sala-i-martin,1995;cai等,2002)。贸易开放程度越高,参与国际市场一体化程度也越高。但是,扭曲的贸易和发展战略也同样起到扩大出口,提高gdp中的贸易份额比重。相比之下,外商直接投资是国外投资者的选择。从长期来看,为了获得最大利润和规避风险,国外企业在其投资过程中要对各地的产品和要素市场发育情况、体制与政策的透明度等因素进行综合考虑,并最终做出投资选择。外资企业进入之后,它利用劳动力市场来解决用人需求,这与国有企业的人事制度形成鲜明对比。因此,我们选择了外商直接投资作为市场化程度的变量,来分析它们对人口迁移的影响。改革以来,虽然所有省份的外商直接投资数量都在增加,但东部地区与中西部地区之间的差异在不断扩大。中国人口迁移流向分布主要集中在东部地区,这与东部地区对市场化改革程度较高是分不开的。四、回归结果与讨论

方程1~3是利用第五次人口普查长表资料得到的回归结果,方程4、5是利用第五次全国人口普查微观数据得到的回归结果。由于海南、重庆、与其他省会之间距离未能得到,在回归中剔除了这3个地区,长表资料中实际用于回归的样本数量为756个。在微观数据中,由于有些省份的迁移率或农村向城市迁移劳动力数量为零,取对数后,这些数据变成缺省值,所以用于回归的样本数量为506个。

从表4回归结果看,利用长表资料得到的回归方程,解释了大约60%的所有人口跨省迁移的行为;用微观数据得到的回归方程,解释了大约30%的跨省农村劳动力向城市迁移的行为。表4的非对称双对数迁移模型估计结果也表明,迁入地社会经济变量对人口迁移的影响大于迁出地这些变量所发挥的作用。

回归方程1~5中大多数解释变量的回归系数t值,如迁移距离、人均消费水平、失业率、迁移存量等,都达到了1%或5%的显著性水平,并且作用方向上与前面的理论预期结果也基本一致。

表4中回归方程1和2的区别是采用了不同的失业率数据,前者是1995年的失业率,后者是2000年的失业率。使用1995年失业率数据虽然有助于克服内生性问题,但方程1中迁出地失业率回归系数的绝对值大于迁入地失业率回归系数的绝对值,这个结果可能与现实情况并不吻合。

1995~2000年,中国城市就业环境发生了急剧变化。伴随着国有企业改革和城市社会福利体制改革,企业大量富余人员被释放出来,城市失业率迅速上升。为了解决本地城市职工就业问题,不少地方政府采取了城市就业保护政策,这势必对以就业为目的的劳动力流动产生较大影响。迁移者是理性的,如果目的地的就业机会较小,迁移者将选择不流动,以减少迁移风险和成本。这样,迁入地的就业机会就显得更为重要。

表4迁移决定因素回归结果

注:(1)采用异方差检验方法(breusch-pagan/cook-weisberg)发现,表中回归方程的依次为:7.85、1.54、1.38、2.80、4.85.我们对回归方程1、5采用robust估计来消除异方差的影响。(2)方程1和5的括号内为robustt值,方程2~4括号内为t值,*代表5%显著性水平,**代表1%显著性水平。

考虑到2000年失业率真实地反映了就业环境的变化,我们以回归方程2为基准,分析不同因素对迁移的影响,并进行比较。在其他条件不变的情况下,迁移距离上升1%,迁移率下降1.08%.受迁移距离的影响,2000年跨省迁移人口比例不到30%,绝大多数迁移人口选择了省内流动。迁移距离在空间位置上是固定的,但改善交通运输条件和制定合理的交通价格有利于减少迁移者的迁移成本,促进劳动力流动。

在做迁移决策时,潜在的迁移者不仅要考虑两地之间直接的收入差距,而且还要考虑到就业机会大小。在回归方程2中,迁入地人均消费水平回归系数在绝对值上是迁出地的近4倍,但迁入地失业率回归系数在绝对值上是迁出地的3倍以上。迁入地失业率对迁移决策较大的边际影响与迁移者面临的选择有关。本地劳动力市场状况是既定的,迁移者对它别无选择。相反,迁移者对迁入地劳动力市场是可以进行选择的,失业率越高的地区,迁入数量就会下降。

目的地的就业信息提供和帮助,对迁移决策有重要作用。迁移存量的回归系数也证实了这一点。社会网络等非正规信息渠道虽然在迁移中发挥着重要作用,但随着人口流动规模扩大,加快劳动力市场信息体系建设就显得非常重要。

将外商直接投资变量引入回归方程2,就得到回归方程3.引入这个变量之后,迁移距离和失业率等解释变量的回归系数及其显著性变化不大,而人均消费水平的回归系数及其显著性发生较大改变。从绝对值来看,方程3中的人均消费水平回归系数小于回归方程2中的回归系数估计值,迁出地人均消费水平的回归系数显著性有所下降,主要是人均消费水平与外商直接投资之间存在较高相关关系导致的结果(注:人均消费水平与外商直接投资的相关系数为0.56.)。跨省人口迁移比例主要分布在东部地区,它与外商直接投资之间存在较强的相关关系(注:外商直接投资与迁移存量之间的相关系数为0.76.),引入外商直接投资变量之后,迁移存量的回归系数数值下降约50%.为了观察城市劳动力市场对农村劳动力迁移决策的影响,我们利用微观数据做进一步分析。回归方程4引入了农村迁移劳动力的失业率,回归结果进一步支持上述发现,即迁入地的就业机会对迁移者来说更为重要。回归方程5引入了城市劳动力失业率。结果表明,城市失业率对于农村劳动力跨省迁移率有显著性影响,其回归系数在绝对值上不仅大于回归方程4中失业率的回归系数,而且大于回归方程2中的回归系数,这说明城市劳动力市场就业形势确实对农村劳动力的迁移决策有重要作用。改善城市就业环境将有利于促进农村劳动力流向城市,起到加速城市化的作用。

五、结论

20世纪80年代以来在中国出现的大规模人口迁移现象,不仅具有发展中国家从落后的农业经济向工业经济转变的一般特征,还具有从计划经济向市场经济转变的特殊性。将二者结合在一起,既有助于考察中国独特的制度特征对人口迁移的影响,又能够通过对中国案例研究来拓展迁移理论。

经济发展水平和市场发育程度在地区之间的不平衡,决定了人口迁移的基本方向不仅是从农村向城市的迁移,而且是从中西部地区向东部地区的迁移。既然中国经济的进一步增长仍然有赖于从生产要素市场发育从而劳动力流动中获得资源重新配置效率(注:约翰森(johnson,1999)认为,在今后30年,如果迁移障碍被逐渐拆除,同时城乡收入水平在人力资本可比的条件下达到几乎相等的话,劳动力部门间转移可以对年经济增长率贡献2~3个百分点。),加快中西部地区市场制度的建设,特别是清除阻碍劳动力市场发育的各种制度,可以引导和规范人口迁移,使其不仅具有微观理性,而且具有更加理性的宏观后果。市场化改革措施(如扩大外商直接投资和对外贸易等)所带来的经济发展将有助于获得“一石二鸟”的功效,也就是讲,它为劳动力流动不断营造同样的发展环境,并在创造就业机会的同时,推进城乡户籍制度改革。

「作者简介蔡昉中国社会科学院人口与劳动经济研究所所长、研究员;王德文中国社会科学院人口与劳动经济研究所,副研究员。

「参考文献

1.中国社会科学院人口研究所(1988):《中国74城镇迁移抽样调查(1986)》,《中国人口科学》编辑部。

2.国家统计局(1988):《1987年全国1%人口抽样调查资料》,中国统计出版社。

3.国家统计局(1997):《1995年全国1%人口抽样调查资料》,中国统计出版社。

4.国务院人口普查办公室(1993):《中国1990年人口普查资料》,中国统计出版社。

5.国务院人口普查办公室(2002):《中国2000年人口普查资料》,中国统计出版社。

6.barro,r.&x.sala-i-martin(1995),economicgrowth.newyork:mcgrawhi,inc.

7.cai,fang(1999),spatialpatternsofmigrationunderchina''''sreformperiod,asianandpacificmigrationjournal,vol.8,no.3.

8.cai,fanganddewenwang(1999),sustainabilityofeconomicgrowthandlabourcontributioninchina,journalofeconomicresearch,no.10.

9.cai,fang,dewenwangandyangdu(2002),regionaldisparityandeconomicgrowthinchina:theimpactoflabormarketdistortions,chinaeconomicreview,13,197-212.

10.cook,sarah(1999),surpluslaborandproductivityinchineseagriculture:evidencefromhouseholdsurveydata,thejournalofdevelopmentstudies,vol.35,no.3:16-44.

11.fields,g.s.(1974),rural-urbanmigration,urbanunemploymentandunderemployment,andjob-searchactivityinldcs,journalofdevelopmenteconomics2,165-187.

12.fields,g.s.(1979),placetoplacemigration:somenewevidence,reviewofeconomicsandstatistics,vol.61,issue1,21-32.

13.greenwood,j.michael(1969),ananalysisofthedeterminantsofgeographiclabormobilityintheunitedstates,reviewofeconomicsandstatistics,vol.51,issue2,189-194.

14.greenwoodj.michad(1975),researchoninternalmigrationintheunitedstates:asurvey,journalofeconomicliterature,vol.13,issue2,397-433.

15.harris,j.,andm.todaro(1970),migration,unemploymentanddevelopment:atwosectoranalysis,americaeconomicreview40,126-142.

16.jefferson,g.h.andt.g.rawski(1992),unemployment,underemploymentandemploymentpolicyinchina''''scities,modernchina,18(1),42-71.

17.johnson,d.gale(1999),agriculturaladjustmentinchina:thetaiwanexperienceanditsimplications,officeofagriculturaleconomicsresearch,theuniversityofchicago.

18.leweis,w.a.(1954),economicdevelopmentwithunlimitedsuppliesoflabor,themanchesterschoolofeconomicandsocialstudies22,139-191,reprintedina.n.agarwalaands.p.singh(eds.),theeconomicsofunderdevelopment.bombay:oxforduniversitypress,1958.

19.lin,j.yifu,fangcai,andzhouli(1996),thechinamiracle:developmentstrategyandeconomicreform,hongkong:chineseuniversitypress.

20.lowry,i.s.(1966),migrationandmetropolitangrowth:twoanalyticalmodels.sanfrancisco:chandlerpublishing.

21.meng,xin(2000),labormarketreforminchina,cambridge,uk:cambridgeuniversitypress.

22.o''''neill,j.a.(1970),theeffectofincomeandeducationoninter-regionalmigration,unpublishedph.d.dissertation,columbiauniversity.

23.schultz,t.paul(1982),lifeiimemigrationwithineducationalstratainvenezuela:estimatesofalogisticmodel,economicdevelopmentandculturalchange,30(3),559-594.

24.solinger,d.(1995),thechineseworkunitandtransientlaborinthetransitionfromsocialism,modernchina,21(2),155-183.

25.solinger,d.(1999),citizenshipissuesinchina''''sinternalmigration:comparisonswithgermanyandjapan,politicalsciencequarterly,vol.114,no.3,455-478.

数据分析论文例4

1.Oracle。Oracle是一个最早商品化的关系型数据库管理系统,也是应用广泛、功能强大的数据库管理系统。Oracle作为一个通用的数据库管理系统,不仅具有完整的数据管理功能,还是一个分布式数据库系统,支持各种分布式功能。Oracle使用PL/SQL语言执行各种操作,具有可开放性、可移植性、可伸缩性等功能。

2.Sybase。最新版本的SybaseAdaptiveServer与以前的版本相比,具有更丰富的功能设置,Sybase比较强大的地方在于它对资源的低占有率上。在这一方面,Sybase15还引入了新的“专利查询过程技术”,显示了增强的性能和降低的硬件资源消耗。

3.MicrosoftSQLServer。MicrosoftSQLServer是一种典型的关系型数据库管理系统,可以在许多操作系统上运行,它使用Transact-SQL语言完成数据操作。由于MicrosoftSQLServer是开放式的系统,其它系统可以与它进行完好的交互操作。

4.MicrosoftOffice。作为MicrosoftOffice组件之一的MicrosoftAccess是在Windows环境下非常流行的桌面型数据库管理系统。Access既拥有用户界面(VB可以用来开发用户界面);也拥有逻辑、流程处理,即VBA语言(VB也可以用来做逻辑处理);又可以存储数据,即在“表”中存储数据。使用MicrosoftAccess无需编写任何代码,只需通过直观的可视化操作就可以完成大部分数据管理任务。在MicrosoftAccess数据库中,包括许多组成数据库的基本要素。这些要素是存储信息的表、显示人机交互界面的窗体、有效检索数据的查询、信息输出载体的报表、提高应用效率的宏、功能强大的模块工具等。

5.VisualFoxPro。VisualFoxPro是Microsoft公司VisualStudio系列开发产品之一,简称VFP是Xbase数据库家族的成员,可以运行于Windows9X/2000和WindowsNT平台的32位的数据库开发系统。VisualFoxPro提供了一个功能强大的集成化开发环境,采用可视化和面向对象的程序设计方法,使数据管理和应用程序的开发更加简便。VisualFoxPro是数据库管理软件,可实现数据与应用程序独立。

二、如何选择适合自己的数据库软件

1.按性能应从以下几个方面予以考虑:

(1)构造数据库的难易程度;(2)程序开发的难易程度;(3)数据库管理系统的性能分析;(4)对分布式应用的支持;(5)并行处理能力;(6)可移植性和可扩展性;(7)数据完整性约束;(8)并发控制功能;(9)容错能力;(10)安全性控制;(11)支持汉字处理能力。

2.按需求来选择

选择一个数据库的主要理由就是它的功能是否可以很好地支持你的应用程序。人们通常使用数据库来完成的任务有:支持Web、事务处理、文本搜索,有的情况下复制也是一个重要的要求。在事务处理方面,Oracle看上去更有领先优势,接下来是微软的SQLServer。没有一个开源数据库具有可以与Oracle相媲美的事务处理功能。

3.按易用性和管理来选择;

4.按支持性来选择;

5.按成本因素来选择。

三、结论

Oracle是商业数据库的代表,具有非常丰富的功能、广泛的平台支持和大量的附加功能。目前Access更常用一些,Access不是一种存储格式,是一种软件。ACCESS这个软件本身就具有开发者使用的界面和适合于“最终用户”的界面。但学习FoxPro可为学型数据库管理软件大典基础。微软的SQLServer只可以运行在其Windows操作系统平台上。不过由于Windows操作系统的广泛普及,缺乏对其他系统的支持并没有阻挡SQLServer的市场份额的增长。SQLServer是真正的中大型数据库,VFP是桌面数据库,使用方便、易学,但实际上牺牲了真正数据库的一些功能,如安全性;此外,VFP既是数据库又是编程语言(开发工具)。SQLServer是中大型数据库,VFP是带有自身数据库的编程语言。

总体来说,选择什么样的数据库要看你的应用程序的需要。如果它是以阅读数据库为主的Web应用,MySQL无疑是最佳选择。而如果需要那些事务处理和复杂的数据库功能,那么可选择Oracle和微软的SQLServer。如果你需要一些商业数据库的高级功,但又不想支付授权费用,那么可以考虑PostgreSQL或Ingres。对于嵌入式数据库应用,MySQL和Sybase所占有的系统资源最少。总之,最适合的才是最好的!

参考文献:

[1]刘守根.数据库管理系统的现状和发展方向初探.内江科技,2006,(2).

[2]陈业斌.分布式数据库管理系统的设计与实现.安徽工业大学学报(自然科学版),2005,(3).

[3]姬志刚.计算机、网络与信息社会.科技咨询导报,2006,(20).

[4]薛向阳.数据库管理系统的开发与程序的设计.渭南师范学院学报,2005,(2)

数据分析论文例5

Abstract:The paper focused on Linked Data which has been published by 1990- 2010 in China for the analysis of data,then used quantitative analysis method to carry on the statistical analysis,analyzed the situation of Linked Data from time distribution,author distribution,periodicals distribution,Scientific research fund distribution and the subject distribution.At the same time,this paper summarized the shortcoming and development trend of Linked Data research.

Key words:Linked Data;quantitative analysis;Semantic Web

关联数据的概念为WWW(World Wide Web)的发明者,被誉为互联网之父的Tim Berners-Lee于2006年在《关联数据笔记》中首次提出,在该文中他分析了Web的发展与演变,提出了发展数据网络的思想,而数据网络的核心和关键则是关联数据。2009 年在TED大会上,他提出关联数据就是一箱箱数据,当通过开放标准关联在一起时,从中可以萌发出很多新事物和新应用[1]。

关联数据简单的说就是一些RDF格式的数据,也是用三元组(主体,谓词,客体)来表示资源。所以研究关联数据,知道数据的RDF(Resource Description Framework)格式是必不可少的。关联数据和RDF数据最主要的区别在于关联数据是要到网上,并供人搜索的,所以描述资源的三元组的不再是统一资源标志符(URI),而是URI和.

[2]白海燕.基于关联数据技术的信息组织深度序化研究[2010-09-26]..

[3]Boutin G.Tying Web 3.0,the semantic Web and linked data together[2010-09-26].http:///archives/understanding_the_new_web_era_web_30_linked_data_s.php.

[4]赵华等.UG在我国的研究、应用现状及进展[J].现代情报,2008(10):137-141.

[5]黄永文.关联数据在图书馆中的应用研究综述[J].现代图书情报技术,2010,05:1-7.

[6]吴玥,李占羽.基于关联数据开放政府数据[J].电脑知识与技术,2010,31:8688-8691.

[7]赵梓彤,谢海先.关联数据在网络信息管理中的应用[J].图书馆学研究,2011,12:47-50.

[8]张宁.基于关联数据的农业信息空间数据组织研究[J].农机化研究,2012,04:249-252.

[9]洪娜,钱庆,方安,范炜,李亚子,王军辉.生物医学关联数据研究进展与比较分析[J].图书情报工作,2012,06:123-129.

[10]刘炜.关联数据:概念、技术及应用展望[J].大学图书馆学报,2011,02:5-12.

[11]D2R Server-Publishing Relational Databases on the Semantic Web[EB/OL][2010-12-28].http://www4.Wiwiss.fu-berlin.de/bizer/d2r-server/.

[12]:Overview[EB/OL].[2010-09-12].http:///.

[13]Open Link Software[EB/OL][2010-09-11].http://.

[14]Coetzee P,Heath T,Motta E.SparqPlug:Generating linked data from legacy Html,Sparql and the DOM.[2010-09-26].http:///ldow2008/papers/05-coetzee-heath-sparqplug.pdf.

[15]Cygan关联数据k B.Pubby-a linked data frontend for Sparql endpoints.2010-09-26].http://www4.wiwiss.fu-berlin.de/pubby/.

[16]Talis platform.[2010-09-26].http:///platform/.

[17]沈志宏,张晓林.关联数据及其应用现状综述[J].现代图书情报技术,2010,11:1-9.

[18]徐华.关联数据在国外图书馆中的应用及其借鉴意义[J].图书馆学研究,2011,16:87-89.

数据分析论文例6

统计数据质量问题是衡量统计工作的核心指标。尤其是我国加入WTO,与世界经济接轨的今天,社会各界对统计信息的需求量越来越大,对统计信息质量的要求也越来越高。统计信息质量的高低直接影响和决定着统计信息的可利用性。统计数据质量低下将会直接导致错误的决策。因此,努力提高统计数据的质量,实现统计信息的准确、有效、全面、有着重要的意义。

一、统计数据质量的含义

传统的统计数据质量仅仅指其准确性,通常用统计估计中的误差来衡量。但如今“质量”的概念被拓宽了,“统计数据质量”的概念也有必要拓宽。目前各国统计机构和有关国际组织对统计数据质量含义的解释和理解仍存在一定的分歧,对统计数据质量应涵盖哪几个方面,还没有统一的标准。各国从本国的实际情况以及对数据质量含义的理解出发,确定了不同的数据质量标准。如英国政府统计数据质量标准是准确性、时效性、有效性、客观性;韩国的质量标准则是适用性、准确性、时效性、可索取性、可比性、有效性。在我国,统计数据质量主要包括统计数据的核心质量、形式质量及延伸质量三大方面。

二、我国统计数据质量管理现状及存在问题

改革开放以来,我国统计人员大胆探索,辛勤实践,在指标体系、调查方法、统计标准、技术手段、数据报送与处理方式等方面进行改革,较好地满足了社会各界对统计信息的需求,推动了统计事业的发展。但是,浮夸风以及片面追求假、大、空现象仍然存在,这些都违背了统计工作的基本要求,阻碍了统计工作的发展。目前我国统计数据质量管理上存在的问题主要有:

1.统计数据失真。统计制度不够完善是造成统计数据失真的内在因素,表现在:统计部门内部各专业在统计方法、指标涵义、口径上还存在一定程度上的不统一;专业间统计方法改革不同步;统计范围、口径的理论值与实际值出入有时还比较大;统计与财会在核算周期上还存在一些差异,并且在统计数据质量管理上各级统计管理部门在统计执法过程中力度不够,对统计过程缺少制约与监督,对统计数据缺乏校验与复查的有力措施。

2.设计时需求不明确,缺乏远见。数据库与文件管理系统的重要区别之一在于不仅存放数据,而且存放数据之间的相关性。相关性不仅表现在数据依存的时间、地点、类型和名称等原始属性上,还会在数据的转移过程中产生再生的相关性。搜集数据阶段使用的方法不正确,应用需求不明确等都会影响数据完整性和准确性。

3.数据处理手段发展不平衡。数据处理手段出现从基层的手工操作到省、国家一级政府统计数据处理的高度信息化。就地域而言,占全国70%以上的地方统计数据处理是手工操作或半手工操作,速度慢、效率底,可靠性差,这与统计的及时性要求不相符合。统计所反映的当前经济现象的真实性难以确定。

4.质量管理监督措施不够健全。由于多数检索系统没有进入实际应用阶段,数据质量的控制和监督往往被人们忽视。绝大多数单位在数据准备、录入阶段缺乏审核等质量控制、监督措施,著录标引的检查,一般采取自己审核或互相审核的方法。缺少科学的统计数据质量评估和监控造成统计数据不同层次脱离实际的偏差,给决策带来极大的不便。

5.统计人员队伍素质不高。基层统计工作薄弱,统计手段落后,统计人员素质比较低,基层统计队伍不稳定都影响了统计数据质量。

三、我国统计数据质量管理问题的原因分析

在目前我国统计数据质量管理中,以单项数据质量管理为主,缺乏综合的、全面的质量管理体系;对数据质量内涵的理解相对来说仍较为狭隘,在实践中主要围绕着数据准确性进行评估,对数据质量的其他方面重视不够;在评估过程中,没有让社会公众和用户充分参与进来,评估机制缺乏必要的透明和有效性,未能取得社会各界对数据资料的充分理解和认可;对于多种经济成分的数据质量评估方法不够明澈;缺乏明确的数据质量管理要求和目标。

从数据质量管理的角度来看,我国统计数据质量管理存在诸多问题的原因在于:

1.统计数据质量理论及其控制技术与政府统计实践脱节。各种统计数据质量控制技术在我国的实际统计工作中的研究和应用不多,对于经常性统计数据质量控制,实际上还主要是采用事后的分析评估和挤水分的方法,而事前的分类预防控制不多,建立误差模型进行分析的也不多,所应用的仅有的一些事后质量控制技术和统计数据质量管理的组织活动没有实现很好的结合,虽然指定了主要统计数据质量的评估方法,但具体方法的应用、由哪些部门负责以及这些部门的质量责任、职权和义务并不明确。

2.统计数据质量管理中的全面质量管理并不全面。全程性上,只重视调查环节,不重视统计设计环节对数据需求的研究,从而影响数据相关性、及时性的提高;全域性上,所实行并取得很大成功的统计数据全面质量管理的措施及经验,主要集中于几个专项的普查,应用范围较窄;全员性上,只重视统计系统内部的人员控制,而对统计系统外部的,占统计工作人员2/3的基层统计人员却无从控制。

3.缺乏明确的质量管理目标和统一的质量管理规范。对统计数据质量管理缺乏明确的质量方针和质量目标,缺乏相对统一的统计数据质量管理标准和规范,导致了统计数据质量的混乱。

4.控制措施与事后评估结果及发现的问题没有很好结合。统计是一项循环往复的过程,因此每一次新的修订统计设计都应反映出上一次数据质量评估的结论以及质量改进的要求。但是从公布实施的统计调查制度上看,事先的控制措施,如填表要求中的平衡关系,逻辑审核关系用于质量控制的设计内容较少。

四、提高我国统计数据质量管理的对策和建议

多年来,国家统计局一直把统计数据放在首要地位,通过不断努力与实践的,摸索出一套方法,即一靠科技,二靠法制,对统计数据实行全面质量管理。在此,结合专家学者对统计数据质量管理的研究,笔者提出一些自己的看法。

1.搞好统计调查方法的改革是提高统计数据质量的前提。国家统计局在《国家统计制度的总体方案》中提出了我国统计调查方法改革的长远目标,即“建立以必要的周期性普查为基础,以经常性的抽样调查为主体,同时辅之以重点调查、科学推算和少量的全面报表综合运用的统计调查方案体系”指明了抽样调查作为新统计调查体系的主题,精简全面统计报表。要提高统计数据质量,必须推广抽样调查方法的应用,它避免了对总体单位的逐一调查和较多的中间环节,在较大程度上减少了各方面对统计数据在调查过程中的干扰,因而使得调查的数据较符合客观实际。它具有事先计算及控制抽样平均误差和便于对样本指标进行检查,避免调查工作中间环节的弄虚作假的特点。大大提高了统计数据的准确性和及时性。

2.强化统计基础工作是提高统计数据质量的保证。首先要搞好统计调查表的设计。企业综合统计部门应根据上级部门和本企业生产经营管理的需要,会同会计等部门统一设计企业内部套表,在设计中应体现新的国民经济核算体系,各指标之间应相互联系,相互配套,统计指标的涵义、范围、计算口径应一致。统计表的设计,统计分类标准和各种编码应当统一,以适应计算机整理、汇总、分析的需要。新的统计报表的采用,可以克服企业统计工作中存在的杂乱、重复、矛盾等弊端,也有利于报表的规范化、系统化,更有利于统计数据的准确性。其次,实现原始记录、统计台账的标准化。我们知道,原始记录是业务核算、会计核算、统计核算的共同基础,只有这样才能使三种核算结果相互衔接,口径一致,而要保证核算数字的准确性,要求核算的数字来源,都有真实的原始记录为依据。从原始记录开始一直到整理、场内报表及三种核算,数字来源通过逐级加工,都是有据可查的。只有这样核算,数字的准确性才有确切的保证。

3.加强统计法制法规建设是提高统计数据质量的法律保障。在企业统计工作中,主观随意性是影响统计数据质量的重要因素。领导者的法制观念和对统计数据质量的重视程度以及统计人员的综合素质,对统计数据质量有着直接的影响。只有具有强烈的事业心和责任感,具有高度的统计法制观念,具有基本的工艺技术知识和统计技能的统计人员,才具有做好统计工作的前提和基础。因此,要加强统计法制建设,健全统计法规,防止某些企业领导和统计人员对统计数据弄虚作假,要确定统计犯罪的界限,作出良性的具体规定,以强化统计法规的法律效力和约束力。应通过典型案件的查处和暴光宣传《统计法》,引起全社会的关注,提高社会公众的法制观念和执法自觉性,使《统计法》真正成为提高统计数据质量的法律保障。

4.提高统计人员的业务素质是提高统计数据质量的关键所在。统计数据质量与统计人员的业务素质和队伍稳定有直接的关系,企业统计人员是提高统计信息最基础、最原始数据的源泉,因此,为了提高统计人员的业务素质,必须搞好他们的上岗和在岗培训,要实行“统计员资格”考试制度,达到合格标准并取得上岗合格证方可上岗。要提高统计人员的统计分析能力,掌握多种使用统计分析方法,例如聚类分析法、判别分析法、回归分析法、相关分析法、主成分分析法等。其次还要提高统计人员对现代统计分析软件的应用能力做到“一专多能”。依靠科技手段快速提供高质量的统计数据。企业还应按规模大小、统计业务的难易程度,配备有一定统计职称的综合统计人员,以提高统计工作质量,保证统计数据的准确性。

5.用科学的统计分析方法对数据质量评估是提高统计数据质量的方法保证。首先,可运用抽样调查法推断总量指标的准确性,它是对全面报表、普查、重点调查的基层统计数据或汇总统计数据进行可靠性检验或误差判断的科学方法。其次,运用回归分析法检测统计数据的可信度。例如,在对汇总数据的评价中,可利用回归分析,发现矛盾,提高数据的可靠性,并可用计算机建立模型,对各类数据纵横比较,以确定其质量。另外,还可用主次因素排列分析图、因果分析图来分析各种统计数据质量。在多种经济成分的统计数据中,要寻求一种能够多因素同时考虑的方法,不能只局限与一些单一因素的评估方法。例如运用模糊评价法等。要加快成立相对独立的专门从事统计数据质量评估的社会终结组织结构,确保统计数据评估的独立性和公正性。

6.加大新的统计技术的应用是提高统计数据质量的必要途径。计算机技术不仅可以实现数据处理高速化、数据传输网络化、数据贮存资源化,从而降低统计数据在人工处理、传输、贮存等环节上的技术性误差和逻辑性差错,而且有利于从机制上形成强有力的统计质量管理体系,维护统计数据管理相对独立性并有效地遏止随意虚报、瞒报以及统计数据质量的其他腐败行为。

总之,提高统计数据质量是统计工作的永恒主题,要在明确什么是统计数据质量的基础上,抓住影响统计数据质量的关键,采取切实有效措施,最大限度地保证提高数据的质量,确保统计三大职能的发挥。

五、结语

统计信息是社会经济信息的主要组成部分,在社会经济生活中发挥着越来越重要的作用。作为其表现形式的统计数据的质量也受到越来越多人的关注。而目前我国的统计数据质量管理,不论是与社会各界的需求相比,还是与相关国际准则的运作要求相比,均存在一定差距。完善我国统计制度是一项长远的任务,这需要统计人员与社会各界的共同努力。

【参考文献】

[1]李金昌.论什么是统计数据质量[J].统计与决策,1998,(9).(下转第22页)

(上接第50页)

[2]唐修亭,韩鹏.试论新时期统计数据质量问题[J].统计与咨询,2000,(6).

[3]贾维洁.统计数据质量之我见[J].统计科学与实践,2002,(1).

[4]田静.关于统计数据质量问题的思考[J].统计与决策,2005,(11).

[5]陈郁.弄虚作假统计数字现象透视[J].中国统计,2002,(2).

[6]史象奎.陈鹏程.当前统计制度报表存在的问题与改革探讨[J].北京统计,2002,(7).

[7]刘建平.我国工业抽样调查研究[J].山西财大报,2002,(2).

[8]陆蓉.运用抽样调查方法提高统计数据质量[J].上海财经大学学报,2004,(4).

[9]余芳东.国外统计数据质量评价和管理办法及经验[J].北京统计,2003,(7).

[10]李群.统计数据质量评估方法之我见[J].上海统计,2004,(8).

数据分析论文例7

2相量检查的意义

对新安装或电流回路有过变动的保护装置,在其投入运行前,必须用一次电流和工作电压检验,也就是进行相量检查。在检验保护装置电流回路接线正确后,方可将保护投入运行,为电网的安全、稳定运行提供保障。

3相量数据采集和分析

3.1井目量数据分析

502所带为10kV5母线,投入3组电容器,每组容量为7.5Mvar,总容量为22.5Mvar。因为所带负荷为纯电容元件,所以,有功P为0Mvar,无功Q为22.5Mvar。即得出视在功率S为22.5MVA。取10kV系统平均电压为10.5kV,得出502的一次电流为1237A。已知502保护用TA变比是4000/1,可求得502TA保护绕组二次电流为0.309A。通过相量检查,可知502各TA保护绕组电流为0.294A左右,计算值与测量值相差不大。因此,可以得出502各TA保护绕组变比使用正确。同理可推导出503各TA保护绕组变比使用正确。3.1.1.2502,503相位分析,10kV5母线通过502向2号主变输送无功,10kV3母线通过503向3号主变输送无功,并且已知有功为0,因此,对应相电压超前一次电流90°,电流以母线侧为极性,则二次对应相电压超前二次电流90°。通过相量检查所得电流相位与理论推导一致。3.1.22202,2203相量数据分析

3.2变比分析

502各TA保护绕组电流为0.294A左右,且已验证502各TA保护绕组变比使用正确,因此,通过502的一次电流是1176A。由于102,103,145均在合位,所以,10kV5母线通过502向2号主变输送等量无功,10kV3母线通过503向3号主变输送等量无功。根据基尔霍夫定律可知,102,103,145没有电流流过。因此,2号主变可视为只有高低压侧运行,即两卷变运行。根据能量守恒定律,低压侧输入功率等于高压侧输出功率,取10kV系统的平均电压为10.5kV,220kV系统的平均电压为231kV,由此可得,2202一次电流I为(1.732×1176×10.5)/(1.732×231)=53.45A。已知2202的主变差动保护用TA变比是1250/1,则可求得2202主变差动保护二次电流是0.0428A。2202母线差动保护用TA变比是2500/1,则可求得2202母线差动保护二次电流是0.0214A。通过相量检查可得2202TA保护绕组的电流分别为0.0413A和0.0205A,计算值与测量值相差不大,由此可得,2202各TA保护绕组变比使用正确。同理可推导出2203各TA保护绕组变比使用正确。

3.3相位分析

220kV5母线通过2202,2203接受无功,并且已知有功为0,因此,对应相电压超前一次电流270°,电流以母线侧为极性,则二次对应相电压超前主变差动二次电流270°。因为母差用保护绕组为反极性,由此可得二次对应相电压超前母差二次电流为90°。通过相量检查所得的电流相位与理论推导一致。观察可知,A相、B相、C相的电流幅值基本相等,相位互差120°,即A相电流超前B相120°,B相电流超前C相120°,C相电流超前A相120°。由此可得,2202,2203各TA保护绕组极性正确。

3.4相量数据分析

3.5母联极性问题

该变电站220kV系统为双母线,配置母线保护BP-2B和RCS-915AB.BP-2B母线保护各元件TA的极性端必须一致,装置默认母联TA的极性与2母线上的元件一致。RCS-915AB母线保护TA极性要求支路TA同名端在母线侧,母联TA同名端在母线1侧,可将该变电站的母线1称作4母线,母线2称作5母线。因此,2245母联BP-2B母线保护用TA同名端在5母线侧,2245母联RCS-915AB母线保护用TA同名端在4母线侧。

3.6变比分析

2214是2202通过2245提供一次电流,因此,2245一次电流为51.625A。已知2245各TA保护绕组变比为2500/1,则可求得2245各TA绕组二次电流为0.0207A。通过相量检查可得2245各TA保护绕组电流为0.0202A左右,计算值与测量值相差不大。由此可得,2245各TA保护绕组变比使用正确。

3.7相位分析

220kV4母线通过2245接受无功,且已知有功为0,因此,对应的相电压超前一次电流270°,充电保护电流以4母线为极性,则二次对应相电压超前充电保护二次电流270°。2245母联BP-2B母线保护用TA同名端在5母线侧,并且母差用保护绕组为反极性,则二次对应相电压超前BP-2B母线保护二次电流270°。2245母联RCS-915AB母线保护用TA同名端在4母线侧,并且母差用保护绕组为反极性。由此可得,二次对应相电压超前RCS-915AB母线保护二次电流90°。通过相量检查可知,电流相位与理论推导相差不大。

3.8相量检查结论

之前多通过表记得出一次电流的大小和送受关系,其实这是不准确的(TA表记绕组也需要相量检查),应该通过负荷情况,用理论方法计算和推导出一次电流的大小和送受关系,以便核实相量检查结果。相量检查后的相量分析不但包括相位分析,还应包括变比分析,只有在变比和相位都正确的情况下,才能算作相量正确。

数据分析论文例8

随着中文短消息的逐步为大家熟知,短消息的使用越来越多,使用量越来越大,应用范围也越来越广。中文短消息正以其特有的快捷和方便,影响人们日常生活的许多方面。但你不没有想过有一天用家里的固定电话来发送中文短消息呢?这样的愿望很快就要实现。中国电信已在北京、上海、广州等城市推出此项业务,相关标准也已经出台,中兴、贝尔等国内大型通信公司推出了支持中文短消息传递的服务器,固网短信已经开始进入百姓生活,短消息电话在今后的一段时间将会有更大的市场。

本文提及的短消息电话是在能接收来电显示的普通电话基础上实现的。本系统主要由DMTF信号接收发送电路、FSK信号接收发送电路、存储器电路、显示LCD电路和微控制器电路组成。通过电话线与支持固定网短消息业务的服务器连接,实现短消息的传输。本文着重从数据链路层探讨有关数据通信的控制技术。

1系统构成

1.1系统的硬件组成

短消息电话是指具有短消息发送和接收功能的电话。短消息服务器和短消息电话之间采用半双工通讯方式,通过FSK(频移键控)信号和DTMF(双音多频)信号进行数据传输,采用交互操作方式。短消息电话除了具有普通电话的通话功能外,还有中文显示、信息存储、DTMF信号、FSK信号发送接收等功能。短消息电话的功能框图如图1所示。

各模块的功能如下:CMX605、CMX602模块与电话机电路提供了DTMF和FSK信号的物理通道,实现DTMF和FSK信号的发送和接收及电话的通信功能;W78E58P单片机为控制中心,协调和控制各模块正常工作;SST28SF02存储器用来存储程序代码、用户输入的信息以及短消息中心传送的消息;62256为系统正常运动提供内存;LCD显示器和键盘扫描电路实现人机交互,提供友好操作界面;为了调试方便,增加了与PC串口的接口电路,使得编写的编程可直接到目标机的RAM中运行;此外,PS2接口电路使得用户可以利用PC机键盘进行中英文输入。

1.2系统的信号流程

短消息系统主要是在话音频率内传送数据消息,下行信号(短消息中心到短消息终端)采用半双工频移键控FSK信号调制方式;上行信号(短消息终端到短消息中心)采用DTMF信号模式或FSK信号调制方式。上行信号采用的方式由当地服务器决定,而DTMF信号模式又分为编码方式和非编码方式,由具体的短消息协议确定。

短消息电话接收短消息建立在来电显示号码是短消息中心号码的基础上;发送短消息是在用户设定了短消息中心号码之后,所发送的信息发送到所设定的短消息中心。通信过程如下:首先建立物理链接通路,然后与交换机建立普通话音通道,接着通过中心号码与短消息中心建立信息通道,短消息中心和短消息终端就可以通过消息包进行交互式通信。

短消息电话与服务器的信息交互都由服务器发送CTSI命令开始,即终端通过解释、执行CTSI命令并回送返回值的方式进行交互。终端不主动发送内容给服务器,即使终端的主动服务申请,也是通过服务器发出服务访问命令后递交的。

2数据链路层

2.1数据链路层的功能

数据链路层提供可靠的数据传送,主要是将有噪声的物理信道变成无传输差错的通信通道,提供数据成帧、差错控制和流量控制等。短消息电话中的链路层在电话通信方面,要实现对电话语音通路的控制、电话的来电显示和通话等功能;在数据控制方面,完成数据包的组包和解包,控制终端和短消息中心交互时序,对数据包进行纠错并对出错数据包进行重发处理;在电话机控制方面,解析应用层的命令,实现对物理层的控制以及对数据包的自动接收和存储功能。

2.2数据链路层的协议

短消息电话中数据链路层采用的差错控制类似于停止等待协议,并采用重发机制保障终端和服务器在偶然的故障后仍有机会保持连接。数据链路层完成了规定次数的重发后仍然出错时,服务器则断开与终端的连接。

数据链路层的上行FSK数据包和下行FSK数据包格式如图2所示,一个链路层FSK数据包包括六部分:同步引导串,由82bit交替的“01”加8bit“1”构成,具体参见CTSI协议,对于短消息电话(终端)本身来说只要读到至少50bit交替出现的“01”以及同步结束字符后,即可以认为同步建立;消息类型,指明信息内容的类型,根据协议规定分为一般类型和特殊类型,终端根据不同的类型进行相应的处理;消息长度,指消息特征号的字节数(=1)加消息层信息内容的字节数;信息特征号,目前仅使用十六进制01一种消息特片号,其余保留以利于拓展新的电信业务;消息层信息内容,由消息层负责解析,包含一条CTSI操作命令,最大长度不大于254字节;校验和,用于数据传送过程中的纠错,取值为该数据包中除同步引导串值外的所有字节的和,按256取模,再取补后得到的值。

由于终端还可以DTMF形式上送数据,因此DTMF数据包又分为:编码格式的DTMF上行命令响应信息包、非编码格式的DTMF上行命令响应信息包和非编码格式的DTMF上行信息包。上行DTMF命令响应消息包(编码方式)是终端对SMC的FSK数据的响应信息包;上行DTMF命令响应信息包(非编码方式)也是终端对SMC的FSK数据的响应信息包,主要采用了非编码方式,此种返回信息包目前只用于信息下载指令中,用于描述指令的解释执行情况,具体内容详见协议;上行DMTF上行信息包(非编码方式)是终端对SMC的指令响应,具体的信令如表1所示。

表1数据链路层上行DTMF上行信令包的格式

名称作用组成含义

CAS的ACK设备响应DTMF''''A''''当终端收到CAS音后,发DTMF''''A''''音,表示确认

FSK包的ACK数据纠错DTMF''''D1''''数据传送正确

DTMF''''D0''''数据传送错误

2.3数据链路层的电话功能

短消息电话的链路层要实现电话功能,因此基本的电话功能都由链路层和物理处理,主要分为:来电显示功能、短消息数据包的接收、连接到服务器、基本的电话通话功能和按键拨号功能。同时要配合电话不同功能的界面显示。

来电显示功能和短消息数据包的接收都是对FSK数据包的解析,两者的不同之处在于具体的数据格式:来电显示数据是在第一声和第二声振铃之间传过来的FSK数据,而短消息数据包是在建立了短消息通信通道后在线路上传输的FSK数据包。这里主要针对符合Bell202标准的FSK来电显示信号进行阐述。FSK来电显示信号数据包有两种格式:单制式信息包括日期、时间、电话号码、姓名。在第一声与第二声振铃之间将数据包解析,并将日期、时间、电话号码等信息在LCD上显示,实现来电显示功能。

连接到服务器,由软件控制电话机摘机、拨号到服务器,服务器机响应拨号,建立物理通道的连接。当服务器摘机并发出回应信号CAS音,在规定时间内终端回应DTMF的“A”信号,与服务器建立数据通路,进行数据包交互通信。然后解析服务器的数据,执行服务器下行的指令,与用户进行交互。

基本的电话通话功能和按键拨号功能是一部电话必须具备的功能,主要由电路硬件完成。链路层主要控制液晶显示与之相配合的操作界面。当用电话拨号时,屏幕弱出电话拨号界面,有按键按下时控制发送和相应的DTMF音,同时在屏幕上显示按下的按键值。在电话处于通话状态时,屏幕显示相应的界面,提示用户通话时间及拨入或拨出电话的号码等信息。

3数据链路层中的控制技术

3.1数据链路层的数据控制技术

数据链路层的数据分为上行和下行数据,本系统中将其分开处理,上行数据在主函数中循环调用处理,而下行数据在中断中处理。

上行数据包处理流程图如图3所法。对数据的处理是在主函数中,因此可有适当的等待和延迟,但必须在协议规定的时间内完成对数据包的处理,它对时间的要求不如中断对时间要求那么苛刻。因为上传数据包的过程是终端主动上载数据信息,链路层对数据包的多少十分清楚,而且在服务器接收到数据包后,肯定应答数据说明数据包传输是否正确,而服务器应答数据包是下行数据在中断中处理。因此,在上传一个数据包后可以等待服务器的应答信号,以确定是否要重发当前数据包。整个处理过程主要应当处理好与中断服务程序的配合,以及用户界面的操作,控制相对比较简单。

下行数据包处理流程如图4所示,处理过程比较复杂。由于服务器随时都有呼叫终端的可能性,使得下行数据传输具有随机性。因此这种情况最适于在中断中进行处理。中断处理又有其自身的特点,如中断函数不能进行参数传递并且没有返回值;中断函数中调用其他函数时,被调用函数所使用的寄存器组必须与中断函数相同等。这就决定了中断函数中的处理技术与主函数中的处理技术相比受到了很大的限制。中断函数首先对链路层各个状态下的超时定时器进行处理,当有定时器超时时,根据协议规定进行相应的超时处理,通常的处理是控制终端挂机;数据包处理过程中,与物理层建立循环队列缓冲区,每10毫秒中断时从缓冲区中取数据,如果缓冲区中有数据则连续地取出数据直到队列中的数据取完,而当循环队列缓冲区没有数据时,则直接退出中断,等待下次中断再进行取数据处理;按协议规定方式从物理层中取出完整数据包后,通过校验和对数据包进行校验,如果数据包传输不正确,则向服务器应答“D0”,请求服务器重发,当数据包传输正确时,则向服务器应答“D1”,发完应答数据后将终端置于接收数据状态并启动重发超时定时器。中断处理数据过程中,要与主函数进行配合在液晶屏上显示用户提示信息。另外在中断函数中最好不进行液晶以及FLASH存储器的操作,因类容易导致函数的双重调用,这是由中断处理的自身特点决定的。

数据分析论文例9

【摘要】数据挖掘是从海量数据中发现和提取知识和信息的过程。在管理会计领域中运用数据挖掘技术,寻求和发现更多的企业顾客、供应商、市场以及内部流程优化的信息,将为企业决策者提供更为广泛而有效的决策依据,提高企业战略竞争能力。本文简要介绍了数据挖掘的基本概念和方法,在此基础上重点分析了数据挖掘技术在作用成本和价值链分析,产品、市场和顾客分析以及财务风险防范等方面的应用。【关键词】数据挖掘信息管理会计应用引言近年来,数据挖掘技术引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的知识和信息。根据美国GAO(GeneralAccountingOffice)的报告,联邦政府利用数据挖掘技术在提高政府服务水平、分析科学数据、管理人力资源、侦察犯罪和恐怖活动等方面发挥了巨大的作用。尤其是在9·11以后,美国的反恐活动需要从大量的数据中搜寻有用的信息,数据挖掘技术功不可没。除此以外,数据挖掘也被广泛用于商业活动。根据ThomasG,JohnJ和Il-woonKim对财富500强企业的CFO的调查,在收到的有效反馈中,65%的企业正在使用数据挖掘技术。支持使用数据挖掘技术的企业称数据挖掘技术的有效使用能够为企业创造2000到2400万的净利润。而在对数据挖掘使用领域的调查中发现:24%用在会计领域,42%用在金融领域,用在信息系统和市场领域分别占19%和5%。目前数据挖掘技术的应用多集中在金融保险、医疗保健、零售部门和电信部门。而对数据挖掘在提高企业内部经营管理、构筑企业竞争优势方面的应用鲜有提及。一、数据挖掘技术的含义数据挖掘是从数据当中发现趋势和模式的过程,它融合了现代统计学、知识信息系统、机器学习、决策理论和数据库管理等多学科的知识。它能有效地从大量的、不完全的、模糊的实际应用数据中,提取隐含在其中的潜在有用的信息和知识,揭示出大量数据中复杂的和隐藏的关系,为决策提供有用的参考。二、数据挖掘的方法和基本步骤(一)数据挖掘的主要方法常用的数据挖掘方法主要有决策树(DecisionTree)、遗传算法(GeneticAlgorithms)、关联分析(AssociationAnalysis)、聚类分析(ClusterAnalysis)、序列模式分析(SequentialPattern)以及神经网络(NeuralNetworks)等。(二)数据挖掘的基本步骤SAS研究所提出的SEMMA方法是目前最受欢迎的一种数据挖掘方法,其描述的数据挖掘的大致过程包括取样(Sample)、探索(Explore)、修改(Modify)、模型(Model)和评价(Assess)。1.数据取样在进行数据挖掘之前,首先要根据数据挖掘的目标选定相关的数据库。通过创建一个或多个数据表进行抽样。所抽取的样本数据量既要大到足以包含有实际意义的信息,同时又不至于大到无法处理。2.数据探索数据探索就是对数据进行深入调查的过程,通过对数据进行深入探察以发现隐藏在数据中预期的或未被预期的关系和异常,从而获取对事物的理解和概念。3.数据调整在上述两个步骤的基础上对数据进行增删、修改,使之更明确、更有效。4.建模使用人工神经网络、回归分析、决策树、时间序列分析等分析工具来建立模型,从数据中发现那些能够对预测结果进行可靠预测的模型。5.评价就是对从数据挖掘过程中发现的信息的实用性和可靠性进行评估。[1][2][][]三、数据挖掘在管理会计中的运用(一)数据挖掘在管理会计中运用的重要意义1.提供有力的决策支持面对日益激烈的竞争环境,企业管理者对决策信息的需求也越来越高。管理会计作为企业决策支持系统的重要组成部分,提供更多、更有效的有用信息责无旁贷。因此,从海量数据中挖掘和寻求知识和信息,为决策提供有力支持成为管理会计师使用数据挖掘的强大动力。例如,数据挖掘可以帮助企业加强成本管理,改进产品和服务质量,提高货品销量比率,设计更好的货品运输与分销策略,减少商业成本。2.赢得战略竞争优势的有力武器实践证明数据挖掘不仅能明显改善企业内部流程,而且能够从战略的高度对企业的竞争环境、市场、顾客和供应商进行分析,以获得有价值的商业情报,保持和提高企业持续竞争优势。如,对顾客价值分析能够将为企业创造80%价值的20%的顾客区分出来,对其提供更优质的服务,以保持这部分顾客。>3.预防和控制财务风险利用数据挖掘技术可以建立企业财务风险预警模型。企业财务风险的发生并非一蹴而就,而是一个积累的、渐进的过程,通过建立财务风险预警模型,可以随时监控企业财务状况,防范财务危机的发生。另外,也可以利用数据挖掘技术,对企业筹资和投资过程中的行为进行监控,防止恶意的商业欺诈行为,维护企业利益。尤其是在金融企业,通过数据挖掘,可以解决银行业面临的如信用卡的恶意透支及可疑的信用卡交易等欺诈行为。根据SEC的报告,美国银行、美国第一银行、联邦住房贷款抵押公司等数家银行已采用了数据挖掘技术。(二)数据挖掘在管理会计中的应用1.作业成本和价值链分析作业成本法以其对成本的精确计算和对资源的充分利用引起了人们的极大兴趣,但其复杂的操作使得很多管理者望而却步。利用数据挖掘中的回归分析、分类分析等方法能帮助管理会计师确定成本动因,更加准确计算成本。同时,也可以通过分析作业与价值之间的关系,确定增值作业和非增值作业,持续改进和优化企业价值链。在ThomasG,JohnJ和Il-woonKim的调查中,数据挖掘被用在作业成本管理中仅占3%。2.预测分析管理会计师在很多情况下需要对未来进行预测,而预测是建立在大量的历史数据和适当的模型基础上的。数据挖掘自动在大型数据库中寻找预测性信息,利用趋势分析、时间序列分析等方法,建立对如销售、成本、资金等的预测模型,科学准确的预测企业各项指标,作为决策的依据。例如对市场调查数据的分析可以帮助预测销售;根据历史资料建立销售预测模型等。3.投资决策分析投资决策分析本身就是一个非常复杂的过程,往往要借助一些工具和模型。数据挖掘技术提供了有效的工具。从公司的财务报告、宏观的经济环境以及行业基本状况等大量的数据资料中挖掘出与决策相关的实质性的信息,保证投资决策的正确性和有效性。如利用时间序列分析模型预测股票价格进行投资;用联机分析处理技术分析公司的信用等级,以预防投资风险等。4.顾客关系管理顾客关系管理是提升企业竞争优势的有力武器。首先,要对顾客群体进行分类。通过对数据仓库的分类和聚类分析,可发现群体顾客的行为规律,从而对顾客进行分组,实行差别化服务;其次,对顾客的价值进行分析,根据帕累托定律,20%的客户创造了企业80%的价值。针对这种情况,公司可以从客户数据库中挖掘出这部分顾客,对这部分顾客的行为、需求以及偏好进行动态跟踪和监控,并根据不同的顾客群的不同特点提供相应的产品和服务,从而与顾客建立长期的合作关系,提高顾客保持力。如在电信部门,对电信数据进行多维分析有助于识别和比较不同顾客对于产品的不同需求,从而使企业提供更有特色的产品,为顾客提供更优质的服务。5.产品和市场分析品种优化是选择适当的产品组合以实现最大的利益的过程,这些利益可以是短期利润,也可以是长期市场占有率,还可以是构建长期客户群及其综合体。为了达到这些目标,管理会计师不仅仅需要价格和成本数据,有时还需要知道替代品的情况,以及在某一市场段位上它们与原产品竞争的状况。另外企业也需要了解一个产品是如何刺激另一些产品的销量的等等。例如,非盈利性产品本身是没有利润可言的,但是,如果它带来了可观的客户流量,并刺激了高利润产品的销售,那么,这种产品就非常有利可图,就应该包括在产品清单中。这些信息可根据实际数据,通过关联分析等技术来得到。6.财务风险分析管理会计师可以利用数据挖掘工具来评价企业的财务风险,建立企业财务危机预警模型,进行破产预测。破产预测或称财务危机预警模型能够帮助管理者及时了解企业的财务风险,提前采取风险防范措施,避免破产。另外,破产预测模型还能帮助分析破产原因,对企业管理者意义重大。在20世纪30年代,Smith和Winakor率先进行了破产预测的尝试。随后到了20世纪60年代,Altman利用多维判别式分析(MultivariateDiscriminantAnalysis)方法提出的Z-score破产预测模型取得了很大的成功,预测准确率高达90%以上。此后,数据挖掘技术包括多维判别式分析(MultivariateDiscriminantAnalysis)、逻辑回归分析(LogisticRegressionAnalysis)、遗传算法、神经网络以及决策树等方法在企业破产预测中得到了广泛的应用。四、结束语随着我国加入WTO,企业面临的竞争压力也越来越大。充分利用信息技术的最新成果,挖掘企业自身潜力,加强企业内部管理,提升企业竞争力刻不容缓。数据挖掘技术的推广应用虽然受到成本和技术的限制,但是如果能取得企业高层管理者的支持,数据挖掘的应用将会有很大的发展前景。

数据分析论文例10

二、影响统计数据质量的主要因素

根据统计数据质量的现状,我们分析认为,当前影响统计数据质量的主要因素有:

(一)统计体制影响,导致统计数据失真。尽管我国《统计法》及其统计条例和处罚办法已颁布近二十年。由于受计划经济的影响,从上到下层层实行目标考核,而统计人员的人事权在企业或当地政府,统计员待遇不高,监管机制又不健全,上级统计机构不能实行有效的管理,干好干坏一个样,因此基层统计员尤其是乡镇统计员往往不是考虑怎样把统计数据搞准,而是首先考虑上报多少统计数据才能完成当地政府目标任务,让领导满意。因此,在基层统计工作中,统计制度不能得到有效实施。

(二)统计基层基础工作薄弱,影响统计数据质量。主要体现在:

1、基层单位对统计工作认识不足,重视不够。开展统计工作所必需的经费和办公条件(计算机等)不能保证,统计人员专职的少、兼职的多。统计岗位形同虚设,统计人员兼多项工作,统计只能算是附带性的工作,使统计人员不能专心搞统计,造成部分统计人员虽然在统计岗位上工作多年,但仍是对统计业务一知半解,不能熟练掌握搞好统计所必须的知识,难于按要求完成统计工作。

2、统计人员变动频繁,稳定性差。部分单位不仅安排未取得统计从业证书的人员从事统计工作,而且频繁更换。有的单位年年更换统计人员,甚至一年换几次,刚换上来的又没有参加过任何统计业务培训,工作没有交接好就匆忙上阵,做起统计工作来,不知从何着手,只能凭感觉随便填几个数字,就当作是统计数据,上报了事。

3、统计人员业务素质低,分析评估能力弱。目前基层统计人员,尤其是私营企业、镇村统计人员的文化水平偏低,大部分只有高中(含中专)文化程度,有的尽管达到了大专以上文化程度,但实际能力仍然很差。文化程度低,必然造成对统计知识的理解和接受能力较差,对统计指标的理解出现偏差,其业务处理能力就存在困难,就不可避免地会影响统计数据的准确性,也就谈不上对统计数据质量的分析和评估了。

(三)现行统计调查制度已不适应新形势发展需要。一是现行的统计报表表种太多、指标繁杂,而且同一个指标在不同的专业甚至在同一个专业的不同报表中出现。二是有的指标的设置不科学、不合理,与经济社会发展的实际情况不相符合,甚至没有意义。三是有的专业报表时间太紧,没有与基层单位(企业)的财务核算时间衔接,造成统计与会计核算脱节,只能预计或估计统计数据,造成统计数据与会计核算实际数据不一致。四是抽样调查的代表性受到挑战。随着经济社会的快速发展,社会分层加快,贫富差距拉大,按抽样调查理论确定的调查样本,其随机性难以保证,在实际中由于种种原因往往很难落实。

(四)利益驱动是影响统计数据质量的一个主要因素。在市场经济条件下,统计调查对象不愿提供真实的统计数据,其主要原因是其利益最大化的要求与依法纳税间存在着突出矛盾。尽管《统计法》明确规定不公布个体调查对象的具体信息,统计数据也不作为征税和处罚的依据,但因利益冲突,导致统计数据失真。一方面调查对象有“不愿露富”或是“怕缴税”的思想,能瞒则瞒,所报送的涉及与自身利益有关的统计数据远低于实际现象。如有的私营企业所报送产值明显低于库房中的产成品价值,聘请人员做假帐或做两本帐,税务等执法部门也无从查证;行政事业单位怕缴个人所得税和向劳动保障部门交有关规费而瞒报劳动工作额和临时工人数等情况时有发生。另一方面,个别单位为了完成上级下达的目标任务而虚报统计数据,甚至按目标任务直接按月或季度分解任务,故意伪造或篡改统计数据。

三、建立提高统计数据质量的长效机制

提高统计数据质量是统计工作永恒的主题,要做到统计工作所提供的产品——统计数据(资料)能够准确、及时、全面、客观、适用,得到社会各界和国际社会的广泛认同,各级统计机构和统计工作者责任重大,任重道远。

(一)改革干部考核制度,完善干部管理体制。干部考核制度和干部管理体制不完善,是导致和助长统计数字造假的重要源头。因此,必须进一步改革干部考核制度,完善干部管理体制。对各级干部的考核、评价以及相应的升迁、任免要建立严格、科学、规范的业绩评估制度,不能仅从“数字”上看政绩,要坚持定性和定量相结合,并赋予群众监督那些用于考核干部政绩的统计指标的权力。

(二)改革统计管理体制,实行垂直管理。为了巩固和发展统计改革成果,必须改变统计机构的隶属关系,实行中央、省(市)、县统计机构垂直统计管理体制,乡镇统计员由县级统计机构委派。实行统计垂直管理体制必须充分保障基层机构的经费,若经费无保证,仍然要依赖地方政府,就谈不上垂直管理,统计数据质量就难以保证。

(三)依法开展统计工作。一是要严格执法。强有力的法律实施机制,使违法成本极高,从而真正杜绝虚报、瞒报、伪造、篡改统计资料,等统计违法行为的发生。二是要加大普法力度,广泛宣传统计法律法规,增强社会各界的统计法制观念。重点是加强对各级领导和调查对象的宣传,增强其依法履行义务的自觉性。把常年性检查与执法大检查结合起来,加大统计执法的力度。三是加大社会舆论和新闻媒体的监督。对比较典型的统计违法案件进行曝光。

(四)进一步改革和完善统计调查方法制度。科学可行的统计调查方法制度是保证和提高统计数据质量的关键。首先是要对现行各种统计报表和指标,按照调查目的、对象、范围、频率等方面进行全面分析,清理、精简和整合现行各专业统计报表和指标体系。适当增加反映科学发展观、全面建设小康社会、新农村建设、和谐社会、节能降耗、文化产业、新兴产业等相关的统计指标。其次进一步完善统计方法制度。总的原则是:能利用现有资料进行科学推算的数据不再增加新的调查项目;能通过抽样调查或其他非全面调查方法搜集到的统计数据不进行全面调查;通过一次性调查取得的统计数据能基本满足需要的不进行周期性调查;能通过部门统计或行政记录搜集到资料的就不增加新的调查项目。

(五)建立完善统计数据质量评估制度。统计数据质量的监控与评估是一项复杂的、长期的系统工程,建立健全完善的统计数据质量管理体系,有利于提高统计数据的完整性和透明度,确保统计数据能够客观真实地反映经济社会事业发展的实际情况。