期刊在线咨询服务，立即咨询

投稿策略

期刊推荐

杂志分类

首页学术杂志科普订阅 SCI期刊投稿经验文秘服务论著出书出版社

首页 > 精品范文 > 数据分析论文

数据分析论文模板(10篇)

时间：2023-05-16 15:18:18

导言：作为写作爱好者，不可错过为您精心挑选的10篇数据分析论文，它们将为您的写作提供全新的视角，我们衷心期待您的阅读，并希望这些内容能为您提供灵感和参考。

数据分析论文

篇1

2建立标签关系的反向工程

当我们框定了熵减的方法体系后，在数据间建立血缘关系则显得尤为重要，由于数据生长动力呈现由内而外的泛化驱动，但是本身这种泛化在信息化过程中很多是无组织的行为，缺少逻辑上预先定义，所以数据生成后，大量的数据关系被衰减掉，从正向渠道难以对数据关系建立血缘，工程极其浩瀚复杂。由于血缘关系无法完全在数据生长中自然形成，正向人工干预又存在操作难度，所以反其道而行之则是唯一通道。数据加工的反向性，优势首先体现在由微观到宏观的加工难度大幅下降，因为其工作处于抽象的最底层，使采用众包模式加工成为可能。其次，这种加工模式，可以在有效建立一种数据关系的闭环管理的同时，不会抑制数据生长的空间和速率，不会因加工效率低而凝固数据资产化的进程。在反向加工的过程中，需要通过标签联结数据关系，这时候我们要关注标签的质量和复用度，由于标签定义存在难度，所以要松绑标签定义来促成数据加工的快速实施，解决的重点则迁移到标签在后期管理中的智能化上。首先，可以通过标签在关系联结中的重复出现进行跟踪，识别是标签二义性还是加工者的活动差异。活动差异标签最基本的处理方法是进行聚合，形成知识归纳；二义标签则需要改进表达。其次，依赖血缘关系建立可视化图谱，从数据结构工程里可以有效识别关系路径的黏合点，即发现重复路径中出现的一个以上的标签，消除由知识结构差异造成的人为误会，对标签进行合并。这样，通过标签的智能化后期管理就可以将加工难度上移，建立分层加工的工厂模式。这种加工存在基本准则，并要建立基本的衡量尺度来保证标签有效性，加工工艺可以从标签质量、使用度、命中率等指标进行测量。其中，质量有赖于标签本身定义成分的内涵，要确认其被受众广泛理解；使用度是在加工活动中的使用次数，是否被数据关系广泛应用，使用度较低的标签要确认其存在价值，通过标签间同时出现概率决定其含义表达是否具备唯一性；命中率则建立在使用者的自然需要基础上，如果某一标签绝少被使用者利用或调度，与整体观测结果是否存在数值上的明显差异。整体上看，通过这些基本准则建立标签管理的异常检测分析，来保证加工质量的方式具备技术的可行性，但同时更需要对后期的数据运行建立领域指标模型来校验。

篇2

数据的采集是指利用传感器、社交网络以及移动互联网等方式获得的各种类型的结构化、半结构化以及非结构化的海量数据，这是一切数据分析的基础。数据的采集需要解决分布式高速高可靠数据的采集、高速数据全映像等数据收集技术。还要设计质量评估模型，开发数据质量技术。而数据采集一般分为大数据智能感知层：主要包括数据传感体系、网络通信体系、传感适配体系、智能识别体系及软硬件资源接入系统，实现对海量数据的智能化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理和管理等。

1.2数据预处理

数据采集的过程本身就有会有很多数据库，但如果想达到有效分析海量数据的目的，就必将这些来自前端的数据导入到一个集中的大型分布式数据库，或者分布式存储集群，而且在导入基础上做一些简单的辨析、抽取、清洗等操作。

①抽取：因为我们通过各种途径获取的数据可能存在多种结构和类型，而数据抽取过程可以有效地将这些复杂的数据转换为单一的结构或者便于处理的类型。以达到快速分析处理的目的。

②清洗：对于海量数据而言，数据所处的价值层次不一样，就必然存在由于价值低而导致开发成本偏大的数据，还有与数据分析毫无关系的数据，而另一些数据则是完全错误的干扰项，所以对数据通过过滤“去噪”从而提取出有效数据是十分重要的步骤。

1.3数据的存储与管理

当我们采集数据完成后，就需要将其存储起来统一管理，主要途径就是建立相应的数据库，进行统一管理和调用。在此基础上，需要解决大数据的可存储、可表示、可处理、可靠性及有效传输等几个关键问题。还需开发可靠的分布式文件系统（DFS）、能效优化的存储、计算融入存储、数据的去冗余及高效低成本的大数据存储技术；以及分布式非关系型大数据管理与处理技术、异构数据的数据融合技术、数据组织技术、研究大数据建模技术、索引、移动、备份、复制、可视化技术。

1.4数据的统计分析

一般情况下，统计与分析主要就是利用分布式数据库，或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等，以满足大多数常见的分析需求，在这方面，一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata，以及基于MySQL的列式存储Infobright等，而一些批处理，或者基于半结构化数据的需求可以使用Hadoop。统计与分析这部分的主要特点和挑战是分析涉及的数据量大，其对系统资源，特别是I/O会有极大的占用。

1.5数据分析与挖掘

所谓数据挖掘是指从数据库中的大量不完全的、有噪声的、模糊的、随机的实际应用数据中，揭示出隐含的、先前未知的并有潜在价值的信息的过程。与前面统计和分析过程不同的是，数据挖掘一般不会有预先设计好的主题，主要是在现有数据上面进行基于各种算法的计算，从而起到预测（Predict）的效果，从而实现一些高级别数据分析的需求。比较典型的算法有用于聚类的K-means、用于统计学习的SVM和用于分类的NaiveBayes，主要使用的工具有Hadoop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂，并且计算涉及的数据量和计算量都很大，常用数据挖掘算法都以单线程为主。

2数据分析的8个层次

2.1标准化报告（StandardReports）

标准化报告作为数据分析的第一个层次，要求相对较低，主要是借助相应的统计工具对数据进行归纳总结，得出包含主要参数指标的标准化报告。类似于一个销售企业每月或者每季度的财务报表。

2.2即席查询（AdHocReports）

用户可以通过自己的需求，灵活地选择查询条件，系统就能够根据用户的需求选择生成相应的统计报表。即席查询与普通应用查询最大的不同是普通的应用查询是定制开发的，而即席查询所有的查询条件都是用户自己定义的。在面向高层的数据分析软件中，用户随意添加想要查询的指标按钮再加上相应的限制条件，就可以立即生成可视化的统计结果，不仅一目了然，而且没有任何操作难度。

2.3多维分析（QueryDrilldown）

多维分析是指对具有多个维度和指标所组成的数据模型进行的可视化分析手段的统称，常用的分析方式包括：下钻、上卷、切片（切块）、旋转等各种分析操作。以便剖析数据，使分析者、决策者能从多个角度多个侧面观察数据，从而深入了解包含在数据中的信息和内涵。上卷是在数据立方体中执行聚集操作，通过在维级别中上升或通过消除某个或某些维来观察更概括的数据。上卷的另外一种情况是通过消除一个或者多个维来观察更加概括的数据。下钻是在维级别中下降或者通过引入某个或者某些维来更细致地观察数据。切片是在给定的数据立方体一个维上进行的选择操作，切片的结果是得到了一个二维的平面数据（切块是在给定的数据立方体的两个或者多个维上进行选择操作，而切块的结果是得到了一个子立方块）。转轴相对比较简单，就是改变维的方向。

2.4仪表盘与模拟分析(Alerts)

仪表盘用于监控一些关键指标。模拟分析是由操作者动态地加以调节的控件（如滑动块、可调旋钮、选择框等），来控制管理决策模型行为某些参数。当操作者通过控制面板对模型中的参数值或变量值进行调节时，图形中的曲线、柱形组或分析指标等要素就会发生相应的运动，而这种运动正好反映了该参数的变化对模型行为的影响，如果这种变动引起了模型中最优解或其他关键数字的变化，能够随时将关于这种变化的结论正确地显示出来。

2.5统计分析（StatisticallyAnalysis）

我们知道概率论是数理统计的基础，数理统计是在其基础上研究随机变量，并应用概率论的知识做出合理的估计、推断与预测。概率论中讨论的各种分布在数理统计中作为统计模型来分析处理带有随机误差的数据。典型的数理统计方法有参数估计、假设检验和回归分析。而统计分析主要是对用户所关注的问题进行推断、预测和控制的分析方法。具体可以分为以下三方面：

①描述统计：主要是集中趋势、离散程度、分布形状等，统计图（方图、箱线图、散点图等）；

②数据的分类汇总；

③基础统计分析：方差分析、时间序列分析、相关和回归分析、（主成分）因子分析等统计分析方法。

2.6预测（Forecasting）

在统计分析和数据挖掘领域，对未来的预测已经有了很多数学模型以及解决具体问题的相关算法。其核心思想便是从历史数据中找出数据的发展模式，然后以这些模式为支点，就可以对未来进行预测。

2.7预测模型（PredictiveModeling）

随着数据分析学家对数据挖掘技术的不断探索，出现了很多预测模型以及与之相对应的算法，但是很难确定某个模型是最精确的，因为不同的领域，不同的条件，对应的预测模型是不一样的，所以没有统一化的最优模型，只存在有选择性的最优模型。下面介绍几种典型的预测模型。

①回归模型:回归模型可以分为一元线性回归模型和多元线性回归模型。一元线性回归模型可表示为yt=b0+b1xt+ut，该式表示变量yt和xt之间的真实关系。其中yt称作被解释变量（或相依变量、因变量），xt称作解释变量（或独立变量、自变量），ut称作随机误差项，b0称作常数项（截距项），b1称作回归系数。b0+b1xt是非随机部分，ut是随机部分。而在很多情况下，回归模型必包含两个或更多自变量才能够适应地描述经济现象各相关量之间的联系，这就是多元线性回归模型需要解决的问题，其一般形式为：Y=a+b1X1+b2X2+…+bmXm，式中X1、X2、…、Xm是这个多元回归问题的m个自变量，b1、b2、…、bm是回归方程对应于各自变量的系数，又称偏回归系数。

②贝叶斯网络：贝叶斯网络是基于概率推理的数学模型，而概率推理是通过一些产量的信息来获取其他概率信息的过程。贝叶斯网络会建立一个有向无环图和一个概率表集合，有向无环图中的每一个节点便是一个随机变量，而有向边表示随机变量间的条件依赖，条件概率表中的每一个元素对应有向无环图中唯一的节点，存储此节点对其所有直接前驱节点的条件概率。贝叶斯网络是为了解决不定性与不完整性问题而提出的，在多个领域中获得广泛应用。

③基于时间序列分析的指数平滑模型在时间序列分析中指数平滑模型是最灵活和准确的方法，在经济领域也被证明是最有效的预测模型。在不同的时间序列下，指数平滑模型可以分为简单指数平滑法、带有趋势调整的指数平滑法、带有阻尼趋势的指数平滑法、简单季节指数平滑法、带有趋势和季节调整的指数平滑法五种不复杂度的模型。

2.8最优化

（Optimization）因为优化问题往往可以带来巨额的收益，通过一系列可行的优化，可以使收益得到显著提高。所谓最优化就是从有限或者无限种可行的方案中选取最优的方案。如果可以通过简单的评判，就可以确定最优方案那是最好的。但是事实不会那么简单，所以优化技术已经发展出了一系列的理论来解决实际问题。其常用的优化技术为：

①线性规划：当目标函数与约束函数都是线性函数时，就是一个线性规划问题。而当同时满足约束函数和目标函数时，则可以认为是最优解。

②整数规划：要求决策变量取整数值的数学规划。

③多目标规划：指衡量一个决策优劣的标准不止一个，也就是有多目标函数。

④动态规划：将一个复杂的问题划分为多个阶段，逐段求解，最终求出全局最优解。

3用Excel实现简单的数据分析

①对于企业而言最重要的是利润，所以管理者必须要从这张表中得到最关键也最容易得到的销量和销售额以及与其相关的一些数据，通常是用最基本的数理统计结果来直观地反映该企业在某个期间的盈利情况。

②其次，我们必须要做进一步的分析。已经对整体的情况有了一定的把握，所以就可以朝着不同的方向去挖掘一些有价值的信息，为企业高层做决策提供有力的依据。对产品销售而言，客户结构能够有效地反映客户的地域分布，企业可以根据客户的来源，在未开辟客户的地域去寻找新的目标客户群。而销量结构可以直观地反映企业最大销量来自哪个地区，对销量较小的地区可以加大宣传力度或者增加销售网点来保持各地区销售均衡。还可以及时地调整销售方式来扩大市场份额，而对于销量最小的地区考虑开辟新的市场。

统计了各地区的销售总额和平均销售额以及两者的对比关系。由此可以得出地区平均购买力大小，以及各地区总销售额大小。借助图表描述，管理者可以对企业在某段期间内的销售状况有一个大概的把握，只有掌握了这些的信息，才能更细化地去研究具体的影响因素。划分等级，对于经常性大量购买的客户必须要以最优惠的价格和最好的服务让其满意，以形成一个稳定的大客户群。而对于那些少量购买的客户，也要制定出相应合适的方案来留住客户。所以，分析销售额的分布情况，可以掌握客户的购买力度而且还能及时做一些留住大客户的举措。

4用R语言实现数据多层次分析

R语言是一种自由软件编程语言与操作环境，是一套完整的数据处理、计算和制图软件系统，它是一种用来进行数据探索、统计分析和作图的解释型语言。它可以提供一些集成的统计工具，但更大量的是它提供各种数学计算、统计计算的函数，从而使使用者能灵活机动地进行数据分析，甚至创造出符合需要的新的统计计算方法。而在使用R语言进行数据分析处理时，当我们遇到很大的原始数据，但用来建模的数据较小，则可以先在数据库中进行整理，然后通过R与数据库的接口提取数据，数据库适合存放和整理比较规整的数据，和R中的数据框有良好的对应关系，这也是R中绝大多数统计模型的标准数据结构。数据库中大部分的运算都不需要消耗很大的内存。

篇3

改革以来中国发生的大规模人口迁移，是制度变迁和经济转型共同作用的结果。中国传统的计划经济体制是围绕推行重工业优先发展战略而形成的。在资本稀缺的经济中，推行资本密集型重工业优先发展战略，不可能依靠市场来引导资源配置，因而必须通过计划分配的机制把各种资源按照产业发展的优先序进行配置。由此，以资本和劳动力为代表的资源或生产要素，既无必要，也不允许根据市场价格信号自由流动，因此，随着20世纪50年代这种发展战略格局的确定，一系列相关制度安排把资本和劳动力的配置，按照地域、产业、所有制等分类人为地“画地为牢”，计划之外的生产要素流动成为不合法的现象。其中把城乡人口和劳动力分隔开的户籍制度，以及与其配套的城市劳动就业制度、城市偏向的社会保障制度、基本消费品供应的票证制度、排他性的城市福利体制等，阻碍了劳动力这种生产要素在部门间、地域上和所有制之间的流动。在这种制度下，不存在劳动力市场，农村居民没有政府的许可不可能向城市流动，劳动和人事部门通过计划来控制劳动力跨部门流动。

1978年底开始的农村家庭承包制改革，使农户成为其边际劳动努力的剩余索取者，从而解决了制度下因平均分配原则而长期解决不了的激励问题（meng，2000）。与此同时，政府开始对价格进行改革，诱导农民提高农业生产率。在农业剩余劳动力被释放出来后，非农产业活动更高的报酬吸引劳动力转移（cook，1999），从而推动农村生产要素市场的发育，原来主要集中在农业的劳动力开始向农村非农产业、小城镇甚至大中城市流动。

由于各种阻碍劳动力流动的障碍尚未拆除，以及政府鼓励农村劳动力就地转移的政策引导，20世纪80年代前期的劳动力转移以从农业向农村非农产业转移为主，主要是在乡镇企业中就业，即所谓的“离土不离乡”。但随着乡镇企业遇到来自国有企业、“三资”企业和私人企业越来越强劲的竞争，必须提高技术水平和产品质量，因而乡镇企业资本增加的速度逐渐加快，吸纳劳动力的速度相应减缓。农村劳动力面临着越来越强烈的跨地区转移的压力。与此同时，外商投资企业、中外合资企业、私营企业和股份公司等其他非国有部门在东部地区发展较快，扩大了对劳动力需求，并成为消除制约劳动力流动体制障碍的一支重要力量。

随着农村劳动力就地转移渠道日益狭窄，1983年政府开始允许农民从事农产品的长途贩运和自销，第一次给予农民异地经营以合法性。1984年进一步放松对劳动力流动的控制，甚至鼓励劳动力到临近小城镇打工。1988年中央政府则开了先例，允许农民自带口粮进入城市务工经商。到20世纪90年代，中央政府和地方政府分别采取一系列措施，适当放宽对迁移的政策限制，也就意味着对户籍制度进行了一定程度的改革。例如，许多各种规模的城市很早就实行了所谓的“蓝印户口”制度，把绝对的户籍控制变为选择性地接受。此外，1998年公安部对若干种人群开了进入城市的绿灯，如子女可以随父母任何一方进行户籍登记，长期两地分居的夫妻可以调动到一起并得以户籍转换，老人可以随子女而获得城市户口，等等。虽然执行时在一些大城市遇到阻力，但至少在中央政府的层次上为户籍制度的进一步改革提供了合法性依据。城市福利制度的改革也为农村劳动力向城市流动创造了制度环境。80年代后期开始逐步进行的城市经济改革，如非国有经济的发展，粮食定量供给制度的改革，以及住房分配制度、医疗制度及就业制度的改革，降低了农民向城市流动并居住下来和寻找工作的成本。

与其他方面的政策改革相比，户籍制度改革在很长时间里没有实质性的突破，成为劳动力流动的最大障碍。所有在就业政策、保障体制和社会服务供给方面对外地人的歧视性对待，都根源于户籍制度。随着时间推移，两方面的因素变化推动政府对迁移政策进行改革。一是城市户籍制度不再拥有外部或隐含的福利，也就是地方政府不再根据个人的户籍来提供就业、社会福利等各方面保障。这样，城市人口规模扩张不会给地方政府增添额外财政负担。二是地方政府意识到，劳动力流动不仅带来资源重新配置，而且也是城市融资的一个重要来源。这样，市场化发育水平相异的城市根据各自目标来推进城市户籍制度改革。

可见，通过户籍制度及一系列其他阻碍人口迁移的制度因素的改革而推动的劳动力流动，不仅是经济发展的一个重要内容，也是整个经济体制向市场机制转变的重要进程，并且以其他领域改革的进展为前提。这个转变或改革的结果便是劳动力市场的形成与发育，劳动力资源越来越多地由市场来配置。而在整个经济不断市场化的过程中，人口迁移也表现出转轨时期的特点。这是中国转轨时期人口迁移的特殊性所在。本文旨在利用2000年人口普查资料来分析人口流动与市场化之间的关系。

一、转轨时期人口迁移理论

人口和劳动力在地区间的流动，是劳动力市场在空间上从不均衡向均衡转变的过程。发展中国家在其经济发展过程中，伴随着工业化和城市化发展，大量农村人口和劳动力从农村流向城市，从低生产率的农业部门流向生产率较高的工业部门。刘易斯（lewis，1954）认为，发展中国家存在着典型的二元经济结构，农村存在着大量剩余劳动力和隐蔽性失业，农业中劳动力的边际生产力几乎等于零或为负值，农村劳动力从农业部门流出不会对农业产出带来负面影响，反而使留在农业部门劳动力的边际产出不断提高；随着城市中劳动力数量不断增加，城市工资水平开始下降，直至城市部门的工资水平与农业部门的工资水平相等，农村劳动力向城市流动才会停止。在刘易斯的模型中，劳动力在城乡之间可以自由流动，不存在显著的制度。城市现代部门的较高工资水平和传统农业部门的低工资水平，是劳动力在城乡之间流动的驱动力量。在托达罗（todaro，1969；harris和todaro，1970）两部门模型分析中，农村人口和劳动力的迁移取决于城市的工资水平和就业概率，当城市的预期收入水平和农村的工资水平相等时，劳动力在城乡之间分配和迁移都达到均衡。

由于城市经济存在着现代正规部门和非正规部门之分，农村劳动力向城市迁移首先进入非正规部门，然后才有可能进入正规部门就业。城市正规部门就业创造率越大，越有利于将更多的非正规部门劳动力转入正规部门；城乡收入差距越大，从农村流向城市非正规部门劳动力数量越多，城市非正规部门劳动力规模也越大。由于城市正规部门的就业创造率取决于工业产出增长率及该部门的劳动生产率增长率，城市工业的快速增长将有利于提高正规部门的就业创造率，从而减少城市非正规部门的劳动力规模。但是，这个效应有可能被城市工资增长所诱发的大量新增农村劳动力流入所抵消。因此，城市正规部门的就业创造结果带来了城市失业率的上升。

费尔茨（fields，1974）认为，托达罗模型中没有考虑农村劳动力在城市正规部门寻找工作的概率问题。由于非正规部门劳动力获得正规部门就业机会的相对概率较低，流入城市的农村劳动力大多数只能滞留于非正规部门。他们之所以能够接受较低的工资水平，主要是在于他们预期能够从得到的城市正规部门工作机会中获得补偿。在托达罗模型基础上，费尔茨引入了搜寻工作机会的观点，一方面强调了城市制度工资和相对就业概率对迁移过程的影响，另一方面也指出，非正式部门大量不充分就业的劳动力保证了劳动力市场实现均衡时的失业率低于托达罗模型得出的估计。非正式部门大量不充分就业的劳动力存在，在一定程度上缓解了城市的失业问题。

随着劳动力流动，城乡劳动力市场开始相互作用。但是，根据托达罗理论，城市失业率上升将起到减缓人口继续向城市迁移。如果依据费尔茨的观点，城市劳动力市场似乎对农村劳动力流动的影响不大。相比之下，在成熟的市场经济中，城市的失业率是影响劳动力流动的重要因素。托普尔（topel，1986）利用美国人口普查资料研究发现，1970～1980年，美国东部、中部和北部各州的平均失业率相对于全国水平上升了23%，同时西部和西南部各州的失业率却显著下降。同期，人口迁移的空间流向恰好与此相反，人口净流入地区为西部和西南部地区，东部、中部和北部均为人口净流出地区。

中国的人口迁移不仅具有发展中国家的一般特征，而且还有经济体制转型的独特之处。如前所述，中国特有的户籍制度及其改革过程，为人口和劳动力自由流动和择业提供了制度基础，这也是研究其他国家人口迁移的理论没有遇到过的问题。随着时间的推移，包括户籍制度在内的各项市场化改革措施必然对人口与劳动力迁移产生显著影响。同时，城市就业环境变化也为我们观察城乡劳动力市场的相互作用提供了条件。

首先，不仅是城乡之间、地区之间的收入差距驱动人口的迁移，市场化水平在城乡和地区间的差异也直接影响农村劳动力迁移决策，从而形成特定的迁移流向。在经济发展的初期，资本相对稀缺而劳动力相对丰富。因此，中国经济的比较优势在劳动密集型产业。在20世纪80年代以前的经济增长模式下，由于政府采取人为扭曲资金价格的方式，在资金密集型产业上投资过多，抑制了具有比较优势的劳动密集型产业的发展，导致产业结构的扭曲，资源配置效率的损失。经济改革以来，通过一系列制度变革，资源配置逐渐转向劳动力较为密集的产业，较好地发挥了中国劳动力资源丰富的比较优势。产品和生产要素市场的发育带来了资源重新配置效率的改善，对经济增长做出了重要的贡献（cai等，2002）。由于生产要素市场发育上在地区之间不平衡，这种资源重新配置的效果主要体现在沿海地区。2000年，92.1%进出口贸易集中在东部地区，中西部地区分别为4.3%和3.6%.同年，86.5%的外商直接投资集中在东部地区，中西部地区分别为8.9%和4.6%.因此，劳动力迁移在东部地区更为活跃，迁移的流向也以从中西部地区向东部地区为特征。

其次，正如在其他国家观察到的那样，较大的迁移距离增加了交通成本、弱化了社会网络关系和目的地的就业信息，减少了迁移者的收益预期，因此，迁移距离上升降低了迁移发生概率。工作的不稳定性和信息获得的不确定性，不仅造成了迁移流向是一个从县内流向县外，从省内向省外的渐进过程，而且使得亲友等社会网络成为迁移者获得非正规部门就业信息的主要方式。格林伍得（greenwood，1969）认为，迁移存量对人口在地区之间迁移扮演着社会网络的作用。先前的迁移可以为后来者提供信息和其他方面的帮助，减少迁移风险，从而对后期的迁移产生影响。蔡fǎng＠①（cai，1999）研究发现，75.8%的省内迁移者、82.4%的跨省迁移者的就业信息获得是通过住在城里或在城里找到工作的亲戚、老乡、朋友获得的。因此，农村劳动力向城市流动通常受到距离所反映出的社会网络强弱的限制，形成分阶段迁移。

第三，尽管户籍制度继续阻隔着农村劳动力向城市迁移，但市场化改革使得城乡劳动力市场开始融合，城市就业环境变化必然对农村劳动力向城市流动带来影响。随着国有企业亏损和非国有部门扩大，越来越多的原国有企业职工开始和迁移者在非正式部门展开就业竞争。在这种情况下，农村劳动力“是走还是留”，取决于正式部门和非正式部门的就业状况，而且其决策通常是暂时的，而不是长期的。这与harris和todaro（1970）模型中所讨论的情况（迁移者在非正式部门临时就业、等待得到正式部门就业机会），以及sethuraman（1981）观察到其他发展中国家的情况（大多数迁移者将他们在非正式部门就业视为永久性的）都有显著差异。一个普遍观察到的现象是，中国农村劳动力向城市和发达地区流动，通常具有季节性特点，最多以年为单位在原住地和迁入地之间往返，呈现出“钟摆式”的流动模式。正如solinger（1999）指出的那样，城市对农村劳动力的大量需求是推进户籍制度改革的必要条件。在非国有经济、特别是外商投资较快的地区，市场力量日益显现，迁移受到鼓励。

二、空间分布特征变化

1990年以来，中国地区收入差距进一步扩大，吸引了中西部地区劳动力向东部地区流动。同时，要素市场发育及资源配置市场化程度，对地区经济增长越来越起着主导性的作用。东部地区不仅对外开放时间早，而且市场发育迅速，较高的市场化水平不断消除了劳动力等要素跨地区间流动的制度，以至成为劳动力流动的主要吸纳地区。而劳动力向东部地区流动反过来也推动了该地区的经济增长，改善了劳动力资源配置效率（cai等，2002）。表1显示了人口迁移空间分布状况的长期变化。1987～2000年，人口迁移的空间分布特征是：地区内部迁移（其中主要是省内迁移）比例始终高于地区间的迁移比例。但地区内部和地区之间的迁移比例则随着时间不断发生变化。东部地区内部迁移比例提高，东部地区流向中西部地区的比例下降。而中西部正好与此相反，中部和西部地区内部迁移比例趋于下降，中部向西部、西部向中部的迁移比例也在下降，而中西部向东部地区流入比例不断上升。

注：（1）从统计口径上看，1987年迁移数量包括迁入时间在半年以上的市、镇和县之间的迁移人口；1990年迁移数量包括迁入时间在1年以上的市、县之间的迁移人口；1995年迁移数量包括迁入时间在半年以上的市，区、县之间的迁移人口；2000年迁移数量包括迁入时间在半年以上的乡、镇、街道之间的迁移人口。（2）全部迁移人口包括地区内部和地区之间的人口迁移，不同年份在迁移时间规定和迁移范围上的差别对地区之间分布会带来一定影响。尽管如此，我们仍可以比较不同年份之间迁移流向的变化。

资料来源：《1987年全国1%人口抽样调查资料》、《1995年全国1%人口抽样调查资料》、《中国1990年人口普查资料》、《中国2000年人口普查资料》。

根据2000年第五次人口普查的10%资料显示，全部迁移人口数量为1246万，占总人口的10.6%，其中省内迁移为7.7%、跨省迁移为2.9%.在总迁移人口中，省内迁移的比重始终很高，为73.4%.当我们描述跨省迁移的流向时，其主要以东部地区为迁移目的地的倾向更加明显。表2给出了三类地区跨省迁移比例的空间交叉分布。2000年，东部地区跨省迁移近65%集中在东部其他各省（市），中部地区跨省迁移超过84%集中在东部地区，西部地区跨省迁移超过68%集中在东部地区。从时间趋势上看，1987～2000年，东部地区内部跨省迁移比例上升了近15%，而中西部地区向东部地区迁移比例上升将近24%，后者比前者高出9个百分点。

从流动的出发地和目的地看，迁移可以被划分为城市到城市的迁移、城市到农村的迁移、农村到农村的迁移和农村到城市的迁移四种主要类型。从这种类型划分来观察地区间迁移的流向，也有助于我们理解转轨时期中国人口迁移的特点。从全国来看，城市到城市的迁移和农村到城市的迁移是目前迁移的主要形式。2000年，两者合计占总迁移人口的77.9%，而且农村到城市迁移的比重（40.7%）大于城市到城市的迁移（37.2%）。农村到农村的迁移比重较低，仅占全部迁移的18.2%.而城市到农村的迁移比例最低，不到总迁移人口的1/25.从时间趋势看，城市到城市的迁移所占比重，在东部、中部和西部三类地区都呈现上升趋势，而农村到城市的迁移比重略呈下降趋势。

三、迁移的决定因素：计量分析

在迁移决定因素的实证分析中，早期的迁移模型将重力迁移模型和就业为目的的迁移模型合二为一，假定迁移数量不仅与迁入地和迁出地的人口和迁移距离有关，而且取决于两个地区之间的工资和失业率的比较。通常，采用下列双对数模型来分析这些因素对迁移流向的影响（lowry，1966；greenwood，1969；fields，1979）。即：。式中，m为迁移率，x为影响迁移流向的各种因素，d为迁移距离，i，j分别为迁出地和迁入地。

舒尔茨（schultz，1982）认为，人口变量反映的是其他影响迁移而没有在模型出现的社会经济变量的作用，它没有行为学上的意义。由于迁移是人口增长的一部分，在迁移实证模型中引入人口规模会带来计量上的共同偏差（fields，1979）。而且，由于迁移存量实际上是人口规模的一部分，如果在实证模型中同时引入这两个变量，将带来严重的多重共线问题，大大降低回归参数估计的效率。因此，通常做法是在实证模型中不引入人口变量。

在回归方程的函数形式选择上，费尔茨（fields，1979）认为，迁移决策本质上是在相互排斥的替代方案之间的一种选择，非对称模型比对称模型对人口迁移具有更强的解释能力。此外，双对数线性回归方程还能够消除奇异值和异方差对估计效率的影响，满足理论上就业机会与工资之间的乘积要求，以及提高回归方程的拟合程度等。他选择了滞后解释变量办法来消除解释变量的内生性问题。我们也采用了所有解释变量数据均为1995年数据的办法来解决迁移模型的内生性问题。

本文数据来自2000年第五次全国人口普查长表资料（10%样本）和微观数据（长表1%样本），1995年全国1%人口抽样调查资料及国家统计局《中国统计年鉴（1996）》。在数据处理上，正式出版的第五次人口普查长表资料没有农村向城市跨省迁移劳动力数量及其失业率数据，我们利用第五次全国人口普查的微观数据计算了这些数据。用于回归分析变量的统计值见表3.

表3用于回归分析变量的统计值

注：*根据微观数据计算。

迁移率的计算，我们采用格林伍得（greenwood，1969）的定义，用1995年11月1日至2000年10月30日从省迁到省的人口数，除以1995年11月1日以前住在省的人口数。根据长表计算得到的迁移率，包括了所有年龄段跨省农村到城市、城市到城市、农村到农村、城市到农村的四种类型迁移人口；用微观数据计算15～64岁农村劳动力向城市的迁移率。按照这种方法计算得到的两个迁移率的平均值都不高（见表3）。

迁移距离为省会之间铁路公里数。中国地域辽阔，铁路是中国跨省迁移的主要交通方式。这点可以从每年春节农民工返乡造成的铁路拥挤状况中得到印证。迁移距离不仅反应了用于直接交通费用的高低，而且在一定程度上代表了迁移所带来的心理成本大小。随着迁移距离增加，迁移带来的不确定性和迁移风险也会上升，迁移成本随之增加（schultz，1982；greenwood，1975）。这在劳动力市场不发达的情况下尤其如此。

直接用城市工工资收入和农村人均纯收入来作为工资率的变量显然不合适。随着收入多元化，相当于实际收入的部分并没有反映到名义收入之中，城乡收入在可比性上也存在一定问题（solinger，1995；jefferson，1992）。奥尼尔（o''''neill，1970）建议采用消费指标来克服收入指标作为工资率变量上的不足。我们利用各省城乡人口作为权重，对城乡居民人均消费支出进行加权平均，作为各省的工资率变量，预期工资率对迁移流向存在两种不同的效应。其中，迁入地为正向效应，而迁出地为负向效应。

1995年全国1%抽样调查和第五次人口普查都对城乡劳动力的就业状况进行了统计。1995年调查问卷中有三项指标用来测度劳动力在调查前一周是否处于失业状态：第一项是从未工作正在找工作，第二项是失去工作正在找工作，第三项是企业停产等待安置的劳动力。2000年人口普查只包括前两项。据此可以计算得到1995年和2000年城乡劳动力的失业率，分别为2.2%和3.6%.由于城乡劳动力的失业率包括了农村劳动力，这低估了城市劳动力市场的就业状况。《中国2000年人口普查资料》公布了分城市、镇和农村的经济活动人口资料，据此计算的城市、镇和农村的失业率分别为9.4%、6.2%、1.2%.利用2000年微观数据计算的城市本地劳动力、城市向城市迁移劳动力、农村向城市迁移劳动力的失业率，分别为9.1%、7.9%和3.6%.如果在迁移模型中忽略了迁移存量，将导致高估其他解释变量对迁移的影响（greenwood，1969）。按照格林伍得的方法，迁移存量应该是以1995年为时点，计算出生在省且居住在省的所有人口。由于中国人口普查资料只提供了出生后一直住在本地和1995年11月1日之前迁入本地等资料，因此，我们采用1995年11月1日之前迁入本地人口指标作为迁移存量的变量。本文中长表的迁移存量包括所有人口，微观数据的迁移存量只包括15～64岁的人口。我们预期迁移存量对人口迁移有正向效应。

在分析地区人均收入差异和经济增长中，贸易开放程度通常被看做是影响地区收入增长的重要因素（barro和sala-i-martin，1995；cai等，2002）。贸易开放程度越高，参与国际市场一体化程度也越高。但是，扭曲的贸易和发展战略也同样起到扩大出口，提高gdp中的贸易份额比重。相比之下，外商直接投资是国外投资者的选择。从长期来看，为了获得最大利润和规避风险，国外企业在其投资过程中要对各地的产品和要素市场发育情况、体制与政策的透明度等因素进行综合考虑，并最终做出投资选择。外资企业进入之后，它利用劳动力市场来解决用人需求，这与国有企业的人事制度形成鲜明对比。因此，我们选择了外商直接投资作为市场化程度的变量，来分析它们对人口迁移的影响。改革以来，虽然所有省份的外商直接投资数量都在增加，但东部地区与中西部地区之间的差异在不断扩大。中国人口迁移流向分布主要集中在东部地区，这与东部地区对市场化改革程度较高是分不开的。四、回归结果与讨论

方程1～3是利用第五次人口普查长表资料得到的回归结果，方程4、5是利用第五次全国人口普查微观数据得到的回归结果。由于海南、重庆、与其他省会之间距离未能得到，在回归中剔除了这3个地区，长表资料中实际用于回归的样本数量为756个。在微观数据中，由于有些省份的迁移率或农村向城市迁移劳动力数量为零，取对数后，这些数据变成缺省值，所以用于回归的样本数量为506个。

从表4回归结果看，利用长表资料得到的回归方程，解释了大约60%的所有人口跨省迁移的行为；用微观数据得到的回归方程，解释了大约30%的跨省农村劳动力向城市迁移的行为。表4的非对称双对数迁移模型估计结果也表明，迁入地社会经济变量对人口迁移的影响大于迁出地这些变量所发挥的作用。

回归方程1～5中大多数解释变量的回归系数t值，如迁移距离、人均消费水平、失业率、迁移存量等，都达到了1%或5%的显著性水平，并且作用方向上与前面的理论预期结果也基本一致。

表4中回归方程1和2的区别是采用了不同的失业率数据，前者是1995年的失业率，后者是2000年的失业率。使用1995年失业率数据虽然有助于克服内生性问题，但方程1中迁出地失业率回归系数的绝对值大于迁入地失业率回归系数的绝对值，这个结果可能与现实情况并不吻合。

1995～2000年，中国城市就业环境发生了急剧变化。伴随着国有企业改革和城市社会福利体制改革，企业大量富余人员被释放出来，城市失业率迅速上升。为了解决本地城市职工就业问题，不少地方政府采取了城市就业保护政策，这势必对以就业为目的的劳动力流动产生较大影响。迁移者是理性的，如果目的地的就业机会较小，迁移者将选择不流动，以减少迁移风险和成本。这样，迁入地的就业机会就显得更为重要。

表4迁移决定因素回归结果

注：（1）采用异方差检验方法（breusch-pagan/cook-weisberg）发现，表中回归方程的依次为：7.85、1.54、1.38、2.80、4.85.我们对回归方程1、5采用robust估计来消除异方差的影响。（2）方程1和5的括号内为robustt值，方程2～4括号内为t值，*代表5%显著性水平，**代表1%显著性水平。

考虑到2000年失业率真实地反映了就业环境的变化，我们以回归方程2为基准，分析不同因素对迁移的影响，并进行比较。在其他条件不变的情况下，迁移距离上升1%，迁移率下降1.08%.受迁移距离的影响，2000年跨省迁移人口比例不到30%，绝大多数迁移人口选择了省内流动。迁移距离在空间位置上是固定的，但改善交通运输条件和制定合理的交通价格有利于减少迁移者的迁移成本，促进劳动力流动。

在做迁移决策时，潜在的迁移者不仅要考虑两地之间直接的收入差距，而且还要考虑到就业机会大小。在回归方程2中，迁入地人均消费水平回归系数在绝对值上是迁出地的近4倍，但迁入地失业率回归系数在绝对值上是迁出地的3倍以上。迁入地失业率对迁移决策较大的边际影响与迁移者面临的选择有关。本地劳动力市场状况是既定的，迁移者对它别无选择。相反，迁移者对迁入地劳动力市场是可以进行选择的，失业率越高的地区，迁入数量就会下降。

目的地的就业信息提供和帮助，对迁移决策有重要作用。迁移存量的回归系数也证实了这一点。社会网络等非正规信息渠道虽然在迁移中发挥着重要作用，但随着人口流动规模扩大，加快劳动力市场信息体系建设就显得非常重要。

将外商直接投资变量引入回归方程2，就得到回归方程3.引入这个变量之后，迁移距离和失业率等解释变量的回归系数及其显著性变化不大，而人均消费水平的回归系数及其显著性发生较大改变。从绝对值来看，方程3中的人均消费水平回归系数小于回归方程2中的回归系数估计值，迁出地人均消费水平的回归系数显著性有所下降，主要是人均消费水平与外商直接投资之间存在较高相关关系导致的结果（注：人均消费水平与外商直接投资的相关系数为0.56.）。跨省人口迁移比例主要分布在东部地区，它与外商直接投资之间存在较强的相关关系（注：外商直接投资与迁移存量之间的相关系数为0.76.），引入外商直接投资变量之后，迁移存量的回归系数数值下降约50%.为了观察城市劳动力市场对农村劳动力迁移决策的影响，我们利用微观数据做进一步分析。回归方程4引入了农村迁移劳动力的失业率，回归结果进一步支持上述发现，即迁入地的就业机会对迁移者来说更为重要。回归方程5引入了城市劳动力失业率。结果表明，城市失业率对于农村劳动力跨省迁移率有显著性影响，其回归系数在绝对值上不仅大于回归方程4中失业率的回归系数，而且大于回归方程2中的回归系数，这说明城市劳动力市场就业形势确实对农村劳动力的迁移决策有重要作用。改善城市就业环境将有利于促进农村劳动力流向城市，起到加速城市化的作用。

五、结论

20世纪80年代以来在中国出现的大规模人口迁移现象，不仅具有发展中国家从落后的农业经济向工业经济转变的一般特征，还具有从计划经济向市场经济转变的特殊性。将二者结合在一起，既有助于考察中国独特的制度特征对人口迁移的影响，又能够通过对中国案例研究来拓展迁移理论。

经济发展水平和市场发育程度在地区之间的不平衡，决定了人口迁移的基本方向不仅是从农村向城市的迁移，而且是从中西部地区向东部地区的迁移。既然中国经济的进一步增长仍然有赖于从生产要素市场发育从而劳动力流动中获得资源重新配置效率（注：约翰森（johnson，1999）认为，在今后30年，如果迁移障碍被逐渐拆除，同时城乡收入水平在人力资本可比的条件下达到几乎相等的话，劳动力部门间转移可以对年经济增长率贡献2～3个百分点。），加快中西部地区市场制度的建设，特别是清除阻碍劳动力市场发育的各种制度，可以引导和规范人口迁移，使其不仅具有微观理性，而且具有更加理性的宏观后果。市场化改革措施（如扩大外商直接投资和对外贸易等）所带来的经济发展将有助于获得“一石二鸟”的功效，也就是讲，它为劳动力流动不断营造同样的发展环境，并在创造就业机会的同时，推进城乡户籍制度改革。

「作者简介蔡昉中国社会科学院人口与劳动经济研究所所长、研究员；王德文中国社会科学院人口与劳动经济研究所，副研究员。

「参考文献

1.中国社会科学院人口研究所（1988）：《中国74城镇迁移抽样调查（1986）》，《中国人口科学》编辑部。

2.国家统计局（1988）：《1987年全国1%人口抽样调查资料》，中国统计出版社。

3.国家统计局（1997）：《1995年全国1%人口抽样调查资料》，中国统计出版社。

4.国务院人口普查办公室（1993）：《中国1990年人口普查资料》，中国统计出版社。

5.国务院人口普查办公室（2002）：《中国2000年人口普查资料》，中国统计出版社。

6.barro，r.&x.sala-i-martin（1995），economicgrowth.newyork：mcgrawhi，inc.

7.cai，fang（1999），spatialpatternsofmigrationunderchina''''sreformperiod，asianandpacificmigrationjournal，vol.8，no.3.

8.cai，fanganddewenwang（1999），sustainabilityofeconomicgrowthandlabourcontributioninchina，journalofeconomicresearch，no.10.

9.cai，fang，dewenwangandyangdu（2002），regionaldisparityandeconomicgrowthinchina：theimpactoflabormarketdistortions，chinaeconomicreview，13，197-212.

10.cook，sarah（1999），surpluslaborandproductivityinchineseagriculture：evidencefromhouseholdsurveydata，thejournalofdevelopmentstudies，vol.35，no.3：16-44.

11.fields，g.s.（1974），rural-urbanmigration，urbanunemploymentandunderemployment，andjob-searchactivityinldcs，journalofdevelopmenteconomics2，165-187.

12.fields，g.s.（1979），placetoplacemigration：somenewevidence，reviewofeconomicsandstatistics，vol.61，issue1，21-32.

13.greenwood，j.michael（1969），ananalysisofthedeterminantsofgeographiclabormobilityintheunitedstates，reviewofeconomicsandstatistics，vol.51，issue2，189-194.

14.greenwoodj.michad（1975），researchoninternalmigrationintheunitedstates：asurvey，journalofeconomicliterature，vol.13，issue2，397-433.

15.harris，j.，andm.todaro（1970），migration，unemploymentanddevelopment：atwosectoranalysis，americaeconomicreview40，126-142.

16.jefferson，g.h.andt.g.rawski（1992），unemployment，underemploymentandemploymentpolicyinchina''''scities，modernchina，18（1），42-71.

17.johnson，d.gale（1999），agriculturaladjustmentinchina：thetaiwanexperienceanditsimplications，officeofagriculturaleconomicsresearch，theuniversityofchicago.

18.leweis，w.a.（1954），economicdevelopmentwithunlimitedsuppliesoflabor，themanchesterschoolofeconomicandsocialstudies22，139-191，reprintedina.n.agarwalaands.p.singh（eds.），theeconomicsofunderdevelopment.bombay：oxforduniversitypress，1958.

19.lin，j.yifu，fangcai，andzhouli（1996），thechinamiracle：developmentstrategyandeconomicreform，hongkong：chineseuniversitypress.

20.lowry，i.s.（1966），migrationandmetropolitangrowth：twoanalyticalmodels.sanfrancisco：chandlerpublishing.

21.meng，xin（2000），labormarketreforminchina，cambridge，uk：cambridgeuniversitypress.

22.o''''neill，j.a.（1970），theeffectofincomeandeducationoninter-regionalmigration，unpublishedph.d.dissertation，columbiauniversity.

23.schultz，t.paul（1982），lifeiimemigrationwithineducationalstratainvenezuela：estimatesofalogisticmodel，economicdevelopmentandculturalchange，30（3），559-594.

24.solinger，d.（1995），thechineseworkunitandtransientlaborinthetransitionfromsocialism，modernchina，21（2），155-183.

25.solinger，d.（1999），citizenshipissuesinchina''''sinternalmigration：comparisonswithgermanyandjapan，politicalsciencequarterly，vol.114，no.3，455-478.

篇4

2HANA数据分析平台实施过程

数据分析平台建设应遵循最大限度的考虑应用实用性、缩短实现周期、降低技术风险等因素。

2.1需求分析

需求分析是要对用户的诉求或需求进行深入了解，并在需求的基础上对整个平台进行一致约定。因此以重要性、分析的复杂性、数据量大小、以及快速见效为原则，需求分析需要明确下面的内容。

1)选择需要分析的主题，结合当前电力营销业务在计量、业扩、抄表、电费核算、电费缴纳、账务等工作职能的划分，也要考虑分析的主题具有针对性的业务场景，这些场景往往跨越多个职能。

2)分析并描述各个主题的业务背景，包括使用的用户角色，使用的业务场景。以电费出账异常为例：电费出账异常主要是由于用户档案错误、抄表错误所引发的，涉及到业扩、抄表、电费核算等多个职能部门。以电费出账异常作为分析的主题，其业务场景主要用于电费发行后，对引发电费异常的用户档案数据、计量信息、抄表信息进行检查并按职能需求进行分别展示。

3)分析各个主题间的关系，在这个平台上用户的所有活动信息，如用户请求的数量，用户对这些数据的访问频率、时间、数据细节层次、请求多大的数据量等之间的关联。

4)分析主题所涉及的表的目录、表的内容、表的容量、每个表的平均行大小、表的记录数、表的增长情况等。

2.2平台规划

HANA数据分析平台应用架构一般采用四层：数据源层、数据抽取及复制层、HANA数据集市层以及报表展示层。

1）数据源层：作为平台的分析对象，提供报表分析所需的数据，数据源层可同时支持各种类型的数据库，数据源层为营销系统（管理库），生产库到管理库之间采用SharePlex复制工具实现数据同步，以避免数据抽取对生产系统的影响。

2）数据抽取和复制层：数据抽取和复制层负责将数据源层中源系统的数据抽取和复制到HANA分析数据库中，主要构成是数据抽取和复制工具，可以分别采用实时同步服务（SLT）以及非实时同步的数据服务（DataService）两种不同的复制工具来满足不同特征的源数据要求。在确定采用哪种工具前，需要对每个数据源的大小、变更时间、变更频繁度、增量大小等信息做详细了解，对不同数据源表选择合适的复制工具。

3）数据集市层：数据集市层是整体系统架构的核心，负责分析数据的储存、报表模型的建立以及数据计算。该层包含分析数据库以及虚拟模型架构两个主要组成，所有需分析展示的数据在数据集市层通过集市层进行储存、压缩、建立逻辑模型并计算，通过该平台特有的内存计算技术可以使这个过程的效率大幅提升。

4）报表展示层：报表展示层负责将HANA数据库中的数据运算结果按照报表需求进行展示，采用SAPBusinessObjectBI4.0以及EXCEL作为展示工具。

2.3平台实现

2.3.1模型设计

依据报表的需求分析、功能需求、性能需求、模型扩展性、模型的灵活性、实现成本进行平衡，在达到性能要求的前提下，设计出可以重用的模型，HANA平台不同于传统的数据仓库需要物理化模型设计，HANA采用了逻辑视图模型设计的概念，逻辑视图从表面看体现的是传统的星型、雪花型模型设计，但这些模型中的数据并不是物理存放的。HANA提供了属性视图、分析视图、计算视图三种模型设计，属性视图实现对维度的设计，分析视图则实现传统的星型模型设计，计算视图实现更复杂的雪花型模型设计。模型设计时是先将需求阶段所确定的分析主题作为分析对象，梳理每个主题展示所需的事实表数据内容和数据粒度、分析维度、分析的数据指标。例如：一个以分析电费构成为主题的业务场景，该主题分析当期电费的构成情况，并同期比较各个电费构成的变动情况，那它的指标可以为目录电度电费、峰谷品跌、丰枯品跌、基本电费、力调费、代征费、电度电费、结算电费等指标。分析的维度可包含：时间维度、用户维度、组织维度、用电服务维度、抄表维度、计收维度等。并在此时完成对事实表和维度表的逻辑数据模型设计。

2.3.2表样及功能设计

报表的样式和功能应当考虑用户对数据进行分析的使用习惯，借鉴数据仓库中的多维数据可视化方法，通过对报表的上钻、下钻、切片等展示功能技术的利用，实现对汇总性数据、明细类数据、核心数据的快速查看和分析。以上述的分析电费构成主题为例，其展示需求决定表样的设计采用图型混合表格的方式，功能上采用按照组织维度进行上钻、下钻功能可查看不同供电区域的电费构成情况和各个指标的排名情况，前端展示采用了BOWebintelligence嵌入DashBoard图表设计实现。

2.3.3数据抽取及复制设计

为确保数据质量，应当进行数据抽取和复制的规划设计。首先，根据模型设计中指标、维度信息分别列举出其相应的数据来源，即营销系统的物理表和字段，指标来源于营销系统的交易数据，而维度来源于营销系统的主数据。其次，根据逻辑数据模型和数据来源确定营销数据库到HANA数据库的ETL规划，根据数据的质量规则（包括：数据清除、空值处理、数据替换、规范化数据格式等），确认营销系统源数据到HANA目标数据库数据的转换规则，同时依据数据大小、数据变更时间、数据变更频繁度、数据增量大小要求确定采用的实时工具SLT还是定时抽数工具BODataService，例如：收费账务相关的交易数据存在记录基数大、变更频率很高等特征，采用实时复制增量数据更合适，而账务的月结数据仅在每月初产生且数据量非常巨大，因此采用定时批量复制更合适。

2.3.4模型及报表开发

模型及报表开发共分为数据装载、HANA建模、定义语义层（IDT）、报表开发、数据校验五个步骤，这五个步骤相互交叠与重复，直至到达最优化设计。其中数据装载的方式利用了SLT的实时同步技术，SLT同步技术其核心是基于数据库的触发器模式实现对源数据的增量复制，最大限度的避免了对源系统表结构的改变，同时采用的多任务复制机制使得实时复制的效率可保持在5~10秒内的数据延迟，装载后的HANA数据的大小比较源数据库数据大小可压缩30%~70%的容量。

3发展前景

不断的完善HANA数据分析平台的分析主题，不仅是基于电力营销系统，还可以基于用电采集系统等构建起电力企业的大数据分析平台。利用HANA内置的PAL(预测分析库)对海量电量数据、客户服务数据实现数据高级分析，建立其有效的事前预测、事中控制、事后改善的企业快速辅助决策模式。营销业务可以在客户服务中对受理业务的情况信息、执行过程、执行结果进行深入分析、对客户需求进行快速响应，改进服务质量、提升电网服务建设。更可以利用海量电能量数据对偷窃电稽核、客户用电行为、能效管理等进行过分析和应用，助力营销辅助决策与分析能力的快速提升。

篇5

2蚊虫的转录组学研究

转录组学（transcriptomics）是一个活细胞所能转录出来的所有RNA的总和，是研究细胞表型和功能的一个重要手段。传统上用于转录组数据获得和分析的方法主要有基于杂交技术的芯片技术包括cDNA芯片和寡聚核苷酸芯片，但目前使用最普遍的是RNA-seq即转录组测序技术。基于Illumina高通量测序平台的转录组测序技术能够在单核苷酸水平对任意物种的整体转录活动进行检测，在分析转录本的结构和表达水平的同时，还能发现未知转录本和稀有转录本，精确地识别可变剪切位点以及cSNP（编码序列单核苷酸多态性），提供最全面的转录组信息。相对于传统的芯片杂交平台，转录组测序无需预先针对已知序列设计探针，即可对任意物种的整体转录活动进行检测，提供更精确的数字化信号，更高的检测通量以及更广泛的检测范围，是目前深入研究转录组复杂性的强大工具。巨蚊属是蚊科中三种不吸血的蚊属之一，其幼虫阶段以同在小型水体中孳生的白纹伊蚊和埃及伊蚊为食，两性成蚊均不吸血，以植物汁液和花蜜为食。为了探究巨蚊与其它吸血蚊种在搜寻宿主方面的基因水平上有何差异，国外有学者从巨蚊上分离出触须、触角和身体其他部分，分别提取这三部分的RNA，利用RNA-seq技术，将获得的序列片段从头组装，与目前已公布的致倦库蚊、冈比亚按蚊、埃及伊蚊基因组数据进行系统进化树分析，发现巨蚊与埃及伊蚊的种属关系最近，并且在上述四种蚊种中均发现了编码气味分子受体（odorantreceptor,OR）蛋白和离子转移受体（ionotropicreceptor,IR）蛋白的基因，但值得注意的是，巨蚊受体蛋白的表达量与丰度上较其它蚊种都有所降低［18］。因为这些受体蛋白被认为与吸血昆虫搜寻宿主气味分子如CO2有关，所以，巨蚊在长期的生物进化过程中，丧失了原本存在的吸血习性。蚊唾液腺蛋白与其吸血传病密切相关。国外有学者提取白纹伊蚊雌性成蚊的唾液腺RNA后进行转录组和蛋白质组分析，发现至少有32个基因在雌性成蚊的唾液腺中表达程度或者增高或者降低，另外有17个基因表达在雌性成蚊唾液腺和雄性成蚊中，但不表达在雌性成蚊的其他组织中。通过分析发现，其中大约三分之一的基因功能表现在吸血、消化糖、免疫应答等方面，但是并未发现其余基因的明确功能，所以非常有可能是长期吸血的过程中进化出的新的功能分子。利用同样的方法，分析冈比亚按蚊、斯氏按蚊、达氏按蚊、埃及伊蚊、白纹伊蚊、致倦库蚊和致死按蚊（Anophelesfunestus）的唾液蛋白相关的转录组，可以将这些蛋白归纳为：

（1）昆虫唾液腺中普遍存在的唾液蛋白，包括抗原-5蛋白家族、核酸酶、碳水化合物水解酶等；

（2）在吸血的长角亚目昆虫（包括白蛉、蚋、蠓等）中丰富表达的D7蛋白；

（3）仅在蚊唾液腺中存在的蛋白，包括30000左右的过敏原蛋白家族（allergenfamily）和一些粘蛋白。很多昆虫都被发现具有一种独特的生物学现象——滞育（diapause）。昆虫的滞育现象被认为是一种休眠的形式，在昆虫发育时遇到不适宜的环境时，就会马上由体内激素调节并控制，暂时停止发育。白纹伊蚊被发现同样具有滞育现象，这是它能适应环境气候变化，实现快速扩张入侵的生物学基础之一。白纹伊蚊的雌性成蚊在每日受到较短时间的光照后，产下的卵不会立即孵化，这便是一种滞育的现象。有趣的是，同是伊蚊属的埃及伊蚊，其雌性成蚊产的卵如果没有接触到水，也不会孵化、发育，这却被认为是一种静息状态（quiescence）。这两种现象的区别在于，发生滞育后，白纹伊蚊的卵即使收到合适的外界环境的刺激，仍需要经过一段时间的恢复才会孵化，而处于静息状态的埃及伊蚊的卵，只要受到适宜条件的刺激（如接触到水），就会马上进入发育阶段。国外有学者利用RNA-seq技术，对这两种现象进行分析，发现这两种现象在发育停止的阶段，分子水平上是很相近的，不同之处在于滞育现象的早期准备阶段和后期修复阶段，是其所独有的。关于滞育现象的早期准备阶段，国外学者通过RNA-seq技术，比较滞育前阶段（pre-diapause）的白纹伊蚊胚胎与同时期非滞育的白纹伊蚊胚胎基因表达水平上的差异，发现前者在基因表达模式上有非常大的改变。目前，已有学者归纳和总结出了一套利用RNA-seq技术研究白纹伊蚊滞育现象的方法，为今后更全面、彻底地认识白纹伊蚊以及其他媒介昆虫的滞育现象提供了坚实的基础。利用RNA-seq技术，我们对白纹伊蚊不同发育时期（卵、幼虫、蛹、雄蚊、雌蚊）和感染登革病毒前后的转录组进行了分析。对比分析不同发育阶段特别是雌雄蚊的基因表达谱，我们找到了在胚胎早期对性别分化具有重要作用的候选基因和对雌蚊吸血传病相关的性别偏爱基因。对比分析登革病毒感染与否的白纹伊蚊转录组，我们发现了可能与蚊媒与病原相互作用有关的免疫分子（未发表结果）。目前，针对这些候选基因的进一步功能分析正在进行之中。另外，对白纹伊蚊抗药品系和敏感品系的RNA-seq对比分析也在进行中，这对于其抗药机制的阐明非常重要。

3蚊虫的小RNA组学研究

小RNA（smallRNAs）主要指长度在18~30nt的一类非编码RNA（ncRNAs），在真核生物中，具有基因表达调控功能的小RNA主要有微小RNA（microRNAs,miRNAs）、内源小干扰RNA（endo-siRNAs）和piwi干扰RNA（piRNAs）。piRNA长度集中在26-31nt,目前只在动物的生殖系细胞及干细胞中被发现，其主要功能是参与转座子的沉默。miRNAs和endo-siRNAs长度主要集中在20~24nt。miRNAs在动植物和微生物中都普遍存在，据估计一个物种中约1/3的基因会受到miRNA的调控，大量的实验也表明miRNAs参与了诸多生命过程的调控，例如细胞周期、细胞分化、组织器官的发生、营养代谢、信号途径以及对外界生物的非生物的环境的反应；同时，miRNAs在生产实践与临床治疗上也具有很大的应用前景。以往用于寻找miRNAs等小RNA的方法有实验克隆法、计算机预测法。克隆法可以直接用于鉴定新小RNA，是初期发掘小RNA的常用方法，不足之处是实验周期较长，对低表达的小RNA的发现能力十分有限。计算机预测法多是针对某一已知的小RNA特征设计算法，从全基因组或EST数据库中快速发掘大量潜在的小RNA，一定程度上弥补了克隆法的缺点，然而，预测的小RNA最终还需要实验证明，同时计算机预测法对新类型小RNA的发掘能力十分有限。随着第二代高通量测序技术的问世，小RNA高通量测序（smallRNA-Seq）技术开始逐渐取代原始的小RNA发掘法方法，该法具有速度快、成本低、覆盖度深等多方面的优点，对鉴定与发现生命体内的小分子RNA及其功能与机理研究起极大的推动作用。全世界有超过3000种蚊虫，目前为止仅有冈比亚按蚊、斯氏按蚊、埃及伊蚊、致倦库蚊以及白纹伊蚊鉴定出miRNA。一些miRNA的文库和功能分析表明miRNA对蚊虫的卵巢发育和吸血后的血液消化具有调节作用。病毒感染可以对宿主细胞miRNA的表达水平产生深远影响，可能与宿主抗病毒机制及病毒入侵后改变细胞内环境有关，雌蚊中miRNA的表达模式会随着病原体的感染而发生变化。Hussain等对登革病毒（DENV）编码的miRNA或病毒小RNA（vsRNAs）的进行了功能研究，他们发现6个vsRNAs能通过作用于病毒基因组RNA茎环结构中的5''''和3''''的UTR区，显著增加病毒复制。中肠屏障是蚊虫防止病原体入侵而建立的重要屏障，Alexander等的研究发现miR-1174仅在伊蚊和按蚊的中肠中表达，且雌蚊吸血后其表达量明显上调；而当miR-1174表达下调后，蚊子吸血率明显降低，寿命明显缩短。作者认为：蚊特异性miRNAs，特别是miR-1174具有重要的生物学意义，它们可能影响人们今后控制蚊虫的策略。我们对白纹伊蚊不同发育时期（卵、幼虫、蛹、雄蚊、雌蚊、吸血后雌蚊）的小RNA进行了深度测序分析。结果在白纹伊蚊中筛选出119条已知的miRNA基因，确定了15条novelmiRNA基因，其中11条是伊蚊特异的，并且观察到许多miRNA呈现期特异表达的特点。经过实验验证，miR-286、miR-2492和miR-1891分别在白纹伊蚊的卵、幼虫和成虫期特异高效表达，敲低/敲除这些miRNA会对蚊虫的生长发育造成显著影响。这些研究为新型生物杀虫剂的研发提供了靶标。我们还对感染登革病毒前后白纹伊蚊的细胞和成虫的小RNA进行了深度测序分析。结果在感染登革病毒的白纹伊蚊中找到了10条表达上调的miRNA和11条表达下调的miRNA。通过对这些差显表达miRNA的功能分析，发现miR-252通过与E蛋白3''''-UTR区域的结合，对登革病毒的复制起到抑制作用；而miR-281则通过与E蛋白5''''-UTR区域的结合，对登革病毒的复制具有促进作用。这些研究为抗登革病毒药物的设计和研发提供了线索。piRNA来源于转座元件、基因间隔区和一些编码蛋白质基因的3''''UTRs，对维持基因的完整性和稳定性有一定作用，但最近的研究证明它在抗病毒免疫中也有较大作用。Schnettler等的研究证明：对蚊虫细胞感染虫媒病毒可以引发piRNA路径，而敲除piRNA蛋白质会使病毒产生增多。Castellano等确定了多个24-30nt的Piwi相互作用RNAs基因组簇，通过比对到转座元件和蛋白质编码基因的3''''UTRs，发现许多TEs和一些内源性基因的3''''UTR产生大量具有piRNA样特征的29-nt小RNAs峰。此外，来自冈比亚按蚊和黑腹果蝇TEs的正义和反义piRNAs揭示了piRNA序列偏差的新特征。弗吉尼亚理工大学的研究人员最近在库蚊中发现了一种新型的抗病毒途径，Morazzani等在无dicer-2和无突变的蚊细胞中进行的实验表明，病毒产生的piRNA样小RNA可以在病毒产生siRNA的过程中调节病毒感染的发生。同时也表明新的piRNA途径存在于蚊媒的体细胞中并且可能发挥着比siRNA途径更宽泛的的抗病毒作用，显示出其为强大的免疫系统。因此，理解病毒如何绕开蚊虫的双重抗病毒反应对于科学家来说是越来越有趣的挑战。

篇6

2工程概况

普光气田天然气净化厂循环水应急池位于普光气田天然气净化厂一台地的填挖交界区域，地质状况复杂。水池平面尺寸110m×50m，深6m(泵区深6.5m)，设计有效容积30000m3，主要用于厂内紧急情况下循环水的应急排放。池体结构为钢筋混凝土，设有一纵五横6条沉降缝，池体混凝土强度等级为C30、抗渗等级为S6，基础采用C15毛石混凝土换填，换填深度为3m。

3沉降监测网的布设与施测

3.1沉降监测网的布设为了保证水池蓄水试验过程中，池体沉降监测的顺利进行，需在水池周边布设一个独立沉降监测网。沉降监测网布设过程中，考虑到新建沉降监测网基准点自身稳固需要一定的时间跨度和本地区常年多雨的气候条件限制，在沉降监测网基准点布设时不再重新埋设基准点，而是利用距离水池100m以外的3个厂内原有的、且经过施工期间多次观测精度可靠的控制点作为本工程水池沉降观测的基准点。为便于后期对池体进行沉降监测和能够反映出池体的准确沉降情况，沉降观测点设在最能反映池体沉降的沉降缝两侧及转角处。在池底板混凝土浇筑时预先埋设沉降监测点，沉降监测点埋设位置为距池壁外侧约50cm的底板上，沉降监测点分布原则为每条沉降缝两侧及转角处各埋设1个，共计28个。

3.2仪器选择与施测为了保证水池沉降观测数据的准确有效，为水池蓄水试验过程中池体结构安全提供参考依据以及为3个基准点赋予新的独立高程数值。蓄水试验前使用苏州一光EL302A电子水准仪对沉降监测网内的3个基准点，分别按照闭合水准路线和附合水准路线进行多次二等水准测量，其偶然中误差M和全中误差MW均小于0.8mm，完全符合二等水准测量的精度要求。

4沉降监测

4.1确定观测次数

为了取得水池沉降监测的参照数据，水池充水前应进行一次与沉降监测精度(二等)相同的水准测量，以测得的各监测点高程数据为基准，计算蓄水试验期间各监测点的沉降量。同时，为了保证水池蓄水试验过程中池体结构安全，避免因水池充水速度过快导致池体失稳垮塌，水池蓄水试验过程中应缓慢充水。每2m高度或每次充水观测一次，发生不均匀沉降时应停止充水，并增加观测次数，直至稳定后再继续充水;水池蓄水达到设计高度后，观测一次，24h后观测一次，连续观测3d，以后每15d观测一次，直至沉降稳定;放水前后再各观测一次。

4.2沉降监测

本工程沉降监测的测量仪器使用苏州一光EL302A电子水准仪。测量时除了转角点外，均采用间视法进行观测。但是，最长视线长度不得大于50m，最短视线长度不得小于3m，最低视线高度不得低于0.6m;观测读数应精确到0.01mm，从而达到保证测量精度的目的，以保证沉降监测数据的有效性。

5数据分析

5.1数据处理数学模型

为了保证沉降监测数据计算的准确无误，在数据计算时利用Excel表格进行［6］。同时，为了充分体现各监测点的沉降变化和不均匀沉降程度，首先用充水后的每次观测的各监测点的高程与蓄水试验前测得的相应点的高程进行计算比较，以取得各监测点的沉降量。计算公式如下:Si=Si前－Si后式中:Si前为蓄水试验前测得的点i的高程;Si后为充水后的每次观测的点i的高程，Si为点i充水以后相对蓄水试验前的沉降量。沉降速度计算可参照相关规范和公式，由于本工程水池的沉降在第3次充水后的第3天(3月27日)后已基本稳定，所以这里不再赘述该水池的沉降速度计算和数据处理等。

5.2数据处理结果与分析

根据每次观测的各监测点的高程，通过以上数学模型可以计算得出:各监测点的沉降量。若在沉降监测中发现建筑物有较大不均匀沉降时，需根据沉降量计算基础的倾斜度。因本工程沉降监测过程中未发现较大不均匀沉降现象，这里不再赘述。其计算方法可参照《建筑变形测量规范》(JGJ8－2007)中有关沉降观测的内容。通过表2中的相关数据可以清晰看出，在蓄水试验过程中各监测点均有不同程度的沉降，试验前期沉降量较大，随着试验的进行逐渐减小、趋于稳定，虽然沉降量的大小各异，但基本趋于均匀;总体来看，位于填方区的东南方向的沉降量大于位于挖方区的西北区域，但未出现较大的不均匀沉降现象;某些测点略有回升，也可能是由于测量过程中的误差造成的。另外，在蓄水试验完成水池内试验用水全部排出后，各监测点均出现了一定程度的回升现象，其可能是因为水池基底土体受到的荷载卸载后，在基底应力场平衡的影响下，基底出现了回弹现象所致。

篇7

1.1数据采集

大数据的采集是整个流程的基础，随着互联网技术和应用的发展以及各种终端设备的普及，使得数据的生产者范围越来越大，数据的产量也越来越多，数据之间的关联也越来越复杂，这也是大数据中“大”的体现，所以需要提高数据采集速度和精度要求。

1.2数据处理与集成

数据的处理与集成主要是对前一步采集到的大量数据进行适当的预处理，包括格式化、去噪以及进一步集成存储。因为数据采集步骤采集到的数据各种各样，其数据结构也并不统一，不利于之后的数据分析，而且，一些数据属于无效数据，需要去除，否则会影响数据分析的精度和可靠性，所以，需要将数据统一格式并且去除无效数据。通常会设计一些过滤器来完成这一任务。

1.3数据分析

在完成了数据的采集和处理后，需要对数据进行分析，因为在进行数据分析后才能体现所有大数据的重要价值。数据分析的对象是上一步数据的处理与集成后的统一格式数据，需要根据所需数据的应用需求和价值体现方向对这些原始样本数据进一步地处理和分析。现有的数据分析通常指采用数据仓库和数据挖掘工具对集中存储的数据进行分析，数据分析服务与传统数据分析的差别在于其面向的对象不是数据，而是数据服务。

1.4数据解释

数据解释是对大数据分析结果的解释与展现，在数据处理流程中，数据结果的解释步骤是大数据分析的用户直接面对成果的步骤，传统的数据显示方式是用文本形式体现的，但是，随着数据量的加大，其分析结果也更复杂，传统的数据显示方法已经不足以满足数据分析结果输出的需求，因此，数据分析企业会引入“数据可视化技术”作为数据解释方式。通过可视化结果分析，可以形象地向用户展示数据分析结果。

2云计算与大数据分析的关系

云计算是基于互联网的相关服务的增加、使用和交付模式，通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源，是一种按使用量付费的模式。这种模式提供可用的、便捷的、按需的网络访问，进入可配置的计算资源共享池（资源包括网络、服务器、存储、应用软件、服务），这些资源能够被快速提供，只需投入很少的管理工作，或与服务供应商进行很少的交互。目前，国内外已经有不少成熟的云计算的应用服务。数据分析是整个大数据处理流程里最核心的部分。数据分析是以数据的价值分析为目的的活动，而基于大数据的数据分析通常表现为对已获取的海量数据的分析，其数据来源可能是企业数据也可能是企业数据与互联网数据的融合。从目前的趋势来看，云计算是大数据的IT基础，是大数据分析的支撑平台，不断增长的数据量需要性能更高的数据分析平台承载。所以，云计算技术的不断发展可以为大数据分析提供更为灵活、迅速的部署方案，使得大数据分析的结果更加精确。另一方面，云计算的出现为大数据分析提供了扩展性更强，使用成本更低的存储资源和计算资源，使得中小企业也可以通过云计算来实现属于自己的大数据分析产品。大数据技术本身也是云计算技术的一种延伸。大数据技术涵盖了从数据的海量存储、处理到应用多方面的技术，包括海量分布式文件系统、并行计算框架、数据库、实时流数据处理以及智能分析技术，如模式识别、自然语言理解、应用知识库等等。但是，大数据分析要走向云计算还要赖于数据通信带宽的提高和云资源的建设，需要确保原始数据能迁移到云环境以及资源池可以随需弹性扩展。

3基于云计算环境的Hadoop

为了给大数据处理分析提供一个性能更高、可靠性更好的平台，研究者基于MapReduce开发了一个基于云计算环境的开源平台Hadoop。Hadoop是一个以MapReduce算法为分布式计算框架，包括分布式文件系统（HDFS）、分布式数据库（Hbase、Cassandra）等功能模块在内的完整生态系统，已经成为当前最流行的大数据处理平台，并被广泛认可和开发应用。基于Hadoop，用户可编写处理海量数据的分布式并行程序，并将其运行于由成百上千个节点组成的大规模计算机集群上。

4实例分析

本节以电信运营商为例，说明在云计算环境中基于Hadoop的大数据分析给大数据用户带来的价值。当前传统语音和短信业务量下滑，智能终端快速增长，移动互联网业务发展迅速，大数据分析可以为运营商带来新的机会，帮助运营商更好地转型。本文数据分析样本来自于某运营商的个人语音和数据业务清单，通过Hadoop2.6.0在Ubuntu12.04系统中模拟了一个大数据分析平台来处理获得的样本。希望通过对样本数据的分析与挖掘，掌握样本本身的一些信息。以上分析只是一些很基本的简单分析，实际上样本数据中所蕴含的价值要远远大于本文体现的。以上举例意在说明基于云计算的大数据分析可以在数据分析上体现出良好的性能，为企业带来更丰富更有效率的信息提取、分类，并从中获益。

篇8

一、市场调查

根据一份市场调查显示；卖家本身体现的实力给人与信任可依赖程度越高，用户越愿意来购买商品。

在我评论之前，我申明一下，一家之言只代表一个群体的言论，并不能涵盖每个人的想法与判断，电子商务的数据报告只能说明趋势，并不能完全反应出每个顾客真实的意图。卖家信誉-28%。价格-26%。网站的外观和感觉-16%。网站易用性-15%。商品打折-4%。快递和交付等原因-3%。出现在搜索引擎上-2%。

这是一份市场调查的结果，数据报告对实际商业产生怎样的影响，一个关键问题就是筛选问题的分类方式，他是否独立又相互依存，论点论据之间重合度越低，数据报告能说明的问题越准确。但在这之前首先是样本数据的获取与筛选方法，这里就不追溯了。我只是想根据个人对电子商务的理解，结合这份报告说点事，实际上这一组数据比较接近我个人对网购的理解，首先我们逐条说明这些影响一个网店的因素：

二、卖家信誉

之所以被普遍认为是最重要的，是因为我们网购时并不真实的接触到产品，也并不了解向你推销商品的人是否值得可信，这都是顾客基本的一个需要认知过程，互联网上哪里去确认?当然如果你在一家多卖家的平台上，往往都会有商家信用，评论等功能，很容易通过别的顾客消费情况增加自己对商家的认知。电子商务为什么要打假信用?这只是顺应顾客需求，维护健康秩序所必须做的事情。所以作为卖家不要轻易尝试作假信用，或者你今天逃过一劫，但说不定你明天网店刚做大的时候被强行关闭了。

三、价格

价格是一道屏障，在相互比拼中，有人拼得起，有人拼不起，但如何更好的控制价格，削减顾客成本，不仅为自己赢得更多展示机会，也会赢得更多顾客。价格不会是越低廉越好，最好的平衡体系没有，只有一个方法，如何在综合上为自己赢得市场??有人习惯选一些比如3.99美元的价格，看上去不加拿一分钱顾客潜在心理是这个人没赚钱，但值得说的是商品定价因产品，因地域时间，顾客等因素制宜，现在的顾客不都是傻子，商品有的是比价机会。也有人选择款0利润或者赔本的商品推，但在商品里关联组合商品卖，通过吸引用户购买自己的组合商品或者别的商品来拉动自己销售利润；还有的人也是利用免费赠送或者赔本的方式挂商品，但通过物流利润来保证自己不亏本的方式拉动店铺其他产品行销。

四、网站的外观与感觉

有的人店铺半年一年都是淘宝默认的最烂的那套模板，也不知道为什么淘宝没更新还是咋的，我没卖过商品，还不是很了解那个，但我买东西基本不光顾这样的店铺，店主对店铺的打理程度决定了我对店主的看法，因为信用不是绝对可靠的；产品，服务好不好，全在你的形象与行为上。

五、网站易用性

你能忍受自己在一个网站哗啦了半天结果没搞懂应该怎么买商品吗?我一个朋友，按照我的认识他也是比较理性，属于心思敏捷的，他说他在XX网站搞了好久，都不知道怎么买东西，所以以后都没去过；虽然易用的应用都还是不能被所有人接受，但简单清楚的，没有歧义的每一步流程总是好的。不过这个虽然用户关注的多，但我觉得但凡有点认识的，认识相应语言的人大概都明白很多网购系统的操作流程。这里就不说什么了。

六、促销打折

商品打折也属于价格范畴，只是这里细化成了一个活动，活动可以是定期的比如每周二，三，四晚上限量抢购啊；选2款顾客竞价啊；前面“价格”里也提到的0价格换信用，换软文之类的啊；参与商盟联合促销啊；换季狂甩啊之类的。总之参与打折的，有资本经历运作打折的，只要PV高，顾客肯定不会少，除非你的商品含有价格，性能，服务等水分太大，用什么样的打折方法，最关键的你是销售一时还是为了希望吸引到长久的顾客而去设计。

七、快递与交付等原因

物流过程中虽然有很多不可控因素导致一些商品容易磨损之类的，但物流惧怕承担责任的态度决定了自己的发展框架，假设一下，你的企业就在你的心胸里；你心胸只有100㎡大小，即使你鼓足了劲你也最多到120㎡，这样的容量是没有办法和犹如大海宽广心胸的人比较的。我是没记住你，但有人记住你了，他下次要走物流，肯定不会选你，你损失的不只是一个用户，而是损失了一个未来。

八、搜索排名

我没有看到他们分析提交的数据时基于怎样的搜索引擎，这个分类其实很不准确，虽然数字已经很少了，我自己买商品在淘宝，有啊上都用他们站内的搜索引擎，如果我常用的几个排序商品方法筛选数据你都没排列在前三页，那么即使你离我最近，就住在我隔壁，你服务态度最好，商品也不必别人的差；但你离我还是太远了，我根本找不到你。

对我个人来说，像百度，GOOGLE的网页搜索这样的综合搜索出来的商品，对我吸引力太小了，综合搜索出来的商品并不是他信誉最高，价格最低，服务最好就显示在了综合搜索引擎上，只因为他的页面更适合搜索引擎逻辑而已。商品真正追求的东西不在文本上，而在商品与服务内在的东西里。当然，在同等条件下，不要错过这样一个增加PV与交易机会的机会。

九、总结

目前，数据挖掘技术正以前所未有的速度发展，并且扩大着用户群体，在未来越来越激烈的市场竞争中，拥有数据挖掘技术必将比别人获得更快速的反应，赢得更多的商业机会。现在世界上的主要数据库厂商纷纷开始把数据挖掘功能集成到自己的产品中，加快数据挖掘技术的发展。我国在这一领域正处在研究开发阶段，加快研究数据挖掘技术，并把它应用于电子商务中，应用到更多行业中，势必会有更好的商业机会和更光明的前景。

参考文献：

[1]韩家炜.Web挖掘研究[J].计算机研究与发展，2001.

[2]陈宏.消费者数据挖掘系统建立的几个问题.

篇9

一、转轨时期人口迁移理论

资料来源：《1987年全国1%人口抽样调查资料》、《1995年全国1%人口抽样调查资料》、《中国1990年人口普查资料》、《中国2000年人口普查资料》。

三、迁移的决定因素：计量分析

表3用于回归分析变量的统计值

注：*根据微观数据计算。

四、回归结果与讨论