期刊在线咨询服务,发表咨询:400-888-9411 订阅咨询:400-888-1571股权代码(211862)

期刊咨询 杂志订阅 购物车(0)

大数据技术模板(10篇)

时间:2023-03-21 17:16:41

大数据技术

大数据技术例1

中图分类号:TP391 文献标志码:A 文章编号:1006-8228(2015)01-13-02

Overview on big data technology

Yang Jing

(Department of Computer Science, Yunyang Teachers' College, Shiyan, Hubei 442000, China)

Abstract: Big data is a new technical wave after the network of things and cloud computing. To understand big data technology, the definition and 4V characteristics, the key technologies and main application fields are systematically analyzed in the paper. Through the introduction of the basic conception, characteristics, the main application fields with typical cases are summarized. The core technologies, key strategies of cloud computing, hadoop and data backup are analyzed. The potential information safety risks are pointed out. The countermeasures are given to provide some suggestions and references for wider application and study in the future.

Key words: big data; 4V characteristics; Hadoop; cloud computing

0 引言

物联网、云计算等新兴技术的迅速发展开启了大数据时代的帷幕。大数据技术是指从各种各样的海量数据中,快速获取有价值信息的技术,大数据的核心问题就是大数据技术。目前所说的“大数据”不仅指数据本身的规模大,还包括采集数据的工具、平台和数据分析系统复杂程度大。大数据的研发目的是发展大数据技术并将其应用到相关领域,解决实际生产、生活中的各种问题,从而推动信息技术健康地可持续发展。

1 大数据的定义及主要特征

与其他新兴学科一样,目前大数据没有一个统一的标准和定义。一般认为:大数据是由大量异构数据组成的数据集合,可以应用合理的数学算法或工具从中找出有价值的信息,并为人们带来经济及社会效益的一门新兴学科。大数据又被称为海量数据、大资料、巨量数据等,指的是所涉及的数据量规模巨大,以至于无法在合理时间内通过人工攫取、管理、处理并整理成为人类所能解读的信息。这些数据来自方方面面,比如社交网络、传感器采集、安防监控视频、购物交易记录等。尽管尚无统一定义,但这些无比庞大的数据被称为大数据。大数据具有如下4V特性[1]:

⑴ 体量Volume,是指数据存储量大,计算量大;

⑵ 多样Variety,是指大数据的异构和多样性,比如数据来源丰富,数据格式包括多种不同形式,如网络日志、音频、视频、图片、地理位置信息等等;

⑶ 价值Value,是指大数据价值密度相对较低,信息海量,但是要挖掘出真正有价值的数据难度较大,浪里淘沙却又弥足珍贵;

⑷ 速度Velocity,是指数据增长速度快,处理速度要求快。

2 大数据技术的应用领域

通过对海量数据进行采集、分析与处理,挖掘出潜藏在数据海洋里的稀疏但却弥足珍贵的信息,大数据技术正在对经济建设、医疗教育、科学研究等领域产生着革命性的影响,其所带来的巨大使用价值正逐渐被各行各业的人们所感知。

2.1 金融领域

大数据的火热应用突出体现在金融业,各大互联网企业(谷歌、阿里巴巴等)纷纷掘金大数据,开创了新的互联网金融模式。目前阿里巴巴的互联网金融做得如火如荼:基金、小额信贷、余额宝和理财保险产品等等,阿里巴巴之所以能够做火金融服务,其主要原因就在于阿里的大数据,阿里巴巴的电商平台存储了大量微小企业客户及数以亿计的个人用户行为信息、交易记录、身份数据等,拥有最好、最全的数据以及最完整的产业链,做P2P及个人小额信贷,具有最大优势[2]。相反,传统商业银行早期就已推出的小额信贷业务,开展得并不十分顺利。

2.2 市场营销

今天的数字化营销与传统市场营销最大的区别就在于精准定位及个性化。如今企业与客户的交流渠道发生了革命性的变化,从过去的电话及邮件,发展到今天的博客、论坛、社交媒体账户等,从这些五花八门的渠道里跟踪客户,将他们的每一次点击、加好友、收藏、转发、分享等行为纳入到企业的销售漏斗中并转化成一项巨大的潜在价值,就是所谓的360度客户视角。例如谷歌的销售策略主要着眼于在线的免费软件,用户使用这些软件时,无形中就把个人的喜好、消费习惯等重要信息提交给了谷歌,因此谷歌的产品线越丰富,他们对用户的理解就越深入,其广告定位就越精准,广告所攫取的价值就越高,这是正向的循环。

2.3 公众服务

大数据的另一大应用领域是公众服务。如今数据挖掘已经能够预测海啸、地震、疾病暴发,理解交通模型并改善医疗和教育等。例如,可采用神经网络和基于地震时间序列的支持向量机方法来预测地震的大概方位、时间、震级大小等重要信息,为通用地震模拟程序提供关键的数据,从而对地震进行早期预警,以使防震抗灾部门可以提前做好应对措施,避免大量的人员伤亡及财产损失;再如,将各个省市的城镇医疗系统、新农村合作医疗系统等全部整合起来,建立通用的电子病历等基础数据库,实现医院之间对病患信息的共享,提高患者就医效率[3];电力管理系统通过记录人们的用电行为信息(做饭、照明、取暖等),大数据智能电网就能实现优化电的生产、分配及电网安全检测与控制,包括大灾难预警与处理、供电与电力调度决策支持和更准确的用电量预测等,并通过数据挖掘技术找出可行的节能降耗措施,以实现更科学的电力需求分配管理。

2.4 安防领域

安防领域中最重要的就是视频监控系统,从早期看得见到现在看得远、看得清,视频监控是典型的数据依赖型业务,依赖数据说话。尤其是高清、超高清监控时代的到来,会产生巨量的视频数据。这些巨量视频监控数据中,多数是冗余无用的,只有少数是关键数据,如何剔除这些无用数据,一直是人们研究问题的焦点。在大数据技术的支撑下,通过对巨量视频数据的分析与处理,可实现模糊查询、精准定位、快速检索等,能够对高清监控视频画质进行细节分析,智能挖掘出类似行为及特征的数据,从而为业务分析和事件决策判断提供精准依据。

3 大数据处理关键技术

3.1 数据备份技术

在大数据时代,如何做好数据的安全备份至关重要。数据备份是数据容灾的前提,具体是指当出现某种突发状况导致存储系统中的文件、数据、片段丢失或者严重损坏时,系统可准确而快速地将数据进行恢复的技术。数据容灾备份是为防止偶发事件而采取的一种数据保护手段,其核心工作是数据恢复,根本目的是数据资源再利用。

3.2 Hadoop

大数据时代对于数据分析、管理等都提出了更高层次的要求,传统的关系型数据库和数据分析处理技术已经不能满足大数据横向扩展的需求。为了给大数据处理、分析提供一个性能更好、可靠性更高的平台,Apache基金会开发了一个开源平台Hadoop[4],该平台用Java语言编写,可移植性强,现在Hadoop已经发展为一个包括HDFS(分布式文件系统 )、HBase(分布式数据库)等功能模块在内的完整生态系统,成为目前主流的大数据应用平台。

3.3 云计算

如果把各种各样的大数据应用比作在公路上行驶的各种汽车,那么支撑这些汽车快速运行的高速公路就是云计算,云计算是大数据分析处理技术的核心。正是由于云计算在海量信息存储、分析及管理方面的技术支持,大数据才有了如此广阔的用武之地。谷歌的各种大数据处理技术和应用平台都是基于云计算,最典型的就是以UFS(UIT云存储系统)、MapReduce(批处理技术)、BigTable(分布式数据库)为代表的大数据处理技术以及在此基础上产生的开源数据处理平台Hadoop[5]。

4 大数据应用带来的信息安全隐患及应对策略

大数据时代,海量数据通常存储在大规模分布式的网络节点中,管理相对分散,而且系统也无法控制用户进行数据交易的场所,因此很难辨别用户的身份(合法及非法用户),容易导致不合法用户篡改或窃取信息;此外,大数据存储系统中包含了海量的个人用户隐私数据及各种行为的记录信息,如何在大数据的挖掘利用中确定一个信息保护和开放的尺度, 是大数据面临的又一难题。为了合理利用大数据并有效规避风险,我们提出以下四点建议:

⑴ 国家出台相关政策,加强顶层设计,保障数据存储安全;

⑵ 增强网络安全防护能力,抵御网络犯罪,确保网络信息安全;

⑶ 提高警惕积极探索,加大个人隐私数据保护力度;

⑷ 深化云计算安全领域研究,保障云端数据安全。

5 结束语

在当今信息知识爆炸的时代,大数据技术已经被广泛应用于商业金融、电力医疗、教育科研等领域。随着数据挖掘技术的不断进步,相关信息行业竞相从规模庞大、结构复杂的大数据海洋中攫取更多有价值的数据信息用于分析、解决现实生活中的各种实际问题,从而实现信息技术的快速健康发展。本文梳理了大数据的基本概念及4V特征,总结归纳了大数据技术的四大热门应用领域及三大核心处理技术,分析了大数据技术带来的诸如信息窃取及篡改、个人隐私数据泄露等信息安全隐患,并提出了相应的解决措施及建议。当然,目前大数据技术的研究尚处在起步阶段,还有许多深层次的问题亟待解决,如大数据的存储管理是通过硬件的简单升级还是通过系统的重新设计来解决,大数据4V特征中起关键作用的是什么,大数据技术的应用前景是什么,等等。就目前来看,未来大数据技术的研究之路还很长,需要我们用更加敏锐的洞察力来分析和研究。

参考文献:

[1] BARWICK H. The "four Vs" of big data. Implementing Information

Infrastructure Symposium[EB/OL]. [2012-10-02]. http://.au/article/396198/iiis_four_vs_big_data/.

[2] 韦雪琼,杨哗,史超.大数据发展下的金融市场新生态[Jl.时代金融,

2012.7:173-174

[3] 张敬谊,佘盼,肖筱华.基于云计算的区域医疗信息化服务平台的研

大数据技术例2

21世纪是信息化的时代,也是数据时代,随着世界范围内数据挖掘技术的不断深入研究,大数据时代的到来给数据挖掘技术带来了机遇的同时,也带来了挑战。面对浩瀚的数据库海洋,如何在茫茫海洋中寻找针对特点人群有用的数据是数据挖掘技术在大数据时代背景下的意义。通过数据挖掘技术的充分应用分类技术,挖掘大数据时代中的数据删选,同时通过大数据时代背景下数据挖掘技术的应用技术探讨了数据挖掘技术在大数据时代背景下的应用。

1 大数据时代背景下数据挖掘的意义

在信息时代的背景下,数字化技术和信息化技术在各行各业的应用,随着互联网技术、信息技术、物联网技术、云计算技术等数字信息技术的高速发展,结合当前高速发展的移动互联网技术以及数字地球技术的发展与应用,全世界范围内数据呈爆炸式增长,据统计2012年世界范围内产生的数据总量约1.86万亿GB。国际互联网数据统计中心根据近十年来来的数据增长速度计算,2020年全球范围内数据总量预计达到100万亿GB。信息化技术的发展给企业带来的冲击是巨大的,信息化技术彻底改变了传统的社会信息传输方式,带来全新的信息传播途径。对于社会来说,信息化是社会未来发展方向。信息化要求社会重视信息的形成、信息运用,社会用信息化的工具整合业务、共享信息构建企业“信息化网络体系”才能使企业在当今信息爆炸,高效率的社会背景下,是企业高效运转,才能综合企业的人力、物力、财力和管理能力是企业的各种资源通过信息化网络凝聚在一起,共同为企业的高效发展和全球化的进程的目标凝聚力量。企业信息化作为国民经济发展的重要组成部分,同时也是我国社会迈向信息化进程的重要前提。

企业信息化要求企业将大量的信息资源进行整合和电子化处理,从而提高信息的交互与传输效率,并希望藉此提高企业的生产经营管理方式和管理效率,从而达到利用现代信息技术提高企业生产力、提高企业生产效率和利润的根本目的。云计算作为现代信息化产业发展的新技术,给社会的信息化建设带来了巨大的改变,降低了社会在信息化建设中的投入,随着近年来云计算技术的不断成熟,云计算构建的信息化平台使社会的信息化、生产与办公效率前所未有地提高毫无疑问,当前的信息时代的发展已经达到了大数据时代的阶段,大数据时代的来临意味着人们在应用和利用数字信息技术时不得不花费更多的人力、物力、财力去筛选、存储和利用庞大的数据库。例如对于一个银行系统来说,每天数以万计的银行和ATM终端都发生庞大的交易和数据交换,这些庞大的数据交换信息构成了庞大的数据,如何在庞大的数据中筛选、分类和提取有价值的数据是数据挖掘技术在当前大数据时代存在的意义。

2 大数据时代背景下数据挖掘技术的分类应用

数据挖掘技术在当代数据爆炸的现代社会的重要性越来越强,随着社会信息化程度的不断提升,数据挖掘技术也逐渐发展成为一门独立的学科,数据挖掘技术为了满足用户在庞大的数据库中筛选有用的数据的需要,通过分类技术对数据进行分类挖掘,是当前大数据时代背景下大数据技术应用最为广泛的手段之一。

通过数据库类型分类技术是数据挖掘技术在大数据时代的应用之一。数据库的自动存储系统在数据存储过程中按照数据的类型、场景进行基础分类,数据挖掘技术在数据存储的基础分类的基础上进行数据库类型细分,通过数据模型的导入和数据类型包括关系型、对象型、时间型、空间型的分类进行数据挖掘的分类。其次通过数据知识类型分类技术是数据挖掘的重要分类方法之一。知识类型分类包括知识相关性、知识预测型和样本偏离分析法等知识类型分类方法。数据的抽象性和数据的粒度是数据知识类型分类的层次之一。通过挖掘数据分类中的抽象层和价值层找出数据的模式和规则性。数据的规则性通过不同的方法挖掘,通过数据概念的描述和数据预测等方法实现大数据精细化分类。

3 大数据时代背景下数据挖掘的应用技术

大数据时代背景下数据挖掘技术的应用技术主要包括神经网络算法、数据遗传、数据决策树、数据粗糙集等算法。数据神经算法通过对庞大的数据库进行分类,对符合优先条件的有用数据进行分类,能够在规模庞大的数据中迅速定位和精选有用数据。例如网络构架的基础传输通道光缆发生故障时,通过神经网络算法能够及时诊断网络中的损坏数据点,能够迅速定位故障点,并排除。神经网络算法针对网状结构的数据库利用效率较高。遗传数据挖掘技术是仿生学和遗传学中发展而来的数据算法。遗传数据挖掘技术针对全局数据进行优化计算,能够较好的兼容性和隐含并行性,因此在数据挖掘中与其它算法进行联合应用范围较广,应用较为普遍。决策树算法是在对模型的预测中,该算法具有很强的优势,利用该算法对庞大的数据信息进行分类,从而对有潜在价值的信息进行定位,这种算法的优势也比较明显,在利用这种算法对数据进行分类时非常迅速,同时描述起来也很简洁,在大规模数据处理时,这种方法的应用性很强。粗糙集算法是大数据时代背景下数据挖掘技术应用的典范,粗糙集算法通过数据划分将模糊知识和精确知识进行合并分析,并最终获得有效数据,应用范围十分广泛,应用效果较好。

4 结论

总之,在大数据时代背景下,数据挖掘技术是人们面对浩瀚的数据库所必备的技能,也是提高数据利用的有效方式数据挖掘技术在大数据时代背景下面临着挑战也面临着机遇。

参考文献

[1]刘华婷,郭仁祥,姜浩.关联规则挖掘Apriori算法的研究与改进[J].计算机应用与软件,2009(1):146-149.

[2]丁守哲.基于云计算的建筑设计行业信息系统开发模式与实现技术研究[D].合肥:合肥工业大学,2012:16-17.

[3]陈明奇,姜禾,张娟等.大数据时代的美国信息网络安全新战略分析[J].信息网络安全,2012,(08):32-35.

[4]王珊,王会举,覃雄派等.架构大数据:挑战、现状与展望[J].计算机学报,2011,34(10):1741-1752.

作者简介

大数据技术例3

[4]Big data[EB/OL]..

[18]丁智,林治.MapRdeuce编程模型、方法及应用综述[J].电脑知识与技术,2014,10(30):70607064.

[19]江舢,金晶,刘鹏展,等.分布式海量数据批处理技术综述[Z].中国科技论文在线,2012.

[20]吴哲夫,肖鹰,张彤.大数据和云计算技术探析[J].互联网天地,2015(4):611.

大数据技术例4

大数据是对全球的数据量较大的一个概括,且每年的数据增长速度较快。而数据挖掘,主要是从多种模糊而又随机、大量而又复杂且不规则的数据中,获得有用的信息知识,从数据库中抽丝剥茧、转换分析,从而掌握其潜在价值与规律。所以大数据时代下的数据处理技术要求更高,要想确保数据处理成效得到提升,就必须切实加强数据挖掘技术教学工作的开展,才能更好地促进数据处理职能的转变,提高数据处理效率,优化学生的学习成效。以下就大数据时代下的数据挖掘技术教学做出如下分析。

1大数据时代下数据挖掘技术的基础教学方法分析

数据挖掘的过程实际就是对数据进行分析和处理,所以其基础就在于数据的分析方法。要想确保分析方法的科学性,就必须确保所采用算法的科学性和可靠性,获取数据潜在规律,并采取多元化的分析方法促进问题的解决和优化。以下就几种常见的数据分析教学方法做出简要的说明。一是归类法,主要是将没有指向和不确定且抽象的数据信息予以集中,并对集中后的数据实施分类整理和编辑处理,从而确保所形成的数据源具有特征一致、表现相同的特点,从而为加强对其的研究提供便利。所以这一分析方法能有效的满足各种数据信息处理。二是关联法,由于不同数据间存在的关联性较为隐蔽,采取人力往往难以找出其信息特征,所以需要预先结合信息关联的表现,对数据关联管理方案进行制定,从而完成基于某种目的的前提下对信息进行处理,所以其主要是在一些信息处理要求高和任务较为复杂的信息处理工作之中。三是特征法,由于数据资源的应用范围较广,所以需要对其特征进行挖掘。也就是采用某一种技术,将具有相同特征的数据进行集中。例如采用人工神经网络技术时,主要是对大批量复杂的数据分析,对非常复杂的模式进行抽取或者对其趋势进行分析。而采取遗传算法,则主要是对其他评估算法的适合度进行评估,并结合生物进化的原理,对信息数据的成长过程进行虚拟和假设,从而组建出半虚拟、半真实的信息资源。再如可视化技术则是为数据挖掘提供辅助,采取多种方式对数据的挖掘进行指导和表达[1]。

2大数据时代数据挖掘技术教学要点的分析

2.1数据挖掘技术流程分析

在数据挖掘教学过程中,其流程主要是以下几点:首先做好数据准备工作,主要是在挖掘数据之前,就引导学生对目标数据进行准确的定位,在寻找和挖掘数据之前,必须知道所需数据类型,才能避免数据挖掘的盲目性。在数据准备时,应根据系统的提示进行操作,在数据库中输入检索条件和目标,对数据信息资源进行分类和清理,以及编辑和预处理。其次是在数据挖掘过程中,由于目标数据信息已经被预处理,所以就需要在挖掘处理过程中将其高效正确的应用到管理机制之中,因而数据挖掘的过程十分重要,所以必须加强对其的处理。例如在数据挖掘中,引导学生结合数据挖掘目标要求,针对性的选取科学而又合适的计算和分析方法,对数据信息特征与应用价值等进行寻找和归纳。当然,也可以结合程序应用的需要,对数据区域进行固定,并在固定的数据区域内分类的挖掘数据,从而得到更具深度和内涵以及价值的数据信息资源,并就挖掘到的数据结果进行分析和解释,从结果中将具有使用价值和意义的规律进行提取,并还原成便于理解的数据语言。最后是切实加强管理和计算等专业知识的应用,将数据挖掘技术实施中进行的总结和提取所获得的数据信息与评估结果在现实之中应用,从而对某个思想、决策是否正确和科学进行判断,最终体现出数据挖掘及时的应用价值,在激发学生学习兴趣的同时促进教学成效的提升。

2.2挖掘后的数据信息资源分析

数据信息资源在挖掘后,其自身的职能作用将变得更加丰富,所以在信息技术环节下的数据挖掘技术随着限定条件的变化,而将数据挖掘信息应用于技术管理和决策管理之中,从而更好地彰显数据在经济活动中的物质性质与价值变化趋势,并结合数据变化特点和具体的表现规律,从而将数据信息的基本要素、质量特点、管理要求等展示出来,所以其表现的形式十分丰富。因而在数据挖掘之后的信息在职能范围和表现形式方式均得到了丰富和拓展,而这也在一定程度上体现了网络拟定目标服务具有较强的完整性,且属于特殊的个体物品,同时也是对传统数据挖掘技术的创新和发展,从而更好地满足当前大数据时代对信息进行数据化的处理,并对不同种类业务进行整合和优化,从而促进数据挖掘技术服务的一体化水平。

2.3大数据背景下的数据挖掘技术的应用必须注重信息失真的控制

数据挖掘技术的信息主要是源于大数据和社会,所以在当前数据挖掘技术需求不断加大的今天,为了更好地促进所挖掘数据信息的真实性,促进其个性化职能的发挥,必须在大数据背景下注重信息失真的控制,切实做好数据挖掘技术管理的各项工作。这就需要引导学生考虑如何确保数据挖掘技术在大数据背景下的职能得到有效的发挥,尽可能地促进数据挖掘技术信息资源的升级和转型,以大数据背景为载体,促进整个业务和技术操作流程的一体化,从而更好地将所有数据资源的消耗和变化以及管理的科学性和有效性,这样我们就能及时的找到资源的消耗源头,从而更好地对数据资源的消耗效益进行评价,最终促进业务流程的优化,并结合大数据背景对数据挖掘技术的职能进行拓展,促进其外部信息与内部信息的合作,对数据挖掘技术信息的职能进行有效的控制,才能更好地促进信息失真的控制[2]。

3数据挖掘技术在不同行业中的应用实践

学习的最终目的是为了更好的应用,随着时代的发展,数据挖掘技术将在越来越多的行业中得以应用。这就需要高校教师引导学生结合实际需要强化对其的应用。例如在市场营销行业中数据挖掘技术的应用这主要是因为数据挖掘能有效的解析消费者的消费行为和消费习惯,从而利用其将销售方式改进和优化,最终促进产品销量的提升。与此同时,通过对购物消费行为的分析,掌握客户的忠诚度和消费意识等,从而针对性的改变营销策略,同时还能找到更多潜在的客户。再如在制造业中数据挖掘技术的应用,其目的就在于对产品质量进行检验。引导学生深入某企业实际,对所制造产品的数据进行研究,从而找出其存在的规则,并对其生产流程进行分析之后,对其生产的过程进行分析,从而更好地对生产质量的影响因素进行分析,并促进其效率的提升。换言之,主要就是对各种生产数据进行筛选,从而得出有用的数据和知识,再采取决策树算法进行统计决策,并从中选取正确决策,从而更好地对产品在市场中的流行程度,决定生产和转型的方向。再如在教育行业中数据挖掘技术的应用,主要是为了更好地对学习情况、教学评估和心里动向等数据进行分类和筛选,从而为学校的教学改革提供参考和支持。比如为了更好地对教学质量进行评估,就需要对教学质量有关项目进行整合与存储,从而更好地促进其对教学质量的评估,而这一过程中,就需要采取数据挖掘技术对有关教学项目中的数据进行挖掘和处理,促进其应用成效的提升[3]。

4结语

综上所述,在大数据背景下,数据挖掘技术已经在各行各业中得到了广泛的应用,所以为了更好地满足应用的需要,在实际教学工作中,我们必须引导学生切实加强对其特点的分析,并结合实际需要,切实注重数据挖掘技术的应用,才能促进其应用成效的提升,最终达到学以致用的目的。

作者:何智文 邓伦丹 单位:南昌大学科学技术学院

参考文献:

大数据技术例5

中图分类号:TP311 文献标识码:A 文章编号:1007-9416(2016)04-0000-00

20世纪80年代,计算机和互联网技术的发展使得数据量飞速增长,大数据是互联网技术发展到一定程度后必然出现的一种现象。

1数据挖掘的概念及功能

1.1 数据挖掘概念

数据挖掘是从大量的随机、模糊并带有噪声的数据集合中通过采用一定的算法对信息进行提取,发现规律和有用的价值信息的过程。一个完整的数据库挖掘系统主要包括了:数据库、数据库服务器、知识库、数据库挖掘引擎、模式评估模块、可视化用户界面。

1.2 数据挖掘方法和步骤

数据库挖掘的主要方法有基于遗传算法,粗集方法,决策树方法和神经网络方法。数据挖掘的一般步骤为:分析问题,判定源数据库是否满足数据挖掘的标准;提取、清洗和校验数据,去除数据中的噪声,得到数据完整、格式统一的数据;创建和调试模型,将选用的数据挖掘算法应用到数据中创建模型,通过数据来对模型进行校验和调整,得到满足使用要求的数据模型;维护数据挖掘模型,随着数据量的增加,需要对模型进行调整和维护,一些关键信息的改变有可能严重模型的精度,模型维护是数据挖掘的重要环节,通过模型维护可以保持模型的活力,不断完善模型。

1.3 数据挖掘的主要功能

数据挖掘的功能主要可以分为五大类:自动预测趋势和行为,关联分析,聚类分析,概念描述,偏差检测。采用数据挖掘技术在大型的数据库中寻找预测性信息,市场预测就是数据挖掘技术在自动预测趋势和行为方面的典型应用;关联分析是采用数据挖掘技术研究数据空中自变量和因变量之间的某种规律,找出数据库中存在的隐藏的关联网;聚类分析通过数据挖掘定义具有共同特征的子集,增强人们对于客观事实的理解和认识,数据挖掘技术避免了传统的模式识别和数学分类方法的片面性,是一个更加先进的聚类分析方法;概念描述建立在聚类分析的基础上,提取对象的特征,形成对概念的描述;偏差检测,数据库中的数据很可能存在着异常记录或者是数据噪声,通过偏差检测提出异常数据。

2数据挖掘技术的应用

数据挖掘技术已经应用在了各个行业中,数据量巨大的互联网行业、天文学、气象学、生物技术,以及医疗保健、银行、金融、零售等行业。通过数据挖掘技术将大数据融合在各种社会应用中,数据挖掘的结果参与到政府、企业、个人的决策中,发挥数据挖掘的社会价值,改变人们的生活方式,最大化数据挖掘的积极作用。以互联网行业为例,探究数据挖掘技术在社交网络中的应用。

互联网时代的信息爆炸给互联网用户的使用需求带来了一定的不便,用户如何快速获取有用信息,网站如何快速定位用户需求成为了研究课题。以社交网络为例,社区中的视频、音频、图片、文字等信息各式各样,每个人的兴趣、习惯不同,要得到的内容也不同。采用数据挖掘技术对社交网络数据分析,通过细分用户,挖掘不同用户的需求,开出出符合不同用户个性特征的服务和产品,满足WEB2.0时代对于网络个性化智能化的要求。

数据的采集和预处理是数据挖掘技术实现的前提,数据的预处理内容主要包括数据收集与录入、数据清洗与净化、用户识别、会话识别、文本提取。数据收集与预处理的系统结构图如图1所示。采集的数据一般会存放在数据库中,数据库中的数据具有组织性、结构性、易存取的特点,数据为了达到数据挖掘的要求还需要进行数据清洗、数据集成、数据转换和数据简化。

数据挖掘器的设计目的是对文本数据的内容进行分析与挖掘,提取能够代表和概括整个文本内容的标签。文本挖掘的步骤包括识别中文词,去除停用词,检测短语,检查同义词,创建单词向量。中文中字、句、段之间都有间隔,只有词之间没有,本文采用机械分词法进行识别处理,通过扫面句中字符串,将其余词典词语进行匹配,识别出词汇。去除停用词是将文本中常用的词汇去除,这些词汇在文本数据挖掘中属于无用词汇,去除后能够减小数据处理的复杂程度。检测短语和检测同义词的方法类似,都是通过类来实现,检测短语通过类PhrasesCache实现,检测同义词通过类SynonymousCache实现,通过词汇和记号词的匹配实现短语和同义词的识别。构建单词向量,通过单词向量来表示一个项目,单词向量是通过文本单词及其权重来构成的,通过单词检索可以得到用户想要获得的文档和信息。

3结语

本文主要分析了大数据的含义和特点,数据挖掘的概念和主要功能,着重探究了数据挖掘技术的主要应用,并结合数据挖掘技术在互联网社交网络中的应用进行了实例分析,通过数据挖掘技术更好的匹配用户想要得到的信息。

参考文献

[1]郭春.基于数据挖掘的网络入侵检测关键技术研究[D].北京邮电大学,2014.

大数据技术例6

1.大数据技术现状

当前许多企业都已基本实现了信息化建设,企业积累了海量数据。同时企业间的竞争日益加剧,企业为了生存及发展需要保证自身能够更加准确、快速和个性化地为客户提品及服务。而大数据技术能够从海量的数据中获取传统数据分析手段无法获知的价值和模式,帮助企业更加迅速、科学、准确地进行决策和预测。

1.1大数据技术现状

广大企业的迫切需求反之也促进了大数据技术的飞速发展,涌现出了诸如Hadoop、Spark等实用的架构平台。其中,目前最主流的就是Hadoop。Hadoop的分布式处理架构支持大规模的集群,允许使用简单的编程模型进行跨计算机集群的分布式大数据处理。通过使用专门为分布式计算设计的文件系统HDFS,计算的时候只需要将计算代码推送到存储节点上,即可在存储节点上完成数据本地化计算。因此,Hadoop实现了高可靠性、高可拓展性、高容错性和高效性,可以轻松应对PB级别的数据处理。

1.2大数据技术对烟草数据中心建设的影响

当前,烟草企业基于多年的信息化建设已经积累了海量数据,同时每天还不断有新的各种数据产生。在高并发、大体量的情况下,需要在数据采集、存储和运算方面采用与以往完全不同的计算存储模式,这就不可避免地需要采用大数据技术。同时,除了购进单、卷烟交易数据、货源投放数据等结构化数据外,还产生越来越多的非结构化数据,利用大数据技术,对非结构化数据进行预处理,可为人工判断和机器学缩减范围。对海量数据以及非结构化的信息进行分析统计,仅仅依靠传统的技术手段很难实现,只有引入大数据技术才能充分的将所有的数据资源利用起来,成为企业决策的助力。

2.江苏烟草数据中心应用现状

2.1江苏烟草数据中心体系架构

目前江苏烟草数据中心以一体化数据中心、一体化数据管理和一体化数据分析三个部分为核心,构建了一套完整的数据中心架构。一体化数据中心是整个数据中心最核心的部分。通过数据仓库模型、数据存储、ETL工具等组成部分,构建了业务数据的收集、加工、存储、分发的总体架构。建立了按ODS(SODS、UODS)、DW、DM三层结构设计建设的数据仓库。一体化数据管理通过主数据管理、信息代码管理、ESB平台构建了企业主数据收集、标准化、同步分发过程。结合指标管理,全面管控企业的公用基础信息。通过数据质量管理,全面有效管控数据质量。通过数据服务管理,有效提升数据中心的对外服务能力与水平。通过元数据管理来管理数据中心元数据。一体化数据分析通过构建移动信息、业务分析、数据挖掘三大模块,针对性解决当前不同人员的决策、管理以及操作需求,发挥数据中心的数据、技术、平台优势。通过移动信息模块为各级领导提供决策支持;通过业务分析模块为业务人员的日常工作提供支撑;通过数据挖掘模块,发掘数据所蕴含的隐性价值。基于上述一整套架构的支撑,目前数据中心构建了全省范围的数据集成、交换体系,一方面提升了全省基础数据、业务数据的规范化程度和数据质量,另一方面为在建业务系统的实施、已有系统的改造提供了标准化的高质量数据保障。

2.2大数据技术的应用场景分析

随着江苏数据中心的不断运行,一些基于传统技术架构的功能逐渐暴露出种种问题。其中较为突出的问题有:一是使用者对于大数据量数据的查询需求。基于传统技术架构的查询功能响应较慢;二是分析支持灵活性的不足。传统统计分析应用的数据结构大多是预先定义好的,面对灵活的非传统的统计查询需求难以支撑,需要进行额外的加工处理。江苏烟草数据中心结合互联网大数据技术特性,引入Hadoop平台以及Impala等工具,搭建基于大数据的自定义数据查询平台,以补充基于传统技术架构的功能不足,并为未来进一步发展建设基于大数据技术和云环境的数据中心做好准备。

3.基于大数据的自定义数据查询平台实现

3.1设计思路及架构

基于大数据的自定义数据查询平台是在现有数据中心的建设成果之上,以数据中心的数据存储为基础,以Hadoop、Hive、Impala等大数据技术工具为手段,以简单灵活、快速高效的查询展现为目标,建立的数据查询分析支持平台。

3.2技术方案

自定义数据查询平台的建设主要涉及数据存储架构、后台数据加工准备、前端展现三块内容。自定义数据查询平台的数据存储分为两部分。一部分为KETTLE、Impala等工具以及自定义查询相关的元数据存储,另一部分则是查询所需的各种统计数据的存储。元数据的存储根据元数据库的不同主要分为两部分。第一部分为基于Mysql数据库的元数据存储。这部分元数据主要包括有ETL工具KETTLE的元数据,以及前端自定义查询需要定义的权限、数据源、表、列和表列关系等信息。第二部分为基于Hive的元数据存储。这部分存储的是前端查询需要使用的Impala工具的元数据。统计数据的存储则是使用Hadoop的HDFS实现的。根据Hadoop平台架构,自定义数据查询平台的HDFS建立在6台虚拟主机构建的集群上的。其中:2台虚拟主机作为NameNode,一台为主节点,另一台为备份节点;其余4台虚拟主机都作为DataNode用于存储数据。所有数据将会统一分块自动分配存储到4个DataNode上。自定义数据查询平台的数据加工,是通过开源ETL工具KETTLE实现的。通过KETTLE从数据中心现有数据仓库及数据集市中读取需要的数据,根据自定义数据查询平台的数据模型定义对数据进行处理,最终加载到Hadoop的HDFS文件系统中。自定义数据查询平台的前端展现功能,主要是基于JSP技术实现页面开发,通过JDBC或者ODBC对后台Mysql数据库进行访问。使用者在查询页面中组织定义查询的内容,查询服务自动根据获取的元数据信息将定义的查询内容拼接转换成为查询SQL,之后通过Impala执行查询SQL对HDFS文件系统中的统计数据进行查询。

3.3系统实现效果

利用大数据技术,自定义数据查询平台较好地解决了目前数据中心所面对的问题,满足了使用人员对于大数据量以及分析灵活性的需求。面对使用人员层出不穷的查询需求,自定义数据查询平台通过预先梳理、分类定义各种维度以及统计指标。使用者可以自由的根据实际需求选择分析所需的维度及统计指标,同时还可以基于这些基础的内容更进一步自定义过滤条件以及计算公式,并指定其展现形式。在大数据量查询效率方面,自定义查询平台相比传统架构的查询功能有了较大提升。

4.结束语

大数据技术的发展方兴未艾,应用前景无比广阔,对各行各业的巨大作用正在逐步展现。江苏烟草数据中心的建设既要看到大数据技术未来的前景,更需要明确地认识到大数据平台的建设并非一朝一夕,需要有明确而长远的规划,不断完善数据环境建设、云计算环境的构建以及数据服务的扩展。

参考文献

[1]陈鹏.大数据时代下的信息安全问题研究[J].电子制,2015,18:48

大数据技术例7

中图分类号:F503 文献标识码:A 文章编号:1674-098X(2014)04(a)-0021-01

对于数据分析来说,其主要的目的就是通过对数据的分析去发现问题或预测趋势。从数据钻取、大规模分析的技术手段、以及算法执行上来说,大规模分析是和小规模数据在技术上是有很大差异的。想要探究大数据下的智能数据分析技术,首先要对数据分析这一概念进行深入研究。

1 数据分析

数据分析的过程其实简单的说就是做报告,做什么样的报告反映什么样的指标。最开始的时候基本上是data processing。例如零售行业来说,最主要的指标就是库存、销售同比增长情况、利润同比增长情况、促销率等等。对于不同的行业会有不同的相关的KPI需要跟踪,所以报告的内容也会有所侧重,但是只要你一个行业做久了,熟悉了套路之后,基本上就是以同样的方法开展。

对于数据分析,如果公司部门分的比较细的(例如可能有建模组),那么做数据分析可能永远都是做data processing了。对于模型的分析,需要你对业务有了深入的了解就可以建立一些模型出来(例如推荐模型)等等。

数据分析主要涉及的技能:

(1)数据库的能力。越全面越好,如果不是理工科的,最起码要会select那些简单的查询语句。

(2)EXCEL、PPT的能力。报告的呈现一般都是Excel+PPT的形式,最好VBA,这样就可以将很多人工的工作转化为自动化的能力,提高工作效率,领导也对你刮目相看,自己也有更多空余的时间准备其他方面的知识。

(3)市场分析能力。学会观察市场的走向和关注的内容,例如零售行业,现在大家都对CRM很热衷,那相关的分析方法和方式是怎么样的,你要自己去了解。从来不会有人手把手的将所有东西都告诉你,你必须自己学会去增长知识。

(4)一些会计的知识。因为通过以上分析,就是会计管理的一部分内容,最后还是公司盈利问题。有兴趣的也可以去看看战略管理方面的,对于做数据分析也很有好处的说。

综合来看,可以说数据分析=技术+市场+战略。

2 如何培养数据分析能力

理论:

基础的数据分析知识,至少知道如何做趋势分析、比较分析和细分,不然拿到一份数据就无从下手;

(2)基础的统计学知识,至少基础的统计量要认识,知道这些统计量的定义和适用条件,统计学方法可以让分析过程更加严谨,结论更有说服力;

(3)对数据的兴趣,以及其它的知识多多益善,让分析过程有趣起来。

实践:

(1)明确分析的目的。如果分析前没有明确分析的最终目标,很容易被数据绕进去,最终自己都不知道自己得出的结论到底是用来干嘛的;

(2)多结合业务去看数据。数据从业务运营中来,分析当然要回归到业务中去,多熟悉了解业务可以使数据看起来更加透彻;

(3)了解数据的定义和获取。最好从数据最初是怎么获取的开始了解,当然指标的统计逻辑和规则是必须熟记于心的,不然很容易就被数据给坑了;

(4)最后就是不断地看数据、分析数据,这是个必经的过程,往往一个工作经验丰富的非数据分析的运营人员要比刚进来不久的数据分析师对数据的了解要深入得多,就是这个原因。

3 大数据

大数据就是通过统计分析计算机收集的数据,在人们可能不知道“为什么”的前提下,了解到事物的状态、趋势、结果等“是什么”。

对于大数据,一直来说,数据规模导致的存储、运算等技术问题从来不是最重要的瓶颈。瓶颈只在于前端数据的收集途径,以及后端商业思想引领的模型和算法问题。早期的各类OLAP工具已经足够了,后来类似海杜普这样的研究则彻底降低了分布式数据的架构成本和门槛,就彻底将大数据带入了一个普及的领域。

从技术层面说,大数据和以前的数据时代的最大差异在于,以前是数据找应用/算法的过程(例如各大银行的大集中项目,以及数据建仓),而大数据时代的重要技术特征之一,是应用/算法去找数据的过程,因为数据规模变成了技术上最大的挑战。

大数据的特点:

(1)大数据不等同于数据大,我们处理问题是根据这个问题的所有数据而非样本数据,即样本就是总体;不是精确性而是混杂性;不是因果关系而是相关关系。

(2)大数据应用的几个可能:当文字变成数据,此时人可以用之阅读,机器可以用之分析;当方位变成数据,商业广告,疫情传染监控,雅安地震时的谷歌寻人;当沟通变成数据,就成了社交图谱。一切都可以量化,将世界看作可以理解的数据的海洋,为我们提供了一个从来未有过的审视现实的视角。

(3)数据创新的价值:数据的再利用。例如重组数据:随着大数据出现,数据的总和比部分更有价值,重组总和和本身价值也比单个总和更大;可扩展数据:在设计数据收集时就设计好了它的可扩展性,可以增加数据的潜在价值;数据的折旧值:数据会无用,需淘汰更新;数据废气:比如语音识别,当用户指出语音识别程序误解了他的意思,实际上就有效的训练了这个系统。

总之,大数据是因为对它的分析使用,才产生和体现它的价值,而不是因为其用到了突出的技术和算法才体现了它的价值。

4 大数据下的智能数据分析

在大数据的背景下,必须考虑数据之间的关联性。一个单独的数据是没有意义的,实际中,选择处在两个极端的数据往往更容易找出它们之间的联系,把它们放在一个框架中看才能发现问题。因此,可以用以下四种方法在大数据背景下进行智能数据分析:

(1)从解决问题的角度出发收集数据;

(2)把收集的数据整理好,放入一个框架内,并利用这个框架帮助决策者做出决定;

(3)评估决定与行动的效果,这将告诉我们框架是否合理;

(4)如果有新的数据出现,我们将考察能否利用它对前面三步做出改进,以及我们今天是否还需要收集更多种类的数据。

5 结语

数据分析的最终目的是帮助业务发现问题并解决问题,提升公司价值,而这些是从数据发觉的,而不是盲目下结论。每家公司都有自己业务生产的数据,通过数据分析、同比环比、漏斗分析及模型等,发现业务上存在的问题,帮助公司业务的优化。

参考文献

大数据技术例8

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2013)22-5002-02

1 概述

随着产生数据的设备使用数量越来越多,使用范围越来越广,大量的非结构化数据每秒钟都被产生出来,比如视频、照片、社交媒体评论以及网站评述等数据都是这样的数据。这意味着越来越多的数据不能被存储在预定义的结构化表格中,相反,这类数据往往由形式自由的文本、日期、数字适时组成。某些数据源生成速度非常快,甚至来不及分析就进行存储。这也是无法单纯依靠传统数据管理和分析工具来存储、管理、处理和分析大数据的原因。为了从这些大数据中获取和分析特定的需求信息,就需要对大数据的技术进行研究。

2 大数据介绍

大数据近几年来新出现的一个名词,它相比传统的数据描述,有自己的四个特性[1],分别是:Volume(大的数据量)、Velocity(输入和处理速度快)、Variety(数据多种多样)、Veracity(真实有价值)。因此,大数据需要新的处理模式来取代传统的数据处理方法,它同时包含数据量巨大和快速的处理速度两层含义。

云计算是一种大数据的处理技术平台,综合了各种资源之后提供一些虚拟技术服务。这样的方式可以很大程度降低用户维护、处理、使用数据以及其他计算资源的成本。数据单位已不再是用GB,TB能够满足的描述需要,而是步入了PB级别的时代。传统的数据存储方式已经不能满足这些数据的存储和处理,只有依托云平台存储技术的方式来解决这个当前已经面临的问题。

3 大数据技术分析

3.1 大数据的处理方式

大数据的处理方式大致分为数据流处理方式和批量数据处理方式两种。

数据流处理的方式适合用于对实时性要求比较高的场合之中。并不需要等待所有的数据都有了之后再进行处理,而是有一点数据就处理一点,更多地要求机器的处理器有较快速的性能以及拥有比较大的主存储器容量,对辅助存储器的要求反而不高。

批量数据处理方式是对整个要处理的数据进行切割划分成小的数据块,之后对其进行处理。重点在于把大化小——把划分的小块数据形成小任务分别单独进行处理,并且形成小任务的过程中不时进行数据传输之后计算,而是将计算方法(通常是计算函数——映射并化简)作用到这些数据块最终得到结果。

3.2 大数据技术模型

大数据的技术模型目前主要研究的是图1的模型。

图1是一种描述复杂关系的数据结构,它并不像线性链表和树那样看上去结构简单和清晰,但它能描述一些更为错综复杂的层次和关系。对实际关系的描述使用范围和频率都更多更广。采用一些数学方法和算法工具来对图进行处理,是处理大数据的一个前提。存储图结构数据的时候一般选用邻接矩阵或邻接表的方式来进行,这在数据结构这门学科里面已经有所研究。图的两个顶点之间用边进行连接,这个可以看作网络结构里面,相邻两个节点之间有传输消息的通路。一个复杂的网络结构对应出来的也是复杂的图结构,处理的时候需要将该图进行分割处理,采用分而治之的办法来解决问题。

如果节点A和B之间的所有通路都被C阻塞了,就意味着C有向分割了A和B,即A和B在给定条件C时独立。

这种方法就降低了条件限制的复杂性,有效地将问题利用数学模型求解出来。

3.3 大数据处理系统应用

开源是现在很多大型国际IT公司倡导的服务方式,这个理念拥有很多拥护者。虽然它最初的出现和商业搭不上边,但已为具有现展理念的国际大型商业IT公司所接受,他们所认同的是面向服务的开源,进而出现了新的经济增长方式。

目前有一些较为前沿的公司已经研发开源的大数据处理技术,比较典型的是推特研发的Storm系统和谷歌研发的MapReduce模型。前者是以数据流方式进行数据处理而后者是采用批量数据的处理方式。

MapReduce是目前用得比较多的方法,其核心思想就是两个步骤:Map和Reduce。Map过程就是一个映射过程,完成这一步之后再对其进行Reduce过程处理,也即是精简的过程。最后将处理的最终结果进行输出。

3.4 大数据技术发展趋势

传统的关系型数据库和新兴的数据处理技术目前是并存状态,它们之间将来会相互学习,相互渗透,相互影响,互相融合,最终形成对数据分析有利的格局,能够更好地为大数据处理服务,从庞大巨量的数据当中找到需要的数据并对之进行处理、分析乃至决策。

4 结束语

大数据是当今越来越多的数据源每分每秒不断产生新数据后的一个产物,对他它的研究和利用是紧迫的事情。目前研究的一些大数据技术都有其优缺点,技术种类也不是很多,还处于一个上升的阶段。研究大数据的处理、分析、利用技术和方法,对今后这一分支的发展起到关键性的作用,对后来的科技产品乃至我们的日常生活都会带来巨大的影响。

参考文献:

[1] Grobelink M.Big-data computing: Creating revolutionary breakthroughs in commerce, science, and society[R/OL].2012.10.02. http:///eswc2012_grobelink_big_data/

[2] 戎翔,李玲娟.基于MapReduce的频繁项集挖掘方法[J].西安邮电学院学报,2011(4).

大数据技术例9

中图分类号:F49 文献标识码:A 文章编号:1007-9416(2015)030-0209-01

近几年,大数据(big data)一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。2012 年3 月,奥巴马公布了美国《大数据研究和发展计划》,标志着大数据已经成为国家战略,上升为国家意志。从硅谷到北京,大数据的话题传播迅速。

1 大数据时代

随着计算机技术全面融入社会生活,经过半个多世纪的发展,信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。最先经历信息爆炸的学科,如天文学和基因学,创造出了“大数据”这个概念。

1.1 大数据时代产生的背景

最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”大规模生产、分享和应用海量数据的时代之所以能够开启,源于信息科技的进步、互联网与云计算技术和物联网的发展。

(1)信息科技的进步。信息处理、信息存储和信息传递是信息科技的三个主要支撑,存储设备性价比不断提升、网络带宽的持续增加,为大数据的存储和传播提供了物质基础。

(2)互联网与云计算技术。互联网时代,电子商务、社交网络和移动通信产生了大量结构化和非结构化的数据,以云计算为基础的信息存储、分享和挖掘手段,可以便宜、有效地将这些大量、高速、多变化的终端数据存储下来,并随时进行分析与计算。互联网领域的公司最早重视数据资产的价值,他们从大数据中淘金,并且引领着大数据的发展趋势。

(3)物联网的发展。众所周知,物联网时代所创造的数据不是互联网时代所能比拟的,而且物联网的数据是异构的、多样性的、非结构和有噪声的,最显著的特点是是它的高增长率。大数据是物联网中的关键技术,物联网对大数据技术的要求更高,它的发展离不开大数据。

1.2 大数据与数据挖掘

Google、Amazon、Facebook、Twitter,这些称霸全球互联网的企业,它们的成功都具备一个共同的因素,就是收集分析海量的各种类型的数据,并能够快速获取影响未来的信息的能力。“购买了此商品的顾客还购买了这些商品”,这恐怕是世界上最广为人知的一种商品推荐系统了,而创造出这个系统的正是Amazon。Amazon 通过分析商品的购买记录、浏览历史记录等庞大的用户行为历史数据,并与行为模式相似的其他用户的历史数据进行对照,提供出最适合的商品推荐信息。Facebook 可以为用户提供类似“也许你还认识这些人”的提示,这种提示可以准确到令人恐怖的程度,而这正是对庞大的数据进行分析而得到的结果。这种以数据分析为核心的技术就是数据挖掘(data mining)。

从技术角度看,数据挖掘是从大量的、复杂的、不规则的、随机的、模糊的数据中获取隐含的、人们事先没有发觉的、有潜在价值的信息和知识的过程。从商业角度来说,数据挖掘是从庞大的数据库中抽取、转换、分析一些潜在规律和价值,从中获取辅助商业决策的关键信息和有用知识。大数据概念的提出,将为数据挖掘技术的发展和应用带来一个很大的机遇。

2 数据挖掘

数据挖掘旨在从大数据中提取隐藏的预测性信息,用便于理解和观察的方式反映给用户,作为决策的依据。

2.1 数据挖掘原理

数据挖掘又称为数据库中的知识发现(Knowledge Diseoveryin Databases,KDD),是一个从数据库或数据仓库中发现并抽取隐含的、明显未知的、具有潜在用处的信息的过程。数据挖掘一般流程主要包括三个阶段:数据准备、数据挖掘、结果解释和评价。在数据挖掘的处理过程中,数据挖掘分析方法是最为关键的。

(1)数据准备。数据准备是从海量数据源得到数据挖掘所用的数据,将数据集成到一起的过程。由于数据收集阶段得到的数据可能有一定的污染,即数据可能存在不一致,或有缺失数据、脏数据的存在,因此需通过数据整理,对数据进行清洗及预处理。

(2)数据挖掘。是数据挖掘中最关键的一步,使用智能的方法提取数据模式,例如决策树、分类和聚类、关联规则和神经网络等。首先决定要提取什么样的模型,然后选取相应的算法参数,分析数据从而得到可能形成知识的模式模型。

(3)结果解释和评价。数据挖掘后的结果需要转换成用户能够理解的规则或模式,并根据其是否对决策问题具有实际意义进行评价。

2.2 数据挖掘技术在营销中的应用

无差别的大众媒体营销已经无法满足零和的市场环境下的竞争要求。精准营销是企业现在及未来的发展方向,在精准营销领域,最常用的数据挖掘分析方法包括分类、聚类和关联三类。

(1)关联规则。挖掘关联规则就是发现存在于大量数据集中的关联性或相关性,例如空间关联挖掘出啤酒与尿布效应;时间关联挖掘出孕婴用品与家居装修关系;时间关联挖掘出调味品、纸巾与化妆品的消费等。

此外,关联规则发现也可用于序列模式发现。序列模式发现的侧重点在于分析数据项集在时间上或序列上的前后(因果)规律,可以看作是一种特定的关联规则。例如顾客在购买了打印机后在一段时间内是否会购买墨盒。

(2)分类分析。分类是假定数据库中的每个对象属于一个预先给定的类,从而将数据库中的数据分配到给定的类中。它属于预测性模型,例如在银行业,事先定义用户的信用状况分为两类:信用好和信用坏,对于一个信用状态未知的用户,如果需要确定其信用度,可以采用“决策树”法构建一个分类模型,决策树方法着眼于从一组无次序、无规则的客户数据库中推理出决策树表现形式的分类规则。决策树的非叶子节点均是客户的一些基本特征,叶子节点是客户分类标识,由根节点至上而下,到每个叶子节点,就生成了一条规则,由该决策树可以得到很多规则,构成了一个规则集合,从而进行数据分析。

(3)聚类分析。聚类是将物理或抽象对象的集合进行分组,然后组成为由类似或相似的对象组成的多个分类的分析过程,其目的就是通过相似的方法来收集数据分类。为品牌找客户,回答品牌“谁来卖”是精准营销首先要解决的问题,科学细分客户是解决这一问题的有效手段。聚类可以将目标客户分成多个类,同一个类中的客户有很大的相似性,表现在购买行为的高度一致,不同类间的客户有很大的相异性,表现在购买行为的截然不同。

3 结语

大数据时代背景下“数据成为资产”,数据挖掘技术作为支撑精准营销的重要手段,将它应用于营销行业的决策中,不仅拓展了数据挖掘技术的应用范围,而且大数据时代的数据挖掘技术可以帮助企业获得突破性回报。

参考文献

[1]维克托・迈尔―舍恩伯格;肯尼思・库克耶.大数据时代:生活、工作与思维的大变革[M].周涛译.杭州:浙江人民出版社,2013.

[2]王伟玲.大数据产业的战略价值研究与思考.技术经济与管理研究[J],2015(1).

大数据技术例10

中图分类号:TP311.13

关于数据方面的新名词是层出不穷,云计算、物联网的概念还没有完全理解,大数据的概念又频频出现在媒体中,特别是今年“两会”期间,在央视报道中,多次使用大数据进行实时分析。大数据的概念从计算机业界也迅速传播到各行各业,与我们的日常生活也密切的联系在一起。不但中国如此,2012年3月,奥巴马宣布美国政府五大部门投资两亿美元启动“大数据研究与开发计划”,【1】大力推动大数据相关的收集、储存、保留、管理、分析和共享海量数据技术研究,以提高美国的科研、教育与国家安全能力,美国政府以及把“大数据”技术上升到国家安全战略的高度。其他国家也纷纷加大对大数据研究的资金投入,同时,许多大公司企业也将此技术视作创新前沿。

1 大数据概念与特征

但是,到目前为止,业界关于大数据的概念尚未有统一的定义。最早将大数据应用于IT环境的是著名的咨询公司麦肯锡,它关于大数据的定义是这样的:大数据是指无法在一定时间内用传统数据库软件工具对其内容进行采集、存储、管理和分析的数据集合。另外,被引用较多得到大家认可的还有维基百科的定义:大数据指数量巨大、类型复杂的数据集合,现有的数据库管理工具或传统的数据处理应用难以对其进行处理。这些挑战包括如捕获、收集、存储、搜索、共享、传递、分析与可视化等。【2】

当前,较为统一的认识是大数据有四个基本特征:数据规模大(Volume),数据种类多(Variety),数据要求处理速度快(Velocity),数据价值密度低(Value),即所谓的四V特性。这些特性使得大数据区别于传统的数据概念。【3】

首先,数据量庞大是大数据的最主要的特征,大数据的数据规模是以PB、EB、ZB量级为存储单位的,数据量非常庞大。同时,此类数据还在不断的加速产生,因此,传统的数据库管理技术无法在短时间内完成对数据的处理。第二,数据种类多。与传统的数据相比,大数据的数据类型种类繁多,包括了结构化数据、半结构化数据和非结构化数据等多种数据类型。传统的数据库技术采取关系型数据库较多,结构单一,而大数据重点关注的是包含大量细节信息的非结构化数据,因此传统数据库技术不能适应新的大数据的要求,传统的数据处理方式也面临着巨大的挑战。第三,大数据的产生与存储是动态的,有的处理结果时效性要求很高,这就要求对数据能够快速处理,数据处理速度快也是大数据区别数据仓库的主要因素。数据产生的速度以及快速变化形成的数据流,超越了传统的信息系统的承载能力。最后,数据价值密度低是大数据关注的非结构化数据的重要属性。大数据分析是采用原始数据的分析,保留了数据的全貌,因此一个事件的全部数据都会被保存,产生的数据量激增,而有用的信息可能非常少,因此价值密度偏低。

2 大数据可用性的面临的技术与问题

大数据并不仅仅指其数据量之大,更代表着其潜在的数据价值之大。有研究证明,有效地管理、使用大数据能够给企业提供更多增强企业生产能力和竞争能力的机会,能够给企业带来巨大的潜在商业价值。【4】但不可否认的是,大数据目前也面临很多负面影响。低质量低密度的数据也可能对决策造成致命性的错误。如何把大数据从理论研究到企业应用的转变,还面临很多问题与挑战。

(1)可用性理论体系的建立。大数据的可用性需要完整的理论做支撑,才能解决诸如如何形式化的表示数据可用性、如何评估数据可用性、数据错误自动发现和修复依据什么理论、如何管理数据和数据融合、数据安全性采取何种策略和理论等一系列问题。因此,要建立完整可用性理论体系,构建统一的模型,为大数据的进一步应用提供坚实的理论基础。

(2)高质量数据的获取的能力。大数据技术最基础的对象就是数据,是一切应用和分析决策的前提。因此,获取高质量数据是确保信息可用性的重要因素之一。随着互联网的数据不断增大,物联网的兴起以及复杂物理信息系统的应用,大数据的来源也多种多样,数据模型千差万别,质量也参差不齐,这就为加工整合数据带来非常大的困难。

大数据是对事物最原始的全貌记录,数据量规模很大,但是其中有用的信息非常少,因此,对于处理数据来说,数据并不是越多越好。如何提高数据中的有效数据是非常关键的。大量的数据中如果仅仅包含了少量的错误数据,对分析结果可能不会造成很大的影响。但是如果对错误数据没有有效控制的话,大量错误数据的涌入很可能会得到完全错误的结果。

因此,获取高质量数据的能力是大数据能否进行实用的关键因素,否则只会在浪费人力物力后获得完全无效甚至错误的结果。但是目前还缺乏系统的研究,对于出现的问题还没有很好的解决方案,在获取数据方面的工作任重而道远。