期刊在线咨询服务,发表咨询:400-888-9411 订阅咨询:400-888-1571股权代码(211862)

期刊咨询 杂志订阅 购物车(0)

数据挖掘课程设计论文模板(10篇)

时间:2023-03-20 16:25:16

数据挖掘课程设计论文

数据挖掘课程设计论文例1

中图分类号:G642.0 文献标志码:A 文章编号:1674-9324(2012)12-0218-02

一、背景

“数据仓库与数据挖掘”是国内外高等院校一门重要的课程,是国家基础教育较为重视的一门学科,受到不同专业学生的喜爱。其教学目标是提高学生的数据分析水平和能力,除了教授学生数据分析的常见方法之外,还将引导学生如何对实际的问题进行建模,如何对模型进行简化和求解。利用实例教学等方法,可以很好地将数据挖掘中的抽象概念、模型、公式等阐述清楚,让学生易于理解和接受。近年来,数据挖掘技术在医学领域中的应用越来越广泛。在疾病诊断、治疗、器官移植、基因研究、图像分析、康复、药物开发、科学研究等方面都获得了可喜的成果。运用各种数据挖掘技术了解各种疾病之间的相互关系、各种疾病的发展规律,总结各种治疗方案的治疗效果,以及对疾病的诊断、治疗和医学研究都是非常有价值的。因此,我们学院也把这门课程作为计算机专业及信息管理与信息系统专业的必修课。把计算机与医学结合,使得学生的培养方案全面包括了计算机与医学的知识点。由于该课程原本属于研究生阶段开设的专业课程,教材也大多侧重于介绍体系结构、算法原理、效率分析与改进等理论知识,其中所涉及的内容大多比较深,许多知识都超出了本科生的接受范围,此外,教材对相关理论在实际应用方面的说明也比较少,不利于安排实验教学。因此要实现“数据仓库与数据挖掘”课程的教学目标,必须在理论教学和实验教学环节综合考虑学时多少、教学条件以及学生的接受情况等因素,灵活地加以选择安排。

二、存在的问题

主要包括以下几方面:①课堂上以教师讲、学生听的教学形式为主,学生学习处于被动状态,他们的创造性因此被严重扼杀;②教师对专业课程体系和学生的知识体系不够重视,对课程体系的讲解不到位,造成学生在学习时课程之间联系不上,知识衔接不好,对知识的运用和融会贯通比较差;③实验与理论脱节。“数据仓库与数据挖掘”课程理论讲授的算法与实验软件中的算法有很大差距,使得学生难以理解。比如对于理论上讲授的关联规则算法,实验中使用SQL SERVER 2005中的商务智能工具做实验,学生发现有很多参数与理论上讲授的有很大不同;④医学院校的学生对纯粹计算机理论知识接受困难。由于该门课程是交叉学科,涉及计算机、数学、统计学等知识,如果学生的其他学科学得不好,就会对该课程的学习产生障碍;⑤教师讲授没有把理论课程结合到实际应用中。有很多学生不知道学习这门课的意义,老师没有很好引导学生,激活他们的学习热情。

三、目标驱动的教学框架

对于以上问题,本文提出了一个新的教学体系,设计了一套基于目标驱动的教学框架,把教师与学生紧密联系起来,从教学大纲的设置,教材的选择,理论教学,实验教学,课程设计及毕业论文,全面引导学生从初步了解到深入学习的过程。对于我们学校的实际情况,有两个专业的学生要学习这门课程。一个是计算机科学与技术专业,一个是信息管理与信息系统专业。对于两个不同的专业,我们设置不同的教学大纲。比如对于计算机专业的学生,数据仓库和数据挖掘教学总时数为72学时,其中理论为54学时,实验为36学时。

1.理论教学。对于信息管理与信息系统专业的学生,我们可以设置如下的教学计划,可分为三个主要部分。我们教材选择韩家炜的《数据挖掘概念与技术》,第一部分:第一至四章为数据挖掘的基础知识,包括数据仓库和数据挖掘的基本概念和相关知识介绍;第二部分:第五、六章介绍了数据挖掘的算法和工具;第三部分:第七章是数据挖掘的聚类分析的实际应用。本课程是信息管理与信息系统专业本科生专业必修课。通过该课程的学习,要求学生掌握数据仓库和数据挖掘的基本概念,了解基本方法和应用背景。掌握数据仓库的设计和建立,掌握数据挖掘的主要步骤和实现方法,数据挖掘的常用算法,实现数据挖掘的具体操作。理论学时的安排,第一章绪论(6学时);第二章数据仓库(4学时);第三章数据预处理(8学时);第四章数据挖掘发现知识的类型(8学时);第五章数据挖掘中常用算法(12学时);第六章数据挖掘的工具及其应用(8学时);第七章数据挖掘应用实例(8学时)。

2.实验教学。本课程配合理论教学,通过系统的实践教学锻炼,着重培养学生的独立分析问题和解决问题的能力,熟练掌握数据仓库的设计和建立以及各类数据挖掘方法,使学生具有一定的数据分析和挖掘能力,能在认识基础上,提出有效的数据挖掘方法,依据实际例子,写出解决方案。学生应在实验课前明确实验的目的和要求,然后针对相关问题写出解决方案。实验时对实际方案的运行结果应能进行分析并提出改进方法,最终写出实验报告。通过实验教学应达到以下基本要求:①理解数据仓库的工作机理及其构建过程;②掌握典型的数据仓库系统及其开发工具的使用;③理解数据挖掘技术的工作原理与流程;④掌握典型数据挖掘工具的使用;⑤掌握几种典型的数据挖掘算法;⑥掌握使用SQL SERVER 2000和SPSS工具解决实际问题。实验成绩包括:实验教学过程成绩、实验报告成绩,各占50%。实验过程表现成绩包括:学习态度是否认真、实验操作是否正确规范、基本技能掌握程度是否具有创新意识等方面。实验报告成绩包括:实验报告格式是否正确、原理是否论述清楚、实验结果分析讨论是否符合逻辑,报告字迹是否清楚等方面。

3.课程设计。理论课和实验课接近结束时,我们把最后三周作为本门课程的课程设计。课程设计的目的是让学生进一步深刻理解所学知识。由于本门课程很多算法不容易理解,如何让学生把所学知识结合到医学应用中是课程设计的关键。比如我们对信息管理与信息系统专业的学生课程设计,要求学生每人选择一个老师给定的题目,课程设计有详细的要求,比如题目“数据挖掘在医学诊断中的应用”要求学生能把本门课程相关的算法结合使用,最后给出详细的分析。通过课程设计,我们发现,学生对本门课程更有兴趣。

4.毕业论文。我们把课程一般开设在大三的下学期,也就是说学生学完这门课程后,就做了该门课的课程设计,使得学生对数据挖掘相关知识有了比较深刻的认识。这样,我们可以引导学生毕业论文的选择。毕业论文毕竟是反映学生大学四年所学知识,也对他们将来就业起到提前培训的作用。把理论结合实践,老师对学生的引导也十分重要。

我们根据医学院校的特征,提出了一套目标驱动的教学理念,从学生认识这门课程到学生理论课的学习,实验课的学习,课程设计及毕业论文的完成,在老师的指导下,使用我们的考核体系,可提高学生对所学课程的兴趣。

数据挖掘课程设计论文例2

中图分类号:G642 文献标识码:A 文章编号:1009-3044(2014)06-1253-03

Applied Research of Task-driven Inquiry Teaching Model in Data Mining Course

HUANG Jian

(Zhejiang Wanli University, Department of Computer Science and Information Technology, Ningbo 315100, China)

Abstract: The task-driven inquiry teaching model is a teaching activities which students as the main body, teachers as the leading. It fits the data-mining course. Not only using task lead the student to inquiry learning, but also improve teachers during the teaching process. Based on the data mining course teaching reform practice, summarizes the task-driven inquiry teaching mode in general process and the specific content of the reform. Practice has proved, this teaching mode is good for improving undergraduate courses teaching quality.

Key words: Task-driven; Inquiry; Curriculum reform

数据挖掘是一门包括了数据库系统、专家系统、机器学习、统计学、模式识别、信息检索、人工智能等学科的综合性的学科,其目标是发现隐藏在大型数据集中的知识模式。此课程一般是在研究生教育阶段开设[1],但随着社会对应用型人才的需求越来越大,这就要求我们的学生毕业后不仅要有扎实的理论基础,更要有较强的创新能力和实践能力。

我校针对信息与计算科学及统计学两个专业开设了数据挖掘课程。该专业学生拥有较强的数学理论基础,并掌握了数学建模、统计学、数据库等相关学科。数据挖掘作为一门综合性课程,是融合学生各科知识,提高该专业学生应用实践能力,培养学生团队协作能力的很好的载体课程。

1 数据挖掘课程教学特点

数据挖掘技术是一个多学科交叉的综合研究领域。不过也正因为它涉及的范围很广泛,发展的时间也不是很长,因此要真正理解数据挖掘的本质并不是一件容易的事情。我校针对信息与计算科学和统计学两个理学专业开设此课程,并将此课程归类为实践类课程。经过笔者多年对传统教学方法的研究和改革,发现了在数据挖掘教学中存在的问题:

1) 理论教学困难:数据挖掘课程内容涉及领域广泛,如统计学、数据库、机器学习、模式识别等内容,并且所涉及的算法繁多。由于本科生的知识体系不健全,理论基础相对薄弱,造成了学习难度过大。此外,由于学时限制,无法在课堂中详细地讲述算法理论,导致了学生积极性不高,很难达到教学目标。

2) 实践环节无法让学生体会数据挖掘本质:数据挖掘是从数据获取、数据整理、预处理、数据挖掘分析、结果分析等一系列流程的综合。但由于课时关系,我们课程中的实践环节往往是针对某个特定的算法,让学生利用已经预处理好的数据进行算法的应用。数据挖掘成本很高,但是这个成本往往并不是金钱,而是时间,而数据整理和预处理的时间往往占到全部工作量的80%。不经过完整的数据挖掘流程训练,学生就无法体会数据挖掘的本质。

3) 软件应用缺乏:针对海量数据分析是必须要应用到计算机技术处理。当今针对数据挖掘应用的软件很多,如SAS公司的EM模块、SPSS的Modeler、WEKA、Matlab以及各数据库系统配套的OLAP功能等。在课堂中,不可能对任何一款软件都详细的进行讲解。这就使得学生很难进行算法的应用实践。

2 任务驱动探究式教学模式

针对目前教学存在的这些问题,广西大学梁斌梅提出了目标驱动的专业课教学法,利用导入课吸引学生、利用教学目标引导学生[2]。韩秋明等人编著的《数据挖掘技术应用实例》中采用了大量的行业数据,为数据挖掘教学模式的改革提供大量的应用实例[3]。结合本校的学生特点,参考国内的一些研究成果,该文提出了基于任务驱动探究式教学模式。课程整体主线由任务驱动,学生进行探究式自主学习。

任务驱动是基于构建主义教学理论基础上的教学方法,以学生为主体,以老师为主导的一整套教学新模式。而探究式教学是与直接接受式教学相对的,在任务驱动的同时,激发学生的好奇心,并驱使学生投入到知识获取的自主学习活动中。任务驱动探究式教学模式是将两者有机的结合起来,使学生能够明确学习目标、提高学习兴趣、提升学习动力,发挥学生的自主学习能力、创造能力,培养学生分析问题、解决问题的能力。通过自主学习,自行的完成阶段性的教学任务,以达到相应的教学目标。任务驱动探究式教学模式,适合操作性和应用性强的课程。任务驱动探究式教学模式的核心思想是在教学方面强调任务驱动,在学习方面则强调探究式学习。因此必须合理地设计课程教学方案,在“教”和“学”两个方面进行设计。老师必须在任务设计、实施进程管理、信息反馈等各方面做好衔接,保证学生能够时刻跟上任务进度,并保持足够的兴趣度。

3 基于案例驱动探究式教学模式的数据挖掘课程改革

任务驱动探究式教学模式是以学生为主体,教师主导的新型教学模式。教师的作用在于教学组织和任务布置的安排调度。利用任务引导学生学习相关知识,提高学生的学习主动性。因此,如何根据课程需要合理地进行课程任务设计,安排任务进度都是课程改革成功的关键。

3.1 课程内容重新整合

数据挖掘是一个由数据收集、数据预处理、数据分析挖掘、结论分析等各个步骤组成的整体过程。在现有的数据挖掘书中,针对数据收集、数据预处理部分往往比较简化,大部分篇幅都在讲述数据挖掘算法,如分类算法、关联算法、聚类算法。如果在课程内容设计时,仅仅对算法做重点讲述而忽略前期步骤,将会造成学生内容知识的脱节,无法体会数据挖掘整个流程,从而不能真正地理解数据挖掘思想本质。因此,本课程教学目标应该是重点培养学生分析问题、解决问题和团队协作能力,树立数据挖掘思维体系,了解数据挖掘基本算法,能够应用数据挖掘软件解决实际问题并得到结果。

根据这个教学目标对课程内容进行适当调整。首先,增加绪论内容并设置导入课。在导入课中增加生活中学生感兴趣的数据挖掘故事,经典案例以及各行业中的应用,从而提高学生学习的兴趣。其次,适当增加数据获取、数据预处理以及数据挖掘软件的介绍,使得学生能够明确数据怎么来、如何处理以及用什么工具处理等问题。最后,有选择地介绍基本的数据挖掘算法,所介绍的算法应该是常见、易懂并且能够很容易使用软件实现的,如决策树算法、K均值聚类算法、Apriori算法、朴素贝叶斯算法等。而针对比较难的算法,可以仅做介绍,让学生在今后遇到此类问题能够自主的进行学习。通过内容的调整,一方面使得学生不会因为数据挖掘算法繁多且复杂而惧怕,保证学生的学习兴趣,从而很好的引导其自主学习,提高教学效果。另一方面,数据挖掘算法在不断的改进,不可能在课程中覆盖所有。通过基本算法和工具的结合,能够很好地帮助学生从算法理论转变成算法实现,从而真正的进行数据挖掘工作。即使出现了新的算法,也能够举一反三,进行软件实现。

3.2 组织方式的改变

任务驱动探究式教学模式必须以课程任务为依托。改变以往以纯理论的教学方式,加入实践和课堂讨论环节,将理论知识讲解和课程任务有机地结合到一起。考虑到数据挖掘连贯性以及工程庞大性,可以考虑以项目化的方式进行。将学生6个人左右分为一组,自主的在老师所提供的数据共享平台中寻找感兴趣的问题进行分析研究。将整个项目分解成为数据搜集、数据预处理、探索性分析、数据挖掘、结果分析等一系列的小任务,安排阶段性的任务目标,层序渐进,逐步的建立学生完成项目的信心并最终完成整个项目。

学生是项目的负责人,在接受一个短期任务后,就要自主的开始进行任务的执行。老师仅仅在课堂中进行了基本知识的讲解,学生要完成任务就必须学习更多的课外知识。项目的研究内容是自己选择的,而且完成阶段性的任务并不是那么的遥不可及,所以学生有足够的兴趣和信心去完成。通过查阅资料、学习知识、任务分配、安排和组织实施等,完成教学任务的同时也锻炼了他们团队合作意识、沟通能力、自主学习能力。这些能力的培养才能使他们在知识不断更新的当今,紧密地跟紧前沿技术并更好的去解决实际问题。

3.3 任务进度控制和评价

课程的课堂教学时间是有限的,老师不可能在课堂中既完成理论教学,又给足时间让学生进行课程任务,所以项目的实施必须是在课后进行。学生要在课外进行大量的参考资料阅读、相互讨论及数据分析的工作。那么老师作为主导者,必须及时地了解学生阶段性任务的完成情况,对当前学生遇到的困难及时给出建议和意见,甚至在学生遇到真正的难题给予技术上的支持。所以本课程在理论课教学的同时,也开展了定期的讨论课,让学生定期汇报阶段性任务的完成情况,及时进行任务进度的控制。整个项目的实施流程和任务分解如图1。根据流程安排,理论引导学生任务的进行。通过学生任务的完成情况,老师在完成基本理论教学的同时,有针对性的对学生所遇到的问题进行讲解,最终目标是引导学生完成整个教学项目。一方面,学生自主学习能力提高,有足够的兴趣和能力去完成每个阶段的任务,并且会更加认真的在理论课中寻找自己想得到的知识。另一方面,由于学生自主寻找的项目多样性,选择的算法不可控性,同样促使老师不断的提高自身,教学内容不再一成不变,而是随时的更新。

图1 任务进度安排流程图

良好的进度控制需要一个完善的评价体系做辅助。只有做好每个阶段性的评价,引入一定的竞争机制,才能提高学生积极性和自信心。首先,必须做到极端性任务的目标和时间明确化。要完成什么,在什么时候完成,都必须事先和学生约定。对没有按时完成任务的组,必须做出相应的惩罚,如扣除本阶段的得分。除此之外必须分析原因,搞清为什么无法完成任务,有针对性地提出建议和意见,以便学生能够及时调整。其次,评价标准既要唯一又要区别对待。唯一标准指的是一样的进度,一样的任务,一样的要求。但是数据挖掘项目会根据研究领域不同、使用算法不同、数据质量不同而造成难度差异,一味的同等标准要求会造成选择难度较高项目的学生积极性下降。所以老师必须客观的分析每个项目难度,并区别对待。对于由客观难度造成任务进程落后的组,应当在解决问题后给予奖励。并且,在最终论文评定时,适当的加入一定的难度分,以鼓励学生培养自我挑战的精神。通过教师评价、组长评价、组间评价等评价方式,客观的合理的对整个项目实施作出最终的评价结果。

4 结束语

通过案例驱动探究式教学模式的改革,数据挖掘课程在教学效果上得到了实质性的提高。人才培养上卓有成效,老师也在教学过程中受益良多。通过教学模式的改革,使得原本枯燥、难懂的理论教学变得生动。学生的求知欲望得到了激发,课程的学习目标更加的明确,教学质量也有很大的提高。同时我们发现,学生的自主学习能力、汇报能力、论文撰写能力都有了明显的提高,并且有很多教学项目被用于毕业论文的研究。数据挖掘课程也因此被选为宁波市级的智慧产业核心引导课程。

参考文献:

数据挖掘课程设计论文例3

【中图分类号】G642 【文献标识码】A 【文章编号】1674-4810(2015)33-0063-02

我们生活在一个信息爆炸的时代,更具体地说我们生活在一个数据爆炸的时代。每天,来自商业、社会、科学、互联网、移动设备等各个领域的数据以爆炸的方式增长着。巨大的数据中蕴藏着重要的信息和知识,因此我们需要强大和通用的工具,从海量的数据中发现这些有价值的信息,把数据转化为知识,因此导致了数据挖掘的诞生。“数据挖掘是从大量数据中挖掘有趣模式和知识的过程。数据源包括数据库、数据仓库、Web、其他信息存储库或动态地流入系统的数据。”

随着越来越多的企事业单位认识到数据挖掘的重要性,对数据挖掘人才的需要近两年也呈现快速增长的态势,大数据分析师更是被媒体称为“未来最具发展潜力的职业之一”。因此很多高校开设了数据挖掘课程。通过本课程的学习,使学生了解数据挖掘技术的整体概貌,了解数据挖掘技术的主要应用及当前的研究热点问题,了解数据挖掘技术的发展方向,掌握最基本的概念、算法原理和技术方法,培养学生应用数据挖掘解决实际问题的能力。本文分析了在本科阶段开设数据挖掘课程的特点,阐述了教学内容和教学方法,对数据挖掘课程教学进行了新的思考和探索

一 数据挖掘课程特点

1.大数据背景

“大数据”成为近年来比较热门的词语,同时也反映数据的爆炸式增长给我们带来的机遇和挑战。大数据在维基百科上的解释是:大数据是由数量巨大、结构复杂、类型众多数据构成的数据集合,是基于云计算的数据处理与应用模式,通过数据的整合共享,交叉复用形成的智力资源和知识服务能力。大数据的四个特征是:数据量浩大;模态繁多、异构;生成快速;价值巨大。“大数据”分析的需求导致了数据挖掘的产生,也同时给数据挖掘带来了巨大的发展前景。

2.学科发展快,内容丰富

数据挖掘出现于20世纪80年代后期,90年代之后开始突飞猛进的发展,新的和改进的算法不断出现,所考察的数据类型日趋丰富,应用领域逐渐扩大。比如数据类型,有流、序列、图、时间序列、生物序列、空间、音频、图像和视频数据等。数据挖掘的模型和算法丰富,比如关联规则的挖掘有Apriori算法,分类规则的挖掘有决策树、神经元网络、朴素贝叶斯、支持向量机等,聚类规则挖掘,时间序列挖掘等。

3.学科交叉,难度大

数据挖掘课程作为一门多学科交叉的专业课程,涉及的学科较多。如统计学,多元统计学,时间序列,统计推断等;机器学习中的监督学习、无监督学习、半监督学习、主动学习等;数据库系统和数据仓库、计算机软件编程和开发、Web搜索引擎。众多的学科交叉增加了课程的教学难度,因此需要合理地规划课程内容和重点,循序渐进地展开教学内容。

二 教学探索

1.课程内容体系

数据挖掘是一门多学科交叉的前沿学科,它结合了数据库技术、统计学、机器学习、知识系统、信息检索、高性能计算和可视化等多问学科的知识。然而在目前的大学课程体系中,很难在有限的时间内开设这些课程。

――――――――――――――――――――――――

* 韩山师范学院2014年校级优质网络课程――数学模型资助项目,通讯作者:李承耕

特别是对于数学与统计学院的学生,数学基础理论比较好,但是在数据库技术、计算机软件算法和编程方面比较薄弱,大部分的同学没有编程经验和数据处理分析能力。针对这些问题,我们数据挖掘课程的授课对象为大三或大四应用型专业的学生,并在前期课程中开设数学分析、高等代数、概率与统计、多元统计学等数学类课程,同时开设c语言、java语言、数值分析、数据库原理等计算机课程,这些课程的开设为数据挖掘授课打下了必要的理论基础。

数据挖掘的内容丰富,包含的知识点很多,我们构建了课程的核心知识结构。核心知识为三部分:(1)数据预处理,主要任务包括数据清洗,数据集成,数据变换和数据规约;(2)数据仓库,主要包括数据仓库的基本概念,数据立方体,数据立方体的设计与实现;(3)数据挖掘,主要包括数据挖掘的基本流程,数据挖掘的主要算法,数据挖掘的常用工具及数据挖掘的应用实例。考虑到数学与统计学院学生的特点和教学课时的限制,教学重点为数据预处理、数据仓库的基本概念、数据挖掘的主要模型三个方面,特别是数据挖掘的模型是重点讲授的内容。由于数据挖掘的模型和算法非常多,我们采用首先讲解数据挖掘的基本流程,然后重点讲解数据挖掘中关联分析、分类、聚类三个方面的模型。

我们采用理论讲解、实验操作、模型应用三个步骤来讲解每个模型。理论讲解使学生掌握数据挖掘模型的基本理论和算法流程。在实验操作阶段,学生要亲手实现模型的基本算法,我们使用的编程语言是python,通过算法的实现,巩固和加深学生对模型的理解。模型应用步骤要求学生综合应用所学的数据挖掘模型知识,选择一个应用领域,应用自己学习的算法解决这个实际问题,并按照数据挖掘的流程完成实验报告。实验报告要求按照数据说明、数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估、知识表示等几个部分完成,使学生掌握数据挖掘的全过程,充分认识数据挖掘各个阶段要完成的工作。通过这三个阶段的学习和实践,学生基本掌握了数据挖掘的算法并具备了基本的模型应用能力。

2.以应用为背景,用案例教学方式组织教学

案例教学法是教师以具有鲜明代表性的案例为学生创设问题情境,引导学生通过对案例进行分析讨论,在情境中掌握理论知识并总结规律,创造性地将知识与实践相结合,找到更多的实际生活范例或提出解决实际问题的思路与方法。数据挖掘本身就是一门应用性很强的学科,课程内容非常适合进行案例教学。

数据挖掘课程主要针对数学与统计学院应用型本科专业开设,考虑到学生就业和当前市场需求,以及课程本身实践性强的特点,在教学过程中注重理论结合实践,培养学生解决实际问题的能力。因此,在向学生介绍目前常用的数据挖掘基本模型的基础上,结合市场需求,以实例为切入点,采用案例教学的方式组织教学。案例的来源丰富,有医疗、商业、航空、环保等众多领域,案例全部来自于真实的数据挖掘项目,每个案例有背景与挖掘目标、数据预处理、构建模型、模型评价、上机实验几个部分组成。通过讲解真实案例,让学生了解数据挖掘的算法在实际中是如何应用的,培养学生应用数据挖掘的思想,使学生对数据挖掘有了感性认识,激发其学习兴趣。具体采用的案例如下表所示。

三 结束语

数据挖掘是一门多学科交叉的应用型学科,在数学与统计学院开设数据挖掘课程有现实意义,同时对教师和学生也是一个挑战。因此通过将理论教学和实践相结合,使用案例教学的方式组织教学,激发学生的学习兴趣,提高课堂教学效率,增强学生实践能力,培养学生应用数据挖掘的基本方法解决实际问题的能力。同时,数据挖掘也是一个快速发展的学科,因此也要不断更新教学案例,不断学习和总结,使教学更加完善合理。

参考文献

[1]〔美〕Jiawei Han、Micheline Kamber、Jian Pei等.数据挖掘概念与技术(第3版)(范明、孟小峰译)[M].北京:机械工业出版社,2012

[2]张良均等.MATLAB数据分析与挖掘实战[M].北京:机械工业出版,2015

[3]谭磊.New Internet:大数据挖掘[M].北京:电子工业出版社,2013

数据挖掘课程设计论文例4

中图分类号:G642 文献标志码:B 文章编号:1674-9324(2013)09-0253-03

一、引言

21世纪是国家全面推进学生素质培养的时期,计算机专业课既具有较强的理论性,又具有较深的实践性。目前,计算机专业的教学过程中往往理论教育与实际脱节,很多学生通过了专业理论课的考试,却不能将理论付诸于实践,学生对课程知识并没有深刻的理解和消化,对课程理论的实际应用没有感观上的体验。经调查显示,60%以上的学生认为在校期间的计算机理论课的学习对就业和实际工作帮助不大,这给学生学习计算机理论的积极性带来了消极的影响,更有很多学生热衷于参加社会上的计算机培训机构,放弃在高校的课程学习。因此,在培养学生的理论创新能力的同时,提高学生的动手操作能力,加强学生理论联系实际的能力是计算机教学十分紧迫和必要的任务。

随着信息技术和网络技术的快速发展,在短短几年内数据仓库和数据挖掘就已经成为IT信息领域广泛应用和热点研究的领域。该领域主要是研究如何从浩如烟海的海量数据中有效地提取并挖掘知识,对其进行自动分析和汇总,是计算机行业中最热门、最有前景的领域之一[1]。数据仓库与数据挖掘课程也顺应计算机发展的需要,进入到高校计算机教育的专业课课程列表中。

本论文在深入研究了数据仓库和数据挖掘课程的内容和特点的基础上,采用B/S(Browser/Server)架构,即浏览器/服务器架构,开发了web课程教学实验平台。

二、数据仓库与数据挖掘学科教学现状

随着数据仓库与数据挖掘课程在各大高校成功试教后,近年来各大高校都为计算机专业都设立了数据仓库和数据挖掘课程,时至今日,其课堂理论教学已经比较成熟。然而,绝大多数学生在经过该课程的学习后,普遍反映虽然基本了解了数据仓库和数据挖掘相关理论知识,却缺乏感性认识和实践应用能力。这主要是因为该课程的实验教学较难开展,缺乏一个符合以下特点的教学实验平台。

市场中通用数据仓库和数据挖掘软件昂贵且难以使用,大量的专业术语、专业业务理论、数学知识和挖掘模型让人无从下手。因此我们需要的仅仅是一个实验平台,并非大型企业应用软件,只要学生能通过它更简易地完成该课程的实验环节即可。

1.可视化、易操作。可视化和易操作可以提高学生的学习兴趣,让学生更直观的参与到教学活动中来,而不是苦恼于如何使用该平成实验。

2.交互性。一个好的教学平台不仅是一个可以提供给学生传授知识的平台,还应该是一个可以和学生及老师有交互性的平台,并且使学生和学生有交互性,老师和学生有交互性[2]。

3.教学与实验相结合。我们需要不仅仅是一个数据仓库与数据挖掘实验软件,而是综合课程教学和课程实验的平台。教学与实验相结合、理论与实践并重,这才是计算机专业教育的核心。

4.拥有合理和充足的实验数据。对于一个实验平台来说,数据的缺乏将使得实验无法进行。尤其是对于数据仓库与数据挖掘这个特殊的领域,数据不仅要足够的多而且要合理,否则会严重影响实验结果和教学效果。

三、数据仓库与数据挖掘学科教学实验平台的构建

为适应教育发展需要,秉承深化教学改革的方针,改革数据仓库和数据挖掘课程原有的普通教学模式,启动了“数据挖掘课程设计平台建设”教学改革项目。该平台依托我校电信学院985平台的优良硬件环境,由远程开放实验平台服务器和终端PC机组成,其成本低廉、维护方便、部署容易。该实验平台服务器直接部署于本校的学院985实验基地,具有操作稳定性、鲁棒性和容错性。通过该实验教学平台,学生对该课程的学习过程将不受场地限制,只要通过网络就可以登录该平台。该平台主要框架如图1所示。

1.用户管理模块实现了对不同用户的权限设置、登录和注册等功能,超级管理员可以为普通学生用户分配权限。

2.实验平台模块给学生提供了算法模拟和试验的平台,主要分为以下两个部分。

(1)数据仓库的维度建模设计模块。雪花模型设计案例;星型模型设计案例;ETL抽取操作平台。

(2)数据挖掘算法实验模块。数据预处理程序实现算法平台;Apriori算法实验平台;ID3算法实验平台;BP算法实验平台;K-Mean和K-Medoid算法实验平台;C4.5算法和决策树算法实验平台;KNN算法实验平台;贝叶斯算法实验平台。

维度建模设计平台和数据挖掘算法实验平台模块是该平台的核心模块。

3.实验课程模块主要向学生介绍该实验课程的相关内容、教学大纲和教学任务,也包含数据仓库环境的具体安装和配置视频演示。

4.作业提交模块更是改变了传统的提交纸质作业的模式,让学生将动手完成的实验和相关作业通过该平台提交,一个学生一个账户,避免了作业抄袭和拷贝。学生提交的作业只要运行正确,按题目要求编程,不论采用何种语言或者何种算法都是可以的,并没有唯一性的标准答案。当实验课程考核的时候,学生能够通过作业提交系统向服务器提交指定课程内容的作业,供教师在线评阅和打分。

5.教学资源下载提供给学生自学的资料,给感兴趣的学生提供了进一步学习的捷径。

6.当有学生对实验环节和该课程有任何疑问,都可以登录在线答疑系统,给授课老师留言,这些信息都会以邮件的形式发送到授课老师的收件箱,从而实现即时的答复,让学生在第一时间接受老师的指导。当有问题重复出现三次以上,系统就会自动识别,将问题和答复展示在FAQ中,提供给更多的学生共享该问题和该问题的解答,避免重复提问,也给还未遇到该问题的学生共享和学习。在线答疑给学生和教师提供了交互、交流和学习的平台。

7.数据挖掘实验平台的在线代码编译环境主要采用gcc编译器,能够对学生提交的各种代码进行实时编译,给用户的感觉就像是在本地执行一样。它能够支持的在线运行编程语言包括java、C和C++等,给学生提供多样化的语言实现方式,体现了非机械化的计算机应试理念。

四、数据仓库与数据挖掘学科教学实验平台的教学效果

在数据仓库和数据挖掘课程中使用该教学实验平台,具有教育的先进性和优越性。

(一)建设了数据仓库和数据挖掘课程的实验教学体系

1.数据仓库和数据挖掘模型。本平台可以培养学生自己动手创建多维星型模型、多维雪花模型、缓慢变化维、ETL模型、数据立方体模型及其实例等,还可以增加学生对各类重要挖掘算法的特点和应用场景的理解,让学生在实验平台上体验基于数据仓库的主要数据挖掘算法。

2.模型评估。当学生创建完毕自己的数据仓库和数据挖掘模型后,可以通过调整不同的参数值和更改数据集来检验算法的输出结果,并通过记录在不同的应用场景下的参数值和结果值得到最优值。

3.优化创建模型和算法的性能。学生通过使用计算机领域中的一些经典优化技术,如创建位图索引、哈希索引、S-tree索引等来优化模型和算法的性能,并记录和比较不同优化技术对模型和算法的效率和响应时间的影响。

4.定期对学生所学实验内容进行测试,根据学生的实验测试结果对平台的远程实验操作功能进行改进和完善。

(二)部署和实施了基于网络的数据仓库和数据挖掘课程远程实验教学环境

本项目通过构建基于网络技术的远程实验教学平台,不仅给学生和教师提供这样一个教学实验平台,而且还实现了实验教学的网上开放式管理,改革原有相对封闭的实验教学模式为开放的实验教学模式,构建了一个符合实践教学环节需求、虚拟和真实环境相结合、基于Web的多应用场景的远程开放实验平台。

(三)基于采样评估证明了远程网络实验教学的可行性和优越性

根据采样评估结果,该系统体现了远程网络实验的可行性和优越性。在该平台真正投入使用之前,我们将一批学生分为两个组进行数据仓库和数据挖掘课程的学习,A组学生使用现有的课程教学方法,而B组学生使用该平台的远程实验教学环境。具体教学内容为多维数据模型和数据立方体的概念以及k-means聚类和Apriori关联分析算法。两组学生通过不同的教学方式学习后,对他们进行了问卷调查和统计,结果如图2所示。

从图2的数据结果可以看到,无论是从学生兴趣程度、作业完成度还是考试成绩的角度对两组学生的学习效果进行评估,使用该数据仓库与数据挖掘课程教学实验平台的教学方式都具有明显的优势。在实验过程中学生是主体,用所学知识发挥创造性思维进行实践。当实验取得结果时,不论结果成功与否,都能带给学生一定的鼓励,从而在某种程度上激发学生的创造力和积极性,真正加速问题解决和理论创新。因此,我们有理由相信该平台的使用可以极大地提高学生的学习兴趣,促进教学目标的实现。

五、结论

在计算机专业的教学中,如何提高学生的实践能力和独立解决问题的能力是当前高等教育发展的新形势下所面临的主要问题。本文首先介绍了基于数据仓库和数据挖掘课程的实验平台的整体架构,展示了该平台的优点,证明了该平台可以将课堂学习和课后练习、理论教育与工程实践有机结合,为实施更加行之有效的教学组织和教学管理模式提供了可能。只有教育者和学生充分认识到计算机课程中实验环节的重要性,更有效地利用现有的社会资源和计算机技术为我们的教育服务,专业学科教学模式和方法才能不断推陈出新,不断进步和发展。

参考文献:

[1]Jiawei Han,Micheline Kamber.Data Mining Concept and Technology[M].Beijing:China Machine Press,2007:10-12

数据挖掘课程设计论文例5

课堂教学是一个具有一定周期性的过程,作为授业者的教师,通过不断的教学实践,对教学设计不断地进行优化、更新、管理及评价的过程。本文探讨通过数据挖掘技术建立一个可以对课堂交互中的信息进行有效整理、合理分析的信息处理模型,从而有效促进教学设计的不断更新。

一、课堂互动中信息的特点

在课堂教学中的信息交互是通过师生人际交流、教学过程等实现的,这决定了这些信息具有以下基本特点:

1.信息采集工作量大

在课堂互动中由于交流过程中所表达的信息类型较多,包括教师的讲授、提问、指示等方面的信息、教师接受学生的意见信息、教师给予学生的鼓励表扬、对学生的建议批评、学生答问信息、学生之间的讨论、思考问题等信息,还有一些是课堂上与正常教学行为不相关的其他信息、课堂外有学生的作业、教师的批改以及自身学习与发展方面信息等。对这些信息数据的采集、处理工作量比较大。

2.可量化性低

课堂内外互动中的信息绝大多数是由言语、肢体语言来交互的,其中一些类似如学生对教学内容与方式的反应、学习中的兴趣爱好、教师与学生互动中交流信息等不容易进行定性量化,导致处理起来比较困难。

3.信息的包容性大

在教学互动过程中的各类信息,如教师的教学方式、教学风格、教学内容的组织、师生的个人思维动态等都包含了各种各类的信息综合体,非常难以从这些信息的表面就判断信息的类属。同时这些信息有些还属于生物信息范畴,难以分析。

4.信息的不确定性

在课堂互动教学过程中对学生当前学习状态、知识的掌握程度的判断是基于教师的个人理解,具有不确定性,是具有一定的误差的。而在教学过程中对提问中学生的反应,判定学生的回答正确与否,都具有教师的主观性。

正是由于课堂互动中的信息具有以上特征,从而使得数据信息采集工作量大,定性量化比较困难。所以很久以来从事教育信息整合的研究者常喜欢于用质的定性研究来评价,随着当前数据处理科学的进步,如何更客观地对课堂中的交互信息进行定性、量化、处理变得尤为重要。通过对潜在信息数据中有价值的内容的提炼、整合、处理,可以及时从里面发现有用的数据信息,从大量互动数据中找到教育规律,用以教师对教学的改进。归根结底,我们对课堂互动中信息的数据挖掘,是为了处理过后的信息反馈与我们的教学,从而更加有效地改进我们教学系统的设计、评价等系统。

二、数据挖掘及其技术

数据挖掘(DataMining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,其目标是支持利用数据进行合理的决策。

根据信息存储格式的不同,用于挖掘的对象有关系数据库、面向对象数据库、数据仓库、文本数据源、多媒体数据库、空间数据库、时态数据库、异质数据库以及Internet等。其任务主要是关联分析、聚类分析、分类、预测、时序模式分析等。

数据挖掘的流程包括以下过程,这些过程不是一次完成的,其中某些步骤或者全过程可能要反复进行:(1)问题的定义;(2)数据准备;(3)数据挖掘;(4)结果分析;(5)知识表示。

三、交互课堂中数据挖掘技术的应用

在交互课堂的设计中我们可以根据课堂互动信息的相关特点,通过整合数据挖掘应用的数据处理优势,从包含海量信息的师生行动和语言互动中发掘并定性出有用的信息。然后通过对这些信息的统计等处理,让隐藏在自然语言下的信息变成电子信息数据,通过教师对数据挖掘规则的参与,有效利用这些信息,从而产生可以指导我们教学实践的数据挖掘结果。下面我们深入探讨一下课堂交互中的数据挖掘应用。

1.课堂互动中数据挖掘的主要任务

利用数据挖掘技术可从以下三个方面对零碎的、不容易识别的课堂互动信息进行挖掘。

(1)对教师教学信息的挖掘。①对教师教学风格、特点的信息挖掘:包括对教师语言特点、提问的比率、提问的开放性程度、与学生的互动能力等主观性因素进行量化,可视化。②对教学信息中可重复部分的挖掘:利用分类、统计、甄别等工具把一些共性的信息提炼出来,拆分教学内容,概括出课堂交互中所传递信息的共性点,分析交互的信息量,进行定性。还可以根据特定的课程进行分析。③教学设计、教学科目设置结构等信息:通过对不同的科目的教学设计的分析,可以了解科目类别之间的关系。通过数据挖掘后直观地分析表和图,系统可为教师提供教学设计对比,促进教学过程的改进。④教师对新技术应用的发现:随着社会的发展和进步,各种各样的信息技术手段在课堂交互中被利用,这些手段为改进课堂互动的效率提供了有效的环境。利用数据挖掘技术,对教师对新技术手段的应用效果及比例进行观察,对新技术手段对课堂交互的促进效果进行评估。⑤师生交互的模式:师生交互的模式有多种多样,数据挖掘利用课程、科目、交互的模式、交互的效果等等进行分析,找出各种因素之间的关联,为教师提供基于实际应用的合理模式推荐。⑥课堂互动过程变动信息:利用定性量化的课堂交互数据,通过数据挖掘得出所需评估科目在交互过程中的变化,以提高教师对交互课堂的教学进程的把握程度。

(2)学生相关信息的挖掘。可以从以下几个方面对学生的课堂反应和表现进行数据挖掘:①课堂参与的投入程度:首先观察学生的参与比例,其次定性参与学生的投入程度。可以对不同的参与程度定性为全部、大多数、少数等,对参与投入的定性可以为:积极、一般。②交互的状态:首先看交互中是不是有多方参与的信息互动,其次看互动中交互是否友善、是否合作良好。③思维反馈的状态:通过学生的反馈及主动性的互动,来看课堂交互的思维反馈状态是否良好。④情绪表现:首先看学生互动中是否有情感上的投入,比如紧张与愉快;其次看学生是否能根据课堂交互的进行及时转变状态,比如前一段谈论气氛热烈,转入后一段的静静聆听。⑤课程状态:首先看学生能否在课程进行中,感到有收获感;其次看学生对后续的课程交互是否抱有期待。

日常的教学实践证明,课堂交互中的学生投入与否,对交互的教学效果有着决定性的影响。假设学生的课堂交互状态不够,那么要找原因的话,就要从教师的教学设计或课堂气氛营造上来找。我们利用学生信息的数据挖掘技术,分析学生在交互的过程中的状态,形成直观的信息材料,为教师课堂教学的组织的改进提供支撑,同时也可以为教师教学效果评价提供依据。

(3)教师、学生课堂交互信息的挖掘。“师生交互”是教学设计实施中的关键环节,交互意味着师生有语言上的交流及行为上的互动。在课堂教学交互过程中一般互动是在授课者与听课者、课程设计与教学实际之间进行的。师生间的交互信息主要表现在师生的互动交流、教师为学生直接提供的课程内容、课程内容的问答和学生错误的反馈等。通过使用数据挖掘技术,深入挖掘教学中的交互信息,让老师改进自己的教学设计及课堂行为,提高实际教学效果,实现师生之间进行有效的互动。

2.挖掘课堂中互动信息的流程

建立课堂互动信息处理的数据挖掘系统现场记录或通过WEB在线应用收集交互信息信息的标准化和信息化处理课堂互动信息分类编码数据信息进行转换、处理数据挖掘挖掘结果分析反馈教学过程。

3.课堂互动信息数据挖掘方法

在数据挖掘方法的选择上,我们主要采用数据挖掘中应用广泛的统计学、关联分析等方法,同时通过数据库软件的数据技术对信息进行处理。在挖掘课堂互动信息的时候,我们需要对时序数据库和序列数据库进行数据挖掘,时序数据库中的数据是一些反映随时间变化的序列值或事件组成的数据库,这些值是等时间间隔采集的数据。利用统计类挖掘工具和数据库技术可以在时序数据和序列数据的挖掘中实现对课堂教育信息的趋势分析、相似性搜索、与时间有关数据的序列模式挖掘和周期性模式的挖掘。

4.基于课堂交互的数据挖掘系统设计

根据数据挖掘模型及课堂互动信息的特点,基于课堂交互的数据挖掘系统可由如下四个部分组成。

(1)数据采集模块:模块采集的信息主要包括课堂教学中教师、学生的各种行为、语言,师生间互动等信息。

(2)数据处理模块:解决语义模糊性,数据库按照元数据标准对数据进行清理、集成和变换,检查数据的完整性和一致性。

(3)数据分析模块:通过分析经过转换的数据,根据数据挖掘的基本策略,对数据进行分析处理,得出结果并输出。如,利用统计类数据挖掘工具对反映一般变化方向的教学趋势变化进行分析,采用加权平均或最小乘2法对时序图上的数据进行处理,以确定数据变化趋势,为后续的教学决策与评价提供依据。

数据挖掘课程设计论文例6

二、根据信息管理专业本科生培养要求确定课程目标

数据挖掘课程是一门综合性很强的前沿学科,对计算机软硬件、数据库、人工智能技术、统计学算法、优化算法等基础知识都有较高的要求。因此该门课程开设在学生大三下学期,既有相关知识的基础,又为大四做毕业设计提供了一种思路。信息管理专业是计算机与管理相结合的专业,旨在培养具备信息系统开发能力与信息资源分析与处理能力的综合应用型人才。对信息管理专业的学生而言,本课程主要的目标是数据挖掘算法原理理解、数据挖掘算法在商务管理问题中的应用以及常用数据仓库与数据挖掘软件的熟练应用和二次开发。

三、基于模块化方法的课程内容分析

模块化教学模式是按照程序模块化的构想和原则来设计教学内容的一整套教学体系,它是在既定的培养目标指导下,将全部教学内容按照一定标准或规则进行分解,使其成为多个相对独立的教学模块,且各教学模块之间可以按照一定的规则有选择性的重新组合。学生可以根据个人兴趣和职业取向在不同模块之间进行选择和搭配,从而实现不同的教学目标和人才培养要求。模块化教学本质上是以知识点与实践的细化为出发点研究的。商务智能方法本身非常丰富,实践应用也是课程的主要特点之一,因此十分适合使用模块化的知识分解方式。本课程的知识点模块管理分为两个层次,一是从宏观角度设计课程的基础内容模块和高级主题模块;二是从微观角度针对较为复杂的教学内容进行的知识点划分。

1.课程主要内容模块化分析。目前该课程包括十章理论内容,分别为数据仓库与数据挖掘的基本知识、数据仓库的OLAP技术、数据预处理、数据挖掘系统的结构、概念描述:特征化与比较、挖掘大型数据库中的关联规则、分类与预测、聚类分析、复杂类型数据挖掘和序列模式挖掘。根据模块化管理的宏观角度分类,课程内容的第一至五章属于基础理论部分和简单数据挖掘技术的介绍,可以作为基础内容模块;第六至八章为数据挖掘的核心算法,其中既有基础理论与技术方法,又可深入到较难的方法和复杂的应用,因此介于基础内容与高级主题之间;第九、十章可以算做课程的高级主题模块;另外,课程的实践模块既包含数据仓库的建设又包含数据挖掘算法的应用,难度也介于基础内容与高级主题之间。

2.复杂知识点的模块化管理。从微观角度对知识点进行设计主要针对的是上述的高级主题、以及难度介于基础内容与高级主题之间的章节,由于这些章节知识点在难度上有一定层次,讲授内容弹性比较大,因此需要在课程设计中明确一定课时量所要达到的难度。以商务智能技术中的分类算法为例:首先一般的入门课程都会介绍分类算法的概念和基本原理;接着开始介绍分类算法的基础算法———决策树,而决策树算法中又包含ID3等多种算法,并且除了决策树外,还有其他更高级的分类算法;在真正使用分类法进行预测时,还要分析预测准确度;最终要将所学知识加以应用。这样就形成了一个结构清晰、难度循序渐进的知识点模块的层次关系。在宏观角度、微观角度对教学内容进行分类的前提下进行相应的授课方法与考查方法的研究,才能真正有助于学生的学习。

四、授课与考核方法设计

对不同层次学生要求不同,这种不同既体现在知识点的要求上,又直接体现在任务的难易性程度上,这都需要教师在课程设计时充分考虑不同要求情况下的不同的授课方式,并使学生清楚自己需要掌握的程度。对于高级算法和实现部分,通常可以选择一到两章内容采用专题探讨式的教学方法。这种方法是指在教师启发和引导下,以学生为主体,选择某个基本教学单元为专题,学生自主研究作为知识传递的基本形式,将多种灵活的教学方式综合运用到教学环节的教学方法。根据信管专业培养方案的培养目标、以及对学生调研的情况,实践环节比较适合选择成熟的商务智能工具进行数据的整合和多维数据建模,也就是直接使用现成的;或者使用数据挖掘软件进行数据建模,完善数据挖掘算法。可以针对学生管理基础课与IT基础课知识的掌握情况,选择合适的工具为学生设计综合性实验。实验中给出部分操作步骤,并在实验后期仅给出数据与工具,让学生自己设计数据仓库、进行数据挖掘、并对挖掘结果进行多种形式的展示。

数据挖掘课程设计论文例7

中图分类号:G642 文献标识码:A DOI:10.16400/ki.kjdkz.2016.05.012

Abstract This thesis mainly studies on the application of data mining technology in teaching. As the number of students abroad in China grows, we need to find a better way to make Chinese teaching management more efficiency. It combines the technology of data warehouse and data mining with educational management system to rationally utilize the mass data accumulated in the work of teaching and management. Then, in order to acquire the potential decision-support knowledge to guide the work of teaching and enable teaching management to operate with a definite object and thus further improve the quality of teaching, this paper makes research from the following areas. Firstly, it applies the technique of data mining to analyzing the effect and gain and loss in the teaching reasonably, then, it studies a variety of factors which influence the well development of students from multi-angle. Finally, with regard to the primary and secondary factors affecting students' performance, it carries out deep analysis.

Key words data mining; association rules; teaching management; teaching plan

0 引言

近几年来华留学生教育进入快速发展时期,我国已经成为国际学生流动的重要目的地国家之一。随着我校留学生规模的不断扩大,如何更有效地对来华留学生进行教学管理已成为一个重要的研究课题。而运用数据挖掘技术,从大量的留学生相关数据中挖掘出一些有价值的信息,将更有利于构建切合我校留学生实际的培养体系,更好地保证培养质量。

一方面,从招生角度上来讲。目前我校留学生的生源渠道主要分为三类:第一类是由中国国家留学基金委直接分配至我校学习的获中国政府奖学金的学生。第二类是学生自己通过网上申请,我校根据学生提供的材料进行审核录取。第三类是由国外大学或中介机构根据协议推荐来我校学习的学生。由于外国留学生来自不同的国家,之前在各自不同的教育体系中接受高中教育,文化课背景差异很大,这就导致生源的质量参差不齐。运用数据挖掘技术可以找到其中有价值的信息,如哪个国家的教育水平相对较高,来自哪个国家的学生平均申请成绩较好,使用何种母语更容易融入中国高校教学等。这为招生工作提供了参考,从招生源头提高留学生质量。

另一方面,从教学管理角度来讲。目前,我校留学生数据库中存放着历届学生的各科考试成绩,海量的数据只是单纯地记载了数据信息,对学生信息、成绩等数据的处理一般还停留在简单的数据备份和查询阶段,如传统数据库技术可以查询最高分最低分和平均分等表层信息,但却无法发现隐藏数据之间的规律或者说有指导意义的知识。大量有价值的信息被淹没在海量数据中。事实上不论是课程与课程之间,还是课程的设置之间,与学生成绩都存在着千丝万缕的联系,现阶段已有的数据并没有发挥其真正的价值,而运用数据挖掘技术则可能更好地发现隐藏在数据背后的丰富信息。通过对学生成绩数据库中所包含的各种类型数据进行相应的处理,如:抽取、转换、分析和模型化处理,从中寻找影响学生学习成绩的众多因素,以及这些因素所涉及到的相关问题。应用数据挖掘技术分析学生的成绩水平,使学生深入了解其在学生整体中的相对位置,由此来调整个人学习计划。同时,帮助教师和学校决策者洞悉教学过程中存在的问题,进而反思教学质量。还可以根据关联规则挖掘得到的一系列有价值的规则,分析检查课程体系的合理性,比如:相关课程之间的衔接与先后顺序是否恰当等,根据分析结果最大限度地优化培养计划和决策。此外,利用数据挖掘技术还可以发现数据中存在的潜在关系与规则,比如:根据学生的出勤次数和作业的上交情况预测学生成绩发展趋势等。为教师的教学环节提供建设性的意见和建议,为学生管理工作提供有价值的决策支持,从而帮助学校做出实时适时的决策调整,使得学生管理工作有的放矢。

1 数据仓库与数据挖掘

1.1 数据仓库

传统数据库在联机事务处理(OLTP)中获得了较大的成功,而传统数据库中只保留当前的管理信息,缺乏决策分析所需要的大量历史信息,故不能满足管理人员的决策分析要求。为了解决这一问题,进行相关决策分析,数据仓库应运而生。简而言之,数据仓库就是能够满足决策分析所需要的数据环境。数据仓库的概念,由“数据仓库之父”W.H.Inmom博士提出:数据仓库是一个面向主题的,集成的、与时间有关的,非易失的数据集合,为管理部门提供决策支持。它实际上是一个特殊的数据库,这种系统称为OLAP系统。本文中我们就利用留学生成绩数据库中的各种类型的数据建立相应的数据仓库,为数据挖掘提供数据平台。

1.2 数据挖掘

近年来随着信息技术的迅猛发展,人们所拥有的数据信息急剧增大。如何从大量随机的数据中挖掘出一些有价值的信息,成为一个重要的研究课题,由此带动了数据挖掘技术的产生和飞速发展。数据挖掘就是从大量的,不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的,但又有潜在的有用信息和知识的过程,是数据库中的知识发现的核心。可以说,有数据积累的地方,就有数据挖掘技术的用武之地。

数据挖掘的分析方法分为:聚类分析,关联分析,时序模式分析和分类分析。其中聚类分析是指通过数据本身具有的相似特点把海量数据集归纳为若干个簇,即“物以类聚”。同一簇中的数据之间相距小,相似度高;不同簇中的数据之间相距较大,数据相异度高。关联分析是指利用关联规则进行数据挖掘,其主要评价标准有:支持度、置信度、兴趣度等。本文中我们将数据挖掘技术与留学生教学管理相结合,挖掘在留学生教学管理中隐藏的有价值的信息,为留学生管理提供决策指导与决策支持。

2 数据挖掘在教学领域中的应用

数据挖掘与数据仓库相结合,是完成决策分析的关键因素。教务数据主要存储在关系型数据库中,其主要任务是执行联机事务和查询处理,对其中大量的教学信息及数据的应用仅限于某些单方面的分析,而缺乏相关的综合分析,大部分数据难以再次利用,不能满足决策分析的要求,为此需要对各种类型的数据进行抽取,转换、汇总加载到留学生成绩数据仓库中,借助数据挖掘技术,为教学提供决策支持服务。

在留学生成绩数据库中,包含着多种类型的数据,它们既相互独立又相互联系。运用数据仓库的理论和方法,对这些数据进行适当的预处理,即可产生支持教学决策所需要的信息。留学生成绩仓库的应用模型如图1所示。

根据留学生成绩的特点,以学生成绩分析为主题建立星型结构的留学生成绩仓库。星型结构主要由事实表与维度表两部分构成。事实表是星型模型的核心,维度表是事实表的附属表,一个事实表一般拥有一组维度表,每个维度表都通过主键与事实表相连,维度表之间通过事实表的中介相互建立联系。该数据仓库主要涉及到的信息有:留学生基本信息,教师信息,课程信息,试卷信息,知识点信息及专业信息等。星型结构的留学生成绩数据仓库的具体构建情况如图2所示。

2.1 数据挖掘在成绩分析中的应用

定性评价在生活中有着广泛的应用,我们往往把学生成绩硬性地划分为:优、良、中、差四个等级。而这种传统的硬性区间划分法,存在着众多弊端。例如将成绩90分定为“优”,而成绩79分确定为“良”,这往往只是根据经验但却缺乏理论指导,而实际上二者之间并没有那么明显的差距。如果我们利用数据挖掘中的聚类分析法对学生成绩进行适当处理,就可以有效地对学生成绩进行等级划分,为学生学习和教师的教学提供更合理的参考标准。在合理的等级划分基础上,我们就可以利用关联规则挖掘技术对学生成绩进行多角度、多方向的深入分析,获得可以为教学工作提供决策支持的有价值的隐藏规则。比如:学生成绩的好坏跟作业上交情况有着明显的关系,该规则说明教师可以通过及时督促学生上交作业来提高学生成绩。此外,我们也可以采用决策树挖掘技术来分析影响学生某门课程成绩的主要因素。比如:针对学生出勤率,作业上交情况,国籍,学生中英文水平四个因素对学生成绩的影响程度进行决策树挖掘分析,我们发现学生出勤率、作业上交情况以及学生的中英文水平是影响学生成绩的主要因素,而国籍则是次要因素。由此说明较高的出勤率、良好的作业上交情况以及较好的中英文水平是学生取得良好成绩的重要保障。

2.2 数据挖掘在培养计划制定中的应用

培养计划对一个专业的学习至关重要,一个好的培养计划将会获得事半功倍的效果,反之,将会产生事倍功半的结果。目前我校对于本科留学生虽然部分课程有全英文授课模式,但是就培养方案、教学计划来讲,大部分课程与本专业国内学生的几乎一样。而我国大学课程大纲的起点都是按照和国内高中毕业的程度衔接制定的,特别是数理化这样衔接性很强,对基础和选修课程要求很高的课程,大部分留学生不能跟上学习进度,教学效果较差,学习困难较大。

传统的教务系统无法为留学生的培养计划的制定提供建设性的决策支持。然而,利用数据挖掘技术对留学生信息维表,课程维表和学生成绩维表进行关联规则挖掘,则可以找出不同课程之间的关联,从而为留学生单独制定一套行之有效的特殊培养方案,适当调整外国留学生的必修和选修课程,提高教学效果和质量。如对石油工程专业留学生课程成绩进行关联规则挖掘,获得等级为“优”的课程之间存在的有价值的规则,如表1所示。

相应的规则解释有:(1)规则2 表明,“高等数学(Ⅱ)I”与“高等数学(Ⅱ)II”作为“理论力学”的先行课程的信任度为88.3%,因此“高等数学(Ⅱ)I”与“高等数学(Ⅱ)II”作为“理论力学”的先行课程比较合理。(2)规则3表明,“理论力学”作为“材料力学”先行课的信任度为90.6%,所以“理论力学”作为“材料力学”的先行课程比较合理。(3)规则4表明,“理论力学”和“材料力学”作为“油田开发地质”的先行课程的信任度为86.0%,所以“理论力学”和“材料力学”作为“油田开发地质”的先行课程比较合理。综合(1)(2)(3)可知,高等数学(Ⅱ)(I ,II),理论力学,材料力学,油田开发地质这四门课程的合理开课顺序应该是:(1)高等数学(Ⅱ)(I ,II)(2)理论力学(3)材料力学(4)油田开发地质。如果对上面列出的规则进行多次推导,可以得出“石油工程”这个专业大致合理的开课顺序:(1)高等数学(Ⅱ)I、高等数学(Ⅱ)II;(2)高等数学(Ⅱ)(I ,II),理论力学,材料力学,油田开发地质;(3)测井综合解释,钻井工程、油藏工程、气藏工程,石油工程的全面设计;(4)环境保护在石油和天然气领域,强化开采理论。

由上述的关联规则及相应的结果解释,我们可以清楚地看到,相关课程成绩之间存在较高的关联程度,先行课程的学习情况将直接影响其后续课程的学习。我校即可根据上述结论为学习“石油工程专业”的本科留学生合理安排课程顺序,使其获得良好的学习效果。

2.3 数据挖掘在留学生选课方面的应用

高校愈来愈注重个性化人才培养,学校教育方式越来越人性化、多样化,学生自主选课就成为课程改革的必然产物。但由于留学生初到中国对环境的不熟悉,包括一开始的语言障碍、沟通障碍,显然对中国高校的课程设置了解有限,这样有可能致使他们选课仅仅是凭表面感觉来进行。如:学生在选择“中国概况”这门课的时候,可能仅仅是因为对中国历史文化的好奇,而并不了解应如何合理选择其他相关课程来加深对这门课程的理解。“中国概况”这门课程需要有一定中文语言基础,盲目选课将导致留学生对中国概况的学习仅限于皮毛,而不能深入了解中国历史文化。

现有的选课系统不能为学生选课提供建设性意见,但如果利用数据挖掘技术对学生汉语成绩进行关联规则挖掘,找出课程之间的关联,就可以在学生选择某门课时为其推荐相关课程,完善学生在该领域的学习体系。若获得如下规则:“中级汉语”和“中国概况”成绩等级为“优”;该规则说明汉语水平高低与中国概况的了解程度有较强的关联程度,所以我们在学生选择“中国概况”这门课程的时候,就应当向其推荐“中级汉语”,从而加强学生对该课程的学习。

2.4 数据挖掘在教学中其他方面的应用

通过对学生基本信息,学生成绩与留级或退学情况进行关联规则分析,从中分析导致学生留级或退学的因素,从而可由学生的现有情况预测其被留级或退学的可能性,及时对有退学或留级危险的学生进行适时指导,避免退学或留级情况的出现,使每个学生都能享有充实圆满的大学生活。另外,采用关联规则与决策树挖掘技术对学生基本信息,学生成绩与就业情况进行深入分析,比较国籍,专业方向,性别,专业课成绩,英语水平,参赛(参加科技比赛)情况,从中可以获得相关信息,对学校的招生工作提供参考。如:来自巴基斯坦国家的学生普遍成绩不错,就业情况较好,这样对招生部门来讲,可以提高对该国的学生的招收比例,从而提升整个高校的留学生质量。

3结论

数据挖掘技术作为一种新兴的数据分析技术,被充分应用到留学生的教学管理中。从招生管理方面来讲,通过数据挖掘技术,可以了解不同国家的生源质量,从而为学校的择优录取提供理论参考。从教学方面来讲,采用数据挖掘技术可以理性地分析在留学生教学方面的成效与得失,使留学生在学习过程中,更好地掌握理论基础和专业知识,并且可以把获得的基本的中文听、说、读、写能力运用到所学专业领域中。在教育信息化的大趋势下,数据挖掘技术在教育领域内必然有十分广阔的应用前景,而随着数据挖掘技术的发展,它也必将会在留学生教学管理中起到越来越重要的作用。

参考文献

[1] 严华,陈文菁.关联规则在学生成绩分析中的应用.福建医科大学学报(社会学版),2008.9(1):46-49.

[2] 吕爽,陈高云.数据挖掘技术在高校教学评估中的应用[J].广东广播电视大学学报,2006.3(15):24-28.

[3] J.Brachman,T.Anand. The Process of Knowledge Discovery in Databases.A Human-centered Approach,1996:37-58.

[4] 赵辉.数据挖掘技术在学生成绩分析中的研究与应用.大连:大连海事大学,2007:6-10.

[5] 张莉.数据挖掘技术在高校学生成绩分析中应用的研究.青岛:中国石油大学(华东),2009:6-10,56-57.

[6] 潘锋.教务管理系统中的数据挖掘.重庆:重庆大学,2008:36-38.

数据挖掘课程设计论文例8

【关键词】成绩分析 关联规则 Apriori算法

1 数据挖掘

数据挖掘其实就是从大量、有噪声、随机性、不完全、模糊的应用数据中,提取并隐藏在应用数据中心、人们不知道但是有价值的信息和知识的过程,通过数据挖掘系统能够自动分析原有数据,并作出归纳总结,挖掘出数据原有的模式,为决策者提供参考价。数据挖掘包括数据仓库、预处理、分类聚类、关联分析等。关联分析是数据挖掘最贴近我们生活的一部分了,登录亚马逊网站,当我们挑选一本《Android4高级编程》时,网站会不失时机的列出你可能还会感兴趣的书籍,如Android游戏开发、Cocos2d-x引擎等,让我们的购物车变得更充实,而钱包又空了些。

数据挖掘是一门综合了统计学、信息技术、人工智能等多项技术。其中数据挖掘聚类和决策树则是机器学习理论知识。关联性规则挖掘技术对数据挖掘技术具有非常重大的意义,它进一步扩展了数据挖掘的研究,到如今已经成为了数据挖掘领域中的一个分支。关联性规则不仅体现数据之间的关联,更为重要的是关联系规则的表达简洁,便于理解,近年来已经成为数据挖掘技术研究领域的热点话题。

2 关联规则Apriori算法

Apriori算法是关联规则算法之一。Apriori算法的第一遍仅仅计算每个项目的具体指的数量,以确定大型1项集。随后的遍历,第k次遍历,包括两个阶段。首先,使用在第(k-1)次遍历中找到的大项集Lk-1和Apriori-gen函数产生候选项集。接着扫描数据库,计算中候选的支持度,从而得到中的支持度不小于最小支持度的k阶大项集。重复以上步骤,直到某一阶的大项集为空时,算法停止。

Apriori算法指导我们,如果要发现强关联规则,就必须先找到频繁集。所谓频繁集,即支持度大于最小支持度的项集。如何得到数据集合D中的所有频繁集呢?

用一种非常原始的办法来分析,就是对于数据集D,遍历每一条记录T,可以得到T的所有子集,然后计算每一个子集的支持度,最后再将结果与最小支持度比较。我们暂且不管数据集D中有多少条记录,就说每一条记录T的子集个数,{1,2,3}的子集有{1},{2},{3},{1,2},{2,3},{1,3},{1,2,3},即如果记录T中含有n项,那么它的子集个数是-1。计算量是非常大的,很明显这种方法是不可取的。

因此,Aprior算法提出了一个逐层搜索的方法,如何逐层搜索呢?包含两个步骤:

(1)自连接获取候选集。第一轮的候选集就是数据集D中的项,而其他轮次的候选集则是由前一轮次频繁集自连接得到(频繁集由候选集剪枝得到)。

(2)对于候选集进行剪枝。如何剪枝呢?候选集的每一条记录T,如果它的支持度小于最小支持度,那么就会被剪掉;此外,如果一条记录T,它的子集有不是频繁集的,也会被剪掉。

算法的终止条件是,如果自连接得到的已经不再是频繁集,那么取最后一次得到的频繁集作为结果。

3 教务管理系统中的学生成绩数据挖掘

学生的考试成绩不仅体现了学生阶段性的学习效果,而且是检验学校教学效果的重要依据。为了提高学校教学质量,所以必须对学生的考试成绩进行数据挖掘,挖掘出学生考试成绩背后的关键性因素,可以从学生的性别、专业、课程、入学成绩、老师对学生的考核评价等因素为切入点,分析这些因素对学生成绩产生的影响,并找出各个要素之间的潜在规律,从而分析出影响学生考试成绩的主要因素,并预测学生哪一部分成绩还需要进一步加强。采用关联系规则对学生成绩进行数据挖掘,通过数据仓库查看各个专业学生课程成绩单,并分析各个课程与其他课程之间的关联和影响,从而制定专业的人才培养计划。在制定计划的时候,依次从公共课、专业课到拓展课等方面设置相关课程。不同的专业开设课程的时间不同,开课时间次序对学生学习后续课程会产生一定的影响。但是过去很多高校在课程安排上比较随意,通常都是高校教务处的人根据过去的教学经验和主观认知,安排学生的课程时间。然而每一门课程都有它的特点,比如体育课学生可能需要大量的运动,消耗的体能比较多,运动过后学生无论精神上还是身体上都比较疲惫,这个时候上课的效果就不太好,所以在安排课程的时候,尽量将体育课安排到下午的时间段,这样不会学校其他课程的教学效果。通过关联性分析,找出每一门课程的影响因素,合理安排课程的先后顺序,为人才方案制定者提供科学的决策依据。

我们从教务管理系统中选取1000名软件技术专业学生的成绩,根据学生成绩进行数据挖掘,部分成绩数据如表1所示。

根据学生考试成绩表,分析学生不及格科目之间的关系,60分以下的设置最小支持度为0.04。设置关联规则的参数,将成绩范围设定为0至59,最小支持度为0.04。

使用Aprior算法对数据仓库中的相关数据进行关联规则分析,结果如表2所示。

通过对1000名软件技术专业的学生60分以下成绩进行数据挖掘,发现学生的电路分析和高等数学两门科目的置信度是0.51,C++程序设计这门课程的置信度是0.40。根据图表各个课程的置信度可以得出结论。如果学生在大一阶段的基础课程如高等数学学习成绩比较差,那么学生的电路分析和C++程序设计两门科目的学习成绩也会不太好,不及格的概率比较大。相对来说,如果高等数学和电路分析两门课程的置信度达到了0.35,那么对学生的电路分析和C++程序设计两门科目的学习成绩影响不大。那么可以得出这样的结论,电路分析课程开设在高等数学这门课程之后。通过以上分析,我们可以得出,将一些基础课程作为专业课程的前导课程,能够为学生后期学习打下坚实的基础;如果学生的基础知识学习不好,那么对专业课程的影响也很大,专业课程的学习和基础课程有直接关系。研究影响学生成绩优秀的课程之间的关系,80分以上设置最小支持度为0.04。设置关联规则的参数,设定分数范围80至100,最小支持度为0.04。

利用关联规则产生如表3所示的数据挖掘结果。

通过对软件技术专业考试成绩在80分以上学生进行数据挖掘,发现专业英语和大学英语两门课程的置信度是0.62,从中我们可以得出结论,如果学生的英语基础成绩比较好,那么学生的大学英语成绩也相对来说没有什么问题,学生的专业英语成绩分数也相对比较高。数据结构和C++程序设计两门课程是计算机专业的专业基础课堂,两门课程的置信度是0.64,从课程的置信度可以看出这两门课程对专业学习数据结果的影响,如果学生的数据结构这门课程学习成绩比较好,那么学生C++程序设计这门课程的学习成绩也比较好。从以上分析来网页设计和制作与photoshop图像处理两门课程的置信度是0.68,从中可以看出photoshop图像处理课程对网页设计和制作有很大影响。网页制作的时候,需要photoshop图形图像处理软件对图片进行处理和调整。所以photoshop图像处理课程可以设置在网页制作课程之前,以便学生在学习网页制作的时候,能够用photoshop软件对图片进行处理。

从上述内容我们可以看出,高校专业课程之间的关联性很强,从学生考试成绩就可以看出,因此在学校开设课程的时候,一定要考虑课程关联性影响,按照对学生影响大小制定开设课程的次序,并作为学校培养人才的重要依据。

此外在对学生成绩进行数据挖掘的时候,还要考虑到学生入学成绩和整体考试成绩,经学生的入学成绩录入系统,并对学生所有课程考试成绩综合分析,算出平均成绩,按照平均成绩划分优秀、良、差等不同等级,将入学成绩也分为优、良、差等不同等级,挖掘出入学成绩和考试成绩之间的关联。

成绩关联性数据挖掘结果如表4所示。

4 结论

从上述结果得出,如果学生的入学成绩差和考试成绩优的置信度是0.41,这就表明如果学生的基础比较差,那么在大学的考试成绩好的可能性不大。如果学生的入学成绩差和考试成绩优的置信度是0.65,那就表明基础成绩差的学生也可以考出良等的考试成绩,这样就能过去传统理论上入学考试成绩好的学生,在大学的学习成绩也会很好,如果入学成绩不好的学生,在大学的成绩肯定不好的这种理论。通过关联性分析,可以看出学生入学成绩的好坏与学生大学成绩的好坏并没有必然的联系。大学自由的学习气氛给学生的学习创造了良好的环境,如果学生抓住这个机会,自主学习,那么就能获得好的成绩,如果还是秉承按照高中阶段的学习思维,那么可能学生不利于学生的学习。

参考文献

[1]王少华等.关联规则在高校系统中的应用[J].福建电脑,2007(12):153-156.

[2]王能斌等.大学课表调度系统UTSS[J].计算机学报,1984(05):383-389.

[3]何炎样.关联规则的几种开采算法及其比较[J].小型微型计算机系统,2001(09).

[4]赵俏.高职院校教务管理中的数据挖掘[J].科技信息,2008(11):80,95.

[5]杨克松.论关联规则在高校选课系统中的应用[J].福建电脑,2007(10):166-168.

[6]周培德.算法设计与分析[M].北京:机械工业出版社,1996.

作者简介

数据挖掘课程设计论文例9

中图分类号:TP319文献标识码:A文章编号文章编号:1672-7800(2013)012-0121-02

基金项目:江苏省职业技术教育学会职业教育立项课题(2013012)

作者简介:孙雪娟(1977-),女,无锡高等师范学校讲师,研究方向为计算机教学。

1系统设计背景

随着信息化技术的不断推进,利用校园网共享网络教学资源,构建网络教学环境,并可进行交互、协作和开放式的教学已成为重要的教学方式之一。通过对学生使用系统所产生的信息数据进行数据挖掘,得到学生学习兴趣、学习习惯、学习不足等个人信息,用以指导教师教学。为学生提供个性化、智能化的网络教学系统成为当下教学系统的主流。

软件专业是实践性非常强的一个专业,学生学习程序设计语言类课程只有通过大量的编程训练,才能理解理论课所教授的知识点。但传统的教学偏重于采用“以教师为中心,教师讲、学生听”为特征的教学模式,忽视了计算机语言实践技能训练的重要性,从而缺乏对学生的个性化教学和知识再生能力的培养。对无锡高等师范学校软件专业学生的调查表明,因为课堂时间有限和教师与学生数量配比低,很多学生认为实验课程缺乏教师的帮助与指导,导致学习效果不理想。因此,在有限的客观条件下,进一步丰富课后自主学习资源,增加学生自主学习的时间和空间,使学生的学习不仅仅局限在课堂及实验课上,无疑是改善教学效果的有效方法。

2系统模块组成与流程设计

2.1系统功能模块组成

本教学系统预设定以下几个模块:课程资源、RSS定制、教学博客和会员中心等。

课程资源模块提供相关课程的教学信息、课程电子教案、课件、开放工具软件、免费电子书籍与参考资料、相关技术文章、相关课程练习与考试试题及参考答案等资源。

RSS定制模块将Web2.0技术之一的RSS技术应用于该系统建设中,使得学生能够在大量的教学内容中快速获取自己感兴趣的教学内容,从而实现个性化的学习过程。

教学博客模块按照课程和专题分类提供教师日常教育教学中遇到的问题或收获,同时该模块也可作为教师和学生课后的在线交流平台,针对具体问题进行交流以弥补课堂教学的不足。

会员中心模块主要负责对用户权限、密码、数据备份与安全等进行管理,对各项上传数据进行审核整理等。

2.2系统流程设计

该软件系统分为学生、教师两种不同的身份注册,身份不同,拥有的权限也不同。学生进入系统后学生利用系统提供的教学资源进行在线学习,与教师和同学进行在线交流、网上作业、网上实验。学生使用系统中产生的数据由数据挖掘算法对其进行挖掘分析,并给出相应的教学评价和建议,从而实现个性化教学的目的。教师进入系统后主要进行教学资源的上传、管理自己的博客,并对题库进行更新等;同时与学生进行在线交流、在线作业布置和批阅,可获得相应的学生各项成绩,并对题库进行更新等。

3关键技术

3.1Web2.0技术

Web 2.0的概念是2004年始于出版社经营者O'Reilly和MediaLive International之间的一场头脑风暴论坛。Web2.0是与互联网有关的一系列技术发展到一定阶段后应用门槛逐步降低,且技术与需求得以很方便地结合,从而产生的一次大规模的应用普及。Web2.0代表着互联网发展的新理念,逐渐成为该领域发展的热点和主流。Web2.0倡导用户主导、用户参与、用户分享、用户创造,最大限度地帮助用户实现个性化生产和满足用户个性化需求就是Web2.0服务的中心内容。目前,有关基于Web技术的智能教学系统的研究和开发逐渐成为国内外研究的热点,Web技术已成为智能教学系统不可缺少的技术。本系统拟采用Web2.0技术,一些人把Web 2.0看作是WWW发展的一个新阶段,这一阶段从架构到应用都显现出一些显著的特征。

Web2.0的特性表现在如下方面:

(1)多人参与,发挥的是个人的力量。每个人都是内容的供稿者,个人深度参与到互联网中,而不是作为被动的客体,这是一场革命性的变化。当然,这里的个人不是孤立的个人,而是彼此相连。

(2)可读可写互联网,交互能力强。Web2.0是“可写可读互联网”,发挥的是自组织的力量。个人与个人之间,创造的内容与内容之间,以及汇聚的群体与群体之间,都是以不同的自组织方式架构起来。以自组织的方式让人、内容和应用等充分“活动”起来,力量才能最大程度地爆发。

(3)Web2.0提供博客服务、简易信息聚合(RSS)、对等网络(P2P)、社区信息资源共享服务、集体编辑服务和社会性书签等服务。

总结而言,Web2.0实际上是对各信息源进行扩展,使其多样化和个性化的网络平台。

3.2数据挖掘技术

3.2.1数据挖掘概念

数据挖掘简单来说是从大量不规则的数据中寻找规律的技术。从人工智能和数据库领域研究的角度看,数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的、具有潜在价值信息的非平凡过程。数据挖掘是多种技术结合的产物,主要包括人工智能、数据库、统计学、模式识别、可视化技术等。数据挖掘技术的分析方法有很多,比如关联规则分析、聚类分析、分类分析、回归分析、序列模式分析等。

3.2.2数据挖掘过程

(1)创建数据源。数据挖掘的处理对象是大量的数据,根据用户需求,选择恰当的信息收集方法和合适的数据存储管理方式将收集到的信息存入数据库。

(2)数据预处理。在系统使用过程中,会在数据库存储大量的积累数据,但这些数据往往不适合直接进行知识挖掘,通常在挖掘之前,要对这些数据进行数据预处理,具体的方法是选择相关数据、消除噪音、推算遗漏数据、消除冗余数据、数据类型转换等处理。完整、正确、一致的数据信息将有利于数据挖掘的效率和准确度。

(3)数据挖掘。数据挖掘的实施,仅仅是整个数据挖掘过程的一个步骤。数据挖掘常用的算法有关联规则分析算法、聚类分析算法、序列模式分析算法等。根据预处理后数据库中的数据信息,选择合适的分析算法,选取相应算法的参数,并分析数据,得到可能形成知识的模型。

(4)评估模型。实施数据挖掘所获得的模型,需要进行评估分析,以便有效发现那些没有实际意义的知识模型。这些初始模型所获得的模式有些可能不满足挖掘任务的需要,有些可能存在冗余,甚至有些情况下与事实相反。评估的方法可以直接用数据来检验其准确性,其中数据可以是原先建立的挖掘数据库中的数据,也可以另找一批数据并对其进行检验, 或者是在实际运行的环境中取新数据进行检验。

最后,需要对建立的模型进行可视化表示,将挖掘结果转换为用户易懂的另一种表示方法。数据挖掘过程是一个不断反馈修正的过程,无论哪个步骤如果没有达到预期目标,就需要退回到前面的挖掘步骤,重新选择数据,采用新的数据变换方法,设定新的参数值,甚至换一种数据挖掘算法。

3.2.3数据挖掘在本系统中的应用

教学系统要想做到因材施教,为学生提供个性化教学,数据挖掘技术的应用尤为重要。教学系统的后台数据库能够保留大量与学生相关的数据,但数据不是信息,如何从海量的数据资源中挖掘所蕴涵的有益信息是该系统研究的重点。

本系统中,学生的注册信息、学生的行为信息、课件库都可以作为数据挖掘的数据资源库。本文在此列举几种数据挖掘分析的基本算法在该系统中的应用。

(1)关联分析。关联分析是数据挖掘领域常用的一类算法,主要用于发现隐藏在数据库中有意义的联系,在此算法中支持度和置信度是重要的参数。支持度用来衡量某一给定数据集的频繁程度,置信度用来衡量某一数据集在特定事务中出现的频繁程度。本系统中,通过对学生各课程中知识的兴趣点、疑问知识点、各知识点分配的时间等数据的关联分析,可以发现知识点之间的关联,掌握学生学习情况,并给出相应的评价和一些学习建议。

(2)序列模式分析。序列模式挖掘有基于时间或者发现序列等的模式分析方法,其侧重点在于分析数据间的前后或因果关系。学生学习系列知识需要掌握前后的知识点,特别是软件专业的学习,系列性较强,在时间有序的事务集中,找到那些“一些项跟随另一些项”的内部知识的联系对学习非常有帮助。学习活动序列模式挖掘问题由于其数据源和需要挖掘的模式的特殊性,因而还有许多问题有待解决。

(3)聚类分析。聚类分析属于探索性的数据分析方法,人们不必事先给出一个分类的标准,从给定的数据出发,自动进行分类。利用聚类分析可以将看似没有任何联系的数据进行分组,归类聚类结果要求组内对象相似性较高,组间对象相似性较低。比如,在学生访问系统的过程中,会参与相关知识领域的讨论,从而产生相应的数据,系统会对相同知识点感兴趣的学生进行聚类。经过分析,这些学生被聚类为一组,系统会自动给该组学生提供有别于其他同学的学习导航,使学生最大程度地受益。

4结语

基于Web的教学系统已成为当今流行的教学形式。但目前使用的大多数教学系统几乎都是静态的,存在交互手段少、不能因材施教等缺点,而在站点上却积累了大量有用的信息,没有被充分利用。本文设计的该系统能够根据学生的具体情况安排教学,如自动的因材施教等,旨在构造一个“以学生为中心”的,基于Web2.0 并使用数据挖掘的个性化教学系统,使其能在平时的教学实践中发挥更大的作用。个性化与智能化是辅助教学发展的趋势所在,基于Web的挖掘技术在教学系统中的应用是一个新的领域,也是一个带有很大挑战性的课题,必将有力地推动教学系统及相关学科的不断发展和进步,其无疑具有深刻的理论和实践意义。

献参考文献:

[1]张荣梅,彦峰,晓林.基于Internet 网络教学系统的设计与实现[J].现代远距离教育,2005(2).

数据挖掘课程设计论文例10

摘 要:针对当前数据挖掘课程教学中工程应用与理论创新的脱节问题,分析数据挖掘课程本身的特点和当前教学现状,从提高本科生创新能力的人才培养模式角度出发,提出在教学内容的前沿性、教学方式的多元性及实验教学的多梯度性改革,达到因材施教、工程应用与理论创新的有机统一,有效提高学生的学习兴趣及学习效果。

关键词:数据挖掘;理论创新;多元教学;多梯度实验

0 引 言

在当前大数据时代背景下,如何从海量数据中挖掘并提炼出对人们真正有用的知识,是大数据研究的难点问题,同时也是目前数据挖掘面临的关键和核心问题[1]。数据挖掘作为当前计算机专业的一个前沿课程,是一个综合性的交叉课程,也是重要的学术研究方向,其内容涉及多方面基础理论学科和应用性强的技术领域,是提高计算机专业学生应用实践能力和理论创新能力的载体课程,在整个计算机专业的学习中具有极为重要的地位。

1 教学现状

数据挖掘作为一门同时具备应用性和学术性的课程,早期属于计算机专业研究生培养的专业课程,但随着数据挖掘在各个领域的广泛应用,现已成为计算机专业本科培养的专业选修课之一。目前,数据挖掘课程在教学内容、教学方法和实验教学模式上存在诸多不足之处。

(1)教W内容陈旧。目前的教学内容一般根据某本数据挖掘教科书进行讲解,由于数据挖掘技术的快速发展,一本教科书往往很难全面概括数据挖掘的内容、方法和技术。

(2)基础理论算法与实验教学脱节。当前的教学路线往往是使本科学生从了解和掌握数据挖掘的基本任务开始,然后讲授数据挖掘的各种基本算法,最后上机实验。这一教学方式侧重于以应用为主,主要目标在于培养计算机工程的应用人才。然而,由于基础理论算法与实验教学分开讲解,使得学生缺乏对使用数据挖掘解决实际问题的能力。

(3)理论创新意识的缺乏。在当前的本科教学中侧重工程实践能力的培养,忽略理论创新的培养。在数据挖掘课程中,理论创新是指学生对所学的数据挖掘算法有自己的见解,能有意识地思考目前数据挖掘面临的问题并提出新的数据挖掘算法。

(4)实验教学僵化。当前的实验教学往往是固定的几个算法验证性实验,对于不同学习能力的人而言,实验教学往往很难达到理想的效果。

目前,对日新月异的科技发展、以科技创新和技术升级为核心特征的激烈国际竞争,我国自主创新能力较为薄弱的问题已经越来越成为信息化发展的瓶颈[2],这也给数据挖掘教学带来巨大挑战,即教师如何在教学过程中提高学生的理论创新能力?

2 教学方法的改革

2.1 教学内容的前沿性与统一性

作为一门新兴的前沿课程,该门课程内容、方法和技术仍处于发展和探索阶段。通过固定的教材去系统地传授数据挖掘的内容显然是不太合理的。因此,与传统学科不同,数据挖掘教学内容需要进行更新,并根据学生的接受能力进行甄别筛选。同时,要求任课教师在不断发展的新技术与相对稳定的教材中寻找一条贯穿整个教学内容的主线,在讲课的过程中,结合数据挖掘研究进展,配合自己的研究成果,把最新的技术融入到课堂中。此外,由于数据挖掘是多学科的交叉课程,内容涉及统计学、算法、数据库、机器学习、模式识别、可视化等,而本科生的知识体系薄弱,在短时间难以透彻理解各部分内容。因此,教学过程中教师应合理设计教学大纲和方案,有机地学内容,让学生对数据挖掘有一个整体的了解。建立不同数据挖掘任务之间的相互关联,同时以项目讲解的方式将数据挖掘涉及的数据预处理、聚类分析、分类预测、噪声检测、关联规则挖掘等有机结合在一起。

2.2 理论创新的多元教学

针对现有本科生教学中理论创新意识的缺乏,尝试进行多元化教学模式,主要从以下4个方面展开。

(1)区分教学内容的难易度,将教学内容分为基础内容与进阶内容。在讲授中注重基础内容的原理性,并有意识地让学生接触一些前沿性的理论拓展知识。比如在讲解分类算法时,首先专注几个经典的分类算法,如K―最邻近、决策树、朴素贝叶斯和支持向量机等。同时,在此基础上,给学生讲述目前分类的一些前沿方法,如集成学习、深度学习和迁移学习等。

(2)以问题为驱动教学。在讲解聚类算法时,可以通过“物以类聚,人以群分”的思想展开,具体介绍K―MEANS和DBSCAN两个具有代表性的聚类算法,让学生思考数据挖掘不同算法提出的原因、基本思想和优劣性,初步引导学生的自我思考、自我学习的创新思维能力。同时,针对数据具有的高维性,让学生进一步思考“高维诅咒”问题及在此问题上展开的子空间聚类的研究。

(3)建立“教研统一”研究式教学方法,利用教师现有科研促进和服务于教学,探索形成“科研嵌入”理论教学内容。将教师在自己的研究与教学内容进行有机结合,丰富教学内容,拓宽学生视野,提高学生实践能力和创新能力,实现科研成果融入教学。这样既提高了学生学习知识的兴趣性,又培养了潜在的科学素养。此外,在整个教学环节中布置两个任务,一是让学生进行数据挖掘的文献调研(主要涉及数据挖掘的历史、现状、面临的挑战及当前的行业应用),二是在课程结束后进行主题研究报告,每个学生选择自己感兴趣的一个主题进行,研究报告的目的是让学生深入理解所学内容,为后续的科研工作打下基础。

(4)教学模式由传统“填鸭式”向“互动式”教学转变。通过研讨方式引导学生去思考,激发学生的求知欲,充分调动其学习的积极性和主观能动性。通过具体实例,让学生知道算法的应用场合,提高学习兴趣和效率。

2.3 多梯度实验教学

实验教学是使学生在实践环节将数据挖掘课程中学习的理论算法应用于实践,帮助学生理解和掌握知识,提高动手能力。传统的上机实验往往是侧重几个经典算法的实现,如KMEANS、KNN、ID3决策树和LOF算法等。然而,数据挖掘是一门工程应用性较强的学科,这种算法验证实验很难让学生体会到数据挖掘的实际应用,因此,从基础能力培养、工程应用及创新研究3个方面设计多梯度实验。

首先,按照由浅入深的原则设计2个经典算法实现,如KMEANS和 ID3决策树。这个实验为算法型实验,主要是帮助学生通过实验更好地了解所学算法,学生也可以自己选择聚类分析和分类预测的任意两个算法进行实现。

其次,设计一个简单综合型实验,比如垃圾邮件的分类系统,要求学生完成从数据收集、数据预处理到整个系统的实现。主要考查学生综合运用数据挖掘知识,解决实际问题的能力,注重工程能力的培养。

最后是创新算法的实验设计,比如子空间聚类算法的实现。这个实验注重部分学生创新能力的培养,尤其是致力于以后从事科学研究的学生。学生可以根据自己的爱好,选择算法型实验和综合型实验,也可以选择算法型实验和创新算法设计实验。多梯度实验的目的主要是希望针对不同学生的学习兴趣及将来的发展方向,给出合适的实验教学。实验的整体难度由易到难,层层深入,有利于学生实践能力和创新能力的培养。

3 结 语

当前,数据挖掘正处在快速发展的过程中,各个领域的大量应用使得对数据挖掘这门课程的工程应用能力要求越来越高,需要学生具有更好的创新能力,因此,数据挖掘课程的教学也同样需要调整教学内容和教学手段来紧跟其发展的步伐。基于此,我们提出在课程内容的前沿性、教学模式的多元性及实验教学的多梯度性上进行改革,从而达到在培养学生工程实践能力的同时,提高其创新思维能力。

基金项目:电子科技大学“互联网+”课程建设教改专项。

第一作者简介:邵俊明,男,教授,研究方向为数据挖掘、机器学习及在交叉学科的应用研究, 。