數(shù)據(jù)挖掘技術(shù)及其在職業(yè)教育中的應(yīng)用探討
段向紅 張飛舟
摘要:文章闡述了數(shù)據(jù)挖掘技術(shù)的概念、分類、功能以及主要過程,探討分析了數(shù)據(jù)挖掘技術(shù)用于職業(yè)教育的可能性。
關(guān)鍵詞:數(shù)據(jù)挖掘;職業(yè)教育;教育信息化
目前,計(jì)算機(jī)技術(shù)已經(jīng)滲透到社會生活的各個方面,對職業(yè)教育的教學(xué)也產(chǎn)生了重要影響。隨著教育信息化進(jìn)程的推進(jìn),產(chǎn)生了大量的、復(fù)雜的數(shù)據(jù),面對如此巨大的數(shù)據(jù)資源,如何更充分、更有效地加以利用呢?將數(shù)據(jù)挖掘(Data Mining,DM)技術(shù)應(yīng)用于職業(yè)教育中,可從大量的教育數(shù)據(jù)中發(fā)現(xiàn)隱藏的、有用的知識來指導(dǎo)教育、發(fā)展教育,改善職業(yè)教育中的教學(xué)效果,從而有效提高職校學(xué)生的職業(yè)與文化素質(zhì)。
數(shù)據(jù)挖掘技術(shù)
隨著信息技術(shù)的飛速發(fā)展及數(shù)據(jù)庫技術(shù)的廣泛應(yīng)用,人們積累的數(shù)據(jù)越來越多,但是數(shù)據(jù)資源中蘊(yùn)含的知識卻未能得到充分的挖掘和利用,“數(shù)據(jù)豐富而知識貧乏”的問題十分嚴(yán)重。人們迫切需要一種新的技術(shù)將這些海量的數(shù)據(jù)資源轉(zhuǎn)換為有用的知識,從而幫助人們科學(xué)地進(jìn)行各種決策。面對這一挑戰(zhàn),數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生,并逐漸顯示出其強(qiáng)大的生命力。
(一)數(shù)據(jù)挖掘的概念
數(shù)據(jù)挖掘是一個集統(tǒng)計(jì)學(xué)、人工智能、模式識別、并行計(jì)算、機(jī)器學(xué)習(xí)、數(shù)據(jù)庫等技術(shù)于一體的交叉性學(xué)科研究領(lǐng)域。數(shù)據(jù)挖掘是一個從數(shù)據(jù)中發(fā)現(xiàn)知識的過程。數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、有用的信息和知識的過程。通過數(shù)據(jù)挖掘可以幫助決策者尋找規(guī)律,發(fā)現(xiàn)被忽略的要素,預(yù)測趨勢,進(jìn)行決策。數(shù)據(jù)挖掘是對數(shù)據(jù)內(nèi)在和本質(zhì)的高度抽象與概括,是對數(shù)據(jù)從感性認(rèn)識到理性認(rèn)識的升華。它涉及對數(shù)據(jù)庫中的大量數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析以及模型化處理,從中提取輔助決策的關(guān)鍵性數(shù)據(jù),因此數(shù)據(jù)挖掘就是深層次的數(shù)據(jù)信息分析方法。
(二)數(shù)據(jù)挖掘的分類與主要功能
數(shù)據(jù)挖掘的分類方式很多,根據(jù)數(shù)據(jù)挖掘的任務(wù)可分為:分類或預(yù)測模型數(shù)據(jù)挖掘、數(shù)據(jù)總結(jié)、數(shù)據(jù)聚類分析、關(guān)聯(lián)規(guī)則分析、序列模式發(fā)現(xiàn)、依賴關(guān)系或依賴模型發(fā)現(xiàn)、異常和趨勢發(fā)現(xiàn)等。根據(jù)數(shù)據(jù)挖掘的對象可分為:關(guān)系數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫、空間數(shù)據(jù)庫、時態(tài)數(shù)據(jù)庫、文本數(shù)據(jù)源、多媒體數(shù)據(jù)、異質(zhì)數(shù)據(jù)庫、遺產(chǎn)數(shù)據(jù)庫以及Web數(shù)據(jù)源等。數(shù)據(jù)挖掘具有預(yù)測趨勢和行為、關(guān)聯(lián)分析、聚類、概念描述以及偏差檢測等主要功能。
預(yù)測趨勢和行為數(shù)據(jù)挖掘自動在大型數(shù)據(jù)庫中尋找預(yù)測性信息,以往需要進(jìn)行大量手工分析的問題如今可以通過數(shù)據(jù)挖掘迅速直接地由數(shù)據(jù)本身得出結(jié)論。
關(guān)聯(lián)分析數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識。若兩個或多個變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。
聚類數(shù)據(jù)庫中的記錄可被劃分為一系列有意義的子集,即聚類。聚類增強(qiáng)了人們對客觀現(xiàn)實(shí)的認(rèn)識,是概念描述和偏差分析的先決條件。
概念描述概念描述就是對某類對象的內(nèi)涵進(jìn)行描述,并概括這類對象的有關(guān)特征。
偏差檢測數(shù)據(jù)庫中的數(shù)據(jù)常有一些異常記錄,從數(shù)據(jù)庫中檢測這些偏差很有意義。偏差包括很多潛在的知識,如分類中的反常實(shí)例、不滿足規(guī)則的特例等。
總之,數(shù)據(jù)挖掘所要處理的問題,就是在龐大的數(shù)據(jù)庫中找出有價值的隱藏事件,并且加以分析,獲取有意義的信息,歸納出有用的結(jié)構(gòu),作為決策者進(jìn)行決策的依據(jù)。
(三)數(shù)據(jù)挖掘的基本過程
數(shù)據(jù)挖掘的基本過程包括:數(shù)據(jù)收集、數(shù)據(jù)整理、數(shù)據(jù)挖掘、結(jié)果評估、分析決策等,其基本與步驟如圖1所示。從圖1不難看出,數(shù)據(jù)挖掘的各過程不是一次就能完成的,其中某些步驟或者全過程可能需要多次的循環(huán)反復(fù),才有可能達(dá)到預(yù)期的效果。
數(shù)據(jù)收集大量全面豐富的數(shù)據(jù)是數(shù)據(jù)挖掘的前提,沒有數(shù)據(jù),數(shù)據(jù)挖掘也就無從談起。因此,數(shù)據(jù)收集是數(shù)據(jù)挖掘的首要步驟。在開始數(shù)據(jù)挖掘之前,首先要消除噪聲或不一致數(shù)據(jù),廣泛收集用戶的各種信息,建立數(shù)據(jù)庫與數(shù)據(jù)表,為數(shù)據(jù)挖掘做準(zhǔn)備。數(shù)據(jù)可以來自于現(xiàn)有事務(wù)處理系統(tǒng),也可以從數(shù)據(jù)倉庫中得到。
數(shù)據(jù)整理數(shù)據(jù)整理是數(shù)據(jù)挖掘的必要環(huán)節(jié)。由數(shù)據(jù)收集階段得到的數(shù)據(jù)可能有一定的“污染”,表現(xiàn)在數(shù)據(jù)可能存在自身的不一致性,或者有缺失數(shù)據(jù)的存在等,從數(shù)據(jù)庫中檢索與分析任務(wù)相關(guān)的數(shù)據(jù),確保數(shù)據(jù)能夠真實(shí)反映待挖掘的對象,因此數(shù)據(jù)的整理是必需的。數(shù)據(jù)挖掘通過匯總或聚集操作將數(shù)據(jù)變換或統(tǒng)一成適合挖掘的形式,可單獨(dú)利用也可綜合利用各種數(shù)據(jù)挖掘方法對數(shù)據(jù)進(jìn)行分析,挖掘用戶所需要的各種規(guī)則、趨勢、類別、模型等。
結(jié)果評估數(shù)據(jù)挖掘的結(jié)果有些是有實(shí)際意義的,而有些是沒有實(shí)際意義的,這就需要進(jìn)行評估。這樣對發(fā)現(xiàn)的規(guī)則、趨勢、類別、模型進(jìn)行評估,可以保證發(fā)現(xiàn)的模式的正確性。
分析決策數(shù)據(jù)挖掘的最終目的是輔助決策。決策者可以根據(jù)數(shù)據(jù)挖掘的結(jié)果,結(jié)合實(shí)際情況,調(diào)整競爭策略等,并將挖掘結(jié)果以可視化的形式展現(xiàn)在用戶面前。
(四)數(shù)據(jù)挖掘的模型
數(shù)據(jù)挖掘模型在本質(zhì)上可分為預(yù)測型模型與描述型模型兩類,其模型結(jié)構(gòu)框圖如圖2所示。從圖2中可以看出,每類模型下都包含一些需要用到該類模型的最常用的數(shù)據(jù)挖掘任務(wù)。預(yù)測型模型對數(shù)據(jù)的值進(jìn)行預(yù)測,能夠完成的數(shù)據(jù)挖掘任務(wù)包括分類、回歸、時間序列分析和預(yù)測。描述型模型對數(shù)據(jù)中的模式或關(guān)系進(jìn)行辨識。與預(yù)測型模型不同,描述型模型提供了一種探索被分析數(shù)據(jù)的性質(zhì)的方法,而不是預(yù)測新的性質(zhì)。聚類、匯總、關(guān)聯(lián)規(guī)則和序列發(fā)現(xiàn)在本質(zhì)上都通常被視為描述型模型。
數(shù)據(jù)挖掘技術(shù)的應(yīng)用
(一)教學(xué)管理方面
職校學(xué)生的知識結(jié)構(gòu)和學(xué)習(xí)風(fēng)格是學(xué)校學(xué)生的基本特征。知識結(jié)構(gòu)說明了學(xué)生對正在或?qū)⒁獙W(xué)習(xí)知識的掌握情況,主要包括學(xué)生初始技能、當(dāng)前技能和目標(biāo)技能。學(xué)習(xí)風(fēng)格包括學(xué)生的生理特征、心理特征和社會特征三個方面。利用數(shù)據(jù)挖掘功能分析學(xué)生特征,掌握學(xué)習(xí)者的狀態(tài),目的在于幫助學(xué)習(xí)者修正自己的學(xué)習(xí)行為。通過對學(xué)生特征分析結(jié)果和事先制定的行為目標(biāo)標(biāo)準(zhǔn)進(jìn)行比較,教師能夠幫助學(xué)習(xí)者修正學(xué)習(xí)行為,提高學(xué)習(xí)能力,完善人格,因材施教,有利于學(xué)生各方面素質(zhì)和諧發(fā)展。隨著計(jì)算機(jī)在教學(xué)管理方面的廣泛應(yīng)用,學(xué)生和教師的學(xué)習(xí)、工作、獎勵、處罰等信息被存儲在教學(xué)管理數(shù)據(jù)庫中。例如,學(xué)生入學(xué)后,在校學(xué)生管理數(shù)據(jù)庫中存放有大量的學(xué)生檔案,包括的內(nèi)容有家庭情況、身體狀況、入校前后的學(xué)習(xí)成績、特長愛好、獎懲等信息。利用數(shù)據(jù)挖掘的關(guān)聯(lián)分析和演變分析等功能,在學(xué)生管理數(shù)據(jù)庫中挖掘有價值的數(shù)據(jù),分析學(xué)生的日常行為,可得知各種行為活動之間的內(nèi)在聯(lián)系。
(二)教學(xué)評價方面
教學(xué)評價是世界教育科學(xué)研究三大研究領(lǐng)域之一。教學(xué)評價的技術(shù)水平是衡量一個國家教育發(fā)展水平的重要尺度。教學(xué)評價就是根據(jù)教學(xué)目標(biāo)和教學(xué)原則的要求,系統(tǒng)地收集信息,對教學(xué)過程中的教學(xué)活動以及教學(xué)成果給予價值判斷的過程。其內(nèi)容主要包括對學(xué)生“學(xué)”的評價和對教師“教”的評價。
目前,職業(yè)教育評價指標(biāo)主要包括學(xué)生綜合測評指標(biāo)和課堂教學(xué)評價指標(biāo),這些評價指標(biāo)多數(shù)是參考國內(nèi)外相關(guān)評價指標(biāo)體系并結(jié)合實(shí)際操作中的經(jīng)驗(yàn)和調(diào)查問卷等制定的,對于各項(xiàng)指標(biāo)之間的關(guān)系、重要程度以及指標(biāo)存在的合理性等方面很難作出判斷,將關(guān)聯(lián)規(guī)則和粗糙集理論應(yīng)用于各評價系統(tǒng),可以對指標(biāo)進(jìn)行排序、約簡等,在一定程度上對評價指標(biāo)進(jìn)行優(yōu)化,可以找到比較合理且簡單易行的評價指標(biāo)體系。另一方面,學(xué)習(xí)評價是教育工作者的重要職責(zé)之一。評定學(xué)生的學(xué)習(xí)行為,既可對學(xué)生起到信息反饋和激發(fā)學(xué)習(xí)動機(jī)的作用,又是檢查課程計(jì)劃、教學(xué)程序以至教學(xué)目的的手段,也是考查學(xué)生個別差異,便于因材施教的途徑。評價要遵循“評價內(nèi)容要全面、評價方式要多元化、多次化、注重自評與互評的有機(jī)結(jié)合”的原則。在教學(xué)科研網(wǎng)絡(luò)普遍建立的今天,利用數(shù)據(jù)挖掘工具對學(xué)生的學(xué)習(xí)成績數(shù)據(jù)庫、行為記錄數(shù)據(jù)庫、獎勵處罰數(shù)據(jù)庫等進(jìn)行分析處理,可以及時得到學(xué)生的評價結(jié)果,對學(xué)生出現(xiàn)的不良學(xué)習(xí)行為進(jìn)行及時指正。同時,還能夠克服教師主觀評價的不公正、不客觀的弱點(diǎn),減輕教師的工作量。
因此,將關(guān)聯(lián)規(guī)則運(yùn)用于教學(xué)評價數(shù)據(jù)中,探討教學(xué)效果的好壞與教師年齡、職稱之間的關(guān)系、學(xué)生各項(xiàng)素質(zhì)指標(biāo)之間的關(guān)系等,用來及時地對教師的教學(xué)和專業(yè)發(fā)展以及學(xué)生的學(xué)習(xí)和個性發(fā)展提供指導(dǎo),這是非常有意義的。另外,教學(xué)評價在實(shí)施的過程中,更多的是注重評價的結(jié)果,以作為教師晉升、學(xué)生評優(yōu)等的依據(jù),很少考慮教學(xué)評價對教學(xué)過程的指導(dǎo)作用。
(三)課程設(shè)置方面
職業(yè)學(xué)校的課程設(shè)置有其一定的規(guī)律性,先基礎(chǔ),后專業(yè),學(xué)習(xí)是循序漸進(jìn)的。每學(xué)期要修的課程雖然有一定的規(guī)律,但也不是一成不變的。如何合理地設(shè)置每學(xué)期的課程,使之既顧全了大局,又兼顧局部需求是值得研究的問題。例如,同一年級在不同班級學(xué)習(xí)同一門課程時,學(xué)生的總體成績有時會相差很大,利用學(xué)校教學(xué)數(shù)據(jù)庫中存放的歷屆學(xué)生各門學(xué)科的考試成績,結(jié)合數(shù)據(jù)挖掘的關(guān)聯(lián)分析與時間序列分析等相關(guān)功能,就能從這些海量數(shù)據(jù)中挖掘出有用的信息,幫助分析這些數(shù)據(jù)之間的相關(guān)性、回歸性等性質(zhì),得出一些具有價值的規(guī)則和信息,最終找到影響學(xué)生成績的原因,并可在此基礎(chǔ)上,對課程設(shè)置做出合理安排。另外,在通常情況下,學(xué)生可以正常地修完本學(xué)期的課程,不會影響學(xué)生的學(xué)習(xí)效果。但個別學(xué)期出現(xiàn)的特殊情況如果處理不好,就會影響學(xué)習(xí)效果。
(四)教學(xué)過程與方法方面
在教學(xué)過程中,教師通常采用多種教學(xué)方法完成對本門課程的教學(xué)任務(wù),如講授法、討論法、案例法、多媒體輔助法、實(shí)驗(yàn)對比法、調(diào)查法、參觀學(xué)習(xí)法等等。這些大量的教學(xué)班次實(shí)踐過的經(jīng)驗(yàn)存放于教學(xué)數(shù)據(jù)庫中,可以用數(shù)據(jù)挖掘的方法來挖掘數(shù)據(jù)庫中的數(shù)據(jù),判定面臨的教學(xué)班應(yīng)該采取什么教學(xué)方法才能滿足教學(xué)需要,更有利于學(xué)生對知識的理解和吸收。課程結(jié)束后將每個學(xué)生的成績和對教學(xué)方法的評價進(jìn)行綜合,運(yùn)用回歸線性分析、關(guān)聯(lián)規(guī)則的方法來判斷本次教學(xué)方法適合哪一類學(xué)生,對于分類、分層次教學(xué)具有推廣和指導(dǎo)意義。
考試是對教學(xué)效果的檢驗(yàn),是教學(xué)中必不可少的環(huán)節(jié)之一,能否對教和學(xué)起到促進(jìn)作用,在很大程度上取決于試題質(zhì)量的好壞。因此,探索有效的方法來評價試題的質(zhì)量在實(shí)際教學(xué)過程中有重要的意義。目前,大多數(shù)學(xué)校只是簡單地根據(jù)學(xué)生的考試成績畫出成績分布曲線,如果是正態(tài)分布則認(rèn)為試題的難易度和區(qū)分度基本符合要求。這種評價方法給出的是對試題質(zhì)量的粗略評價,對實(shí)際教學(xué)沒有起到很好的促進(jìn)和指導(dǎo)作用。將數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則應(yīng)用于試卷分析數(shù)據(jù)庫,根據(jù)學(xué)生得分情況可以分析出每道題的難易度、區(qū)分度、相關(guān)度等指標(biāo),教師據(jù)此可以對試題的質(zhì)量作出比較準(zhǔn)確的評價,進(jìn)而可以用來檢查自己的教學(xué)情況及學(xué)生的掌握情況并為今后的教學(xué)提供指導(dǎo)。
數(shù)據(jù)挖掘技術(shù)采用比較成熟和科學(xué)的分析方法,在將其引入教學(xué)時也必須充分處理好其他因素,比如調(diào)查問卷的合理度、反饋結(jié)果的真實(shí)度、數(shù)據(jù)量的大小是否足以進(jìn)行挖掘、不同學(xué)科的課程特點(diǎn)及挖掘結(jié)果的可信度等等,這樣才能更充分地挖掘?qū)W生的潛力,提高教學(xué)效率,優(yōu)化教學(xué)策略和評估教學(xué)效果。因此,數(shù)據(jù)挖掘技術(shù)經(jīng)過在教育領(lǐng)域中應(yīng)用功能及技術(shù)的不斷發(fā)展和完善,必將發(fā)揮越來越大的作用,并且隨著人們對這一技術(shù)的關(guān)注,相信其在教育領(lǐng)域的應(yīng)用范圍會越來越廣,其對教育的改革和發(fā)展必將起到巨大的推動作用。
[1]朱明.數(shù)據(jù)挖掘[M].北京:中國科技大學(xué)出版社,2002.
[2]張玉林.數(shù)據(jù)挖掘技術(shù)在教學(xué)過程中的指導(dǎo)作用[J].西安通信學(xué)院學(xué)報(bào),2006,5(2):38-40.
[3]于承敏.數(shù)據(jù)挖掘(Data Mining)技術(shù)運(yùn)用于教育領(lǐng)域之探討[J].聊城大學(xué)學(xué)報(bào),2005,18(2):79-82.
[4]李紅艷.數(shù)據(jù)挖掘及其運(yùn)用于教學(xué)評價的設(shè)想[J].襄樊職業(yè)技術(shù)學(xué)院學(xué)報(bào),2003,2(1):142-45.
[5]林陽.數(shù)據(jù)挖掘在教育信息化中的潛在價值[J].現(xiàn)代教育技術(shù),2002,(1):65-69.