午夜亚洲国产日本电影一区二区三区,九九久久99综合一区二区,国产一级毛片视频,草莓视频在线观看精品最新

加急見(jiàn)刊

CBR在因特網(wǎng)教育資源檢索中的應(yīng)用

佚名

摘要對(duì)因特網(wǎng)教育資源的檢索日益受到關(guān)注,而目前基于關(guān)鍵詞的檢索方法效率不高,特別是對(duì)多媒體資源的檢索顯得相形見(jiàn)絀,人們迫切需要一種對(duì)因特網(wǎng)教育資源,尤其是多媒體教育資源更為有效的檢索方法。基于內(nèi)容的檢索CBR(Content-Based Retrieval)應(yīng)運(yùn)而生。它的出現(xiàn)將對(duì)提高因特網(wǎng)教育資源檢索的質(zhì)量和效率起到積極作用。

關(guān)鍵詞內(nèi)容;多媒體;檢索;因特網(wǎng);教育資源.

Absract Because the rapid development of the Internet has resulted in increasing amount of educational resource,especially in multimedia forms,the methods of retrieval based on keywords are not satisfying.People need more efficient methods of educational resource retrieval in the Internet . Content-Based Retrieval(CBR) is an effort to handle this "educational resource explosion" problem. This paper presents a survey of current methods of resource retrieval in the Internet,then introduces the application of CBR in educational resource retrieval in the Internet and its great value.

Key words:content;multimedia;retrieval;the Internet;educational resource.

一、目前因特網(wǎng)教育資源檢索的局限性

目前對(duì)因特網(wǎng)教育資源的檢索方法可分為三類(lèi):主題目錄(subject directory)、搜索引擎(search engine)、元搜索引擎(metasearch engine)。主題目錄由人工收集、編排,雖然檢索結(jié)果更人性化,但效率低、周期長(zhǎng),無(wú)法適應(yīng)因特網(wǎng)資源龐大、變化快的特點(diǎn)。搜索引擎又分為自動(dòng)搜索(auto-retrieval)和全文檢索(full text retrieval)。自動(dòng)搜索依靠蜘蛛(Spider)、爬蟲(chóng)(Webcrawler)等搜索工具自動(dòng)完成,效率高、更新快,但Spider不能訪問(wèn)Cookie、JavaScript或Java技術(shù)制作的網(wǎng)頁(yè),建立包容所有因特網(wǎng)資源的數(shù)據(jù)庫(kù)也不現(xiàn)實(shí),且搜索結(jié)果往往不切題。全文檢索以文本信息為檢索對(duì)象,建立全文數(shù)據(jù)庫(kù),可以高效檢索海量非結(jié)構(gòu)化數(shù)據(jù),但不能有效過(guò)濾不相關(guān)內(nèi)容。元搜索引擎讓用戶同時(shí)搜索若干數(shù)據(jù)庫(kù)和搜索引擎,相對(duì)于單一搜索引擎它能查找到更多的資源,但由于必須兼顧不同搜索引擎,采用的是簡(jiǎn)單直接的搜索策略,反而失去了每個(gè)搜索引擎自身的特色。總之,現(xiàn)有一般檢索方法均是基于關(guān)鍵詞的檢索,由于關(guān)鍵詞標(biāo)引工作量大,而標(biāo)引同用戶的檢索概念常常不一致,導(dǎo)致查準(zhǔn)率和查全率低。目前最好的搜索引擎其全球網(wǎng)頁(yè)覆蓋率還不到五成。雖然因特網(wǎng)這個(gè)世界最大的信息資源庫(kù)為我們提供了極為豐富的教育資源,但現(xiàn)有的檢索方法并沒(méi)有使我們能有效地加以利用,我們常常感?quot;生活在信息的海洋中,卻忍受著知識(shí)的饑渴。"

未來(lái)因特網(wǎng)的發(fā)展使這種檢索方法的局限性日益凸現(xiàn)。首先,因特網(wǎng)海量數(shù)據(jù)的產(chǎn)生。因特網(wǎng)每天新添150萬(wàn)個(gè)文件,8個(gè)月增長(zhǎng)1倍,其網(wǎng)頁(yè)遍及全球300萬(wàn)個(gè)服務(wù)器,總數(shù)將由1997年2月的3.2億猛增至2002年的80億。利用現(xiàn)有的檢索技術(shù)要在這以指數(shù)形式不斷增長(zhǎng)的資源數(shù)據(jù)庫(kù)中提取所需如同大海撈針。其次,非結(jié)構(gòu)化數(shù)據(jù)大量涌現(xiàn)。因特網(wǎng)的資源可分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)能用數(shù)據(jù)或統(tǒng)一的結(jié)構(gòu)加以表示,如數(shù)字、符號(hào)等。非結(jié)構(gòu)化數(shù)據(jù)則不能,如圖像、聲音、視頻等。這類(lèi)數(shù)據(jù)的特征,如圖像中的顏色、紋理,視頻中的鏡頭、場(chǎng)景,聲音中的音調(diào)、音色等雖可賦予名字、文件格式、采樣率等屬性,但其中沒(méi)有可確認(rèn)的詞或可比較的實(shí)體,不能像文本那樣搜索其內(nèi)容,因此很難用現(xiàn)有基于關(guān)鍵詞的檢索方法檢索。當(dāng)然可以人工輸入其屬性和描述來(lái)彌補(bǔ),但隨著數(shù)據(jù)量的增大人工注釋的強(qiáng)度也將加大。而且,人對(duì)非結(jié)構(gòu)化數(shù)據(jù)的感知,如音樂(lè)的旋律很難付諸文字。第三,新一代高速因特網(wǎng)的出現(xiàn)對(duì)基于內(nèi)容的多媒體信息檢索提出了迫切要求。1996年美國(guó)啟動(dòng)的NGI(Next Generation Internet)計(jì)劃目標(biāo)是實(shí)現(xiàn)端到端的傳送速率比目前的Internet快成百至上千倍,可達(dá)到100Mbps至1Gbps,實(shí)現(xiàn)大量交互式多媒體的高速傳送,構(gòu)建可視化、合作型虛擬現(xiàn)實(shí)(VR)和3D虛擬環(huán)境。今年8月國(guó)家863計(jì)劃中被稱(chēng)為寬帶互聯(lián)網(wǎng)"心臟"的核心路由器項(xiàng)目正式通過(guò)了國(guó)家科技部組織的驗(yàn)收,標(biāo)志著我國(guó)新一代高速互聯(lián)網(wǎng)"中國(guó)高速信息示范網(wǎng)"的攻堅(jiān)戰(zhàn)基本完成。這個(gè)高速信息實(shí)驗(yàn)網(wǎng)以IP技術(shù)為基礎(chǔ),將計(jì)算機(jī)、電信和電視網(wǎng)三網(wǎng)合一,將使以電路交換技術(shù)為基礎(chǔ)的傳統(tǒng)電信網(wǎng)逐漸退出歷史舞臺(tái)。總之,未來(lái)的因特網(wǎng)將是以人為中心,支持服務(wù)質(zhì)量控制(QoS),實(shí)現(xiàn)多用戶多媒體實(shí)時(shí)交互,這就要求在資源檢索方面,用基于內(nèi)容的多媒體檢索取代傳統(tǒng)基于關(guān)鍵字的檢索。

二、基于內(nèi)容的檢索CBR

基于內(nèi)容的檢索CBR(Content-Based Retrieval)是根據(jù)媒體和媒體對(duì)象的內(nèi)容語(yǔ)義及上下文聯(lián)系進(jìn)行檢索。它具有如下特點(diǎn):(1)直接對(duì)圖像、視頻、音頻等媒體內(nèi)容進(jìn)行分析,抽取特征和語(yǔ)義建立索引,進(jìn)行檢索。(2) 放棄常規(guī)數(shù)據(jù)庫(kù)檢索中的精確匹配方法,而采用相似性匹配的方法逐步迭代求精獲得檢索結(jié)果。(3)能對(duì)大型多媒體數(shù)據(jù)庫(kù)進(jìn)行快速檢索。(4) 采用多種檢索手段,除提取多媒體內(nèi)容特征進(jìn)行檢索外,還提供了其它檢索手段,如通過(guò)提供樣本圖像進(jìn)行相似性檢索,或通過(guò)人機(jī)交互進(jìn)行瀏覽檢索。

完整的CBR系統(tǒng)一般由兩個(gè)子系統(tǒng)構(gòu)成,即數(shù)據(jù)庫(kù)生成子系統(tǒng)和檢索子系統(tǒng)。每個(gè)子系統(tǒng)由相應(yīng)的功能模塊和部件組成,包括:(1)對(duì)象標(biāo)識(shí)、(2)特征提取、(3)數(shù)據(jù)庫(kù)、(4)用戶檢索和瀏覽接口、(5)搜索引擎、(6)索引和過(guò)濾器。

對(duì)因特網(wǎng)多媒體資源的CBR檢索歷經(jīng)特征調(diào)整、重新匹配、逐步求精的循環(huán)過(guò)程:(1)最初用戶可用檢索語(yǔ)言形成一個(gè)初始化的檢索,系統(tǒng)提取該示例的特征或把檢索描述映射為具體的特征矢量。(2)將檢索特征與特征庫(kù)中特征按一定匹配算法進(jìn)行相似匹配。(3)按相似度大小,將滿足一定相似條件的候選結(jié)果排序后反饋給用戶。(4)用戶挑選候選滿意的結(jié)果,或從候選結(jié)果中選擇一個(gè)示例,經(jīng)特征調(diào)整后形成新的檢索。(5)逐步縮小檢索范圍,直到用戶對(duì)檢索滿意為止。

對(duì)文本的檢索則采用直接對(duì)文本進(jìn)行任意字詞的檢索。根據(jù)實(shí)現(xiàn)方法不同,可分為串搜索、串匹配和全文檢索,以字和詞以及它們的邏輯組合為條件進(jìn)行檢索。

對(duì)圖形的檢索包括:(1)點(diǎn)檢索,查找某坐標(biāo)處的目標(biāo)。(2)線檢索,查找線狀目標(biāo)兩側(cè)的目標(biāo)。(3)區(qū)域檢索,查找某區(qū)域內(nèi)的圖形目標(biāo)。(4)關(guān)聯(lián)檢索,利用兩個(gè)或多個(gè)圖形對(duì)象之間的空間和拓?fù)潢P(guān)系來(lái)檢索。

對(duì)圖像的檢索是基于圖像的顏色、紋理、形狀以及圖像中子圖像等特征,包括:(1)顏色檢索,檢索與用戶指定顏色相似的圖像。(2)紋理檢索,檢索具有相似紋理的圖像。(3)形狀檢索,用戶選擇形狀或勾勒草圖,利用形狀特征或匹配主要邊界進(jìn)行檢索。(4)圖像對(duì)象檢索,對(duì)圖像中所包含的靜態(tài)子對(duì)象進(jìn)行查詢(xún)。

對(duì)視頻的檢索可分為基于鏡頭、場(chǎng)景、關(guān)鍵幀、運(yùn)動(dòng)的檢索。關(guān)鍵幀是一幅幅圖像,可以采用與圖像檢索相似的方法。一旦檢索到目標(biāo)關(guān)鍵幀,用戶可利用播放來(lái)觀看它代表的視頻片斷。而鏡頭表示一個(gè)攝像機(jī)的移動(dòng)操作、一個(gè)事件或連續(xù)的動(dòng)作,由一個(gè)或多個(gè)關(guān)鍵幀構(gòu)成。場(chǎng)景又由若干個(gè)鏡頭構(gòu)成。基于運(yùn)動(dòng)的檢索,是利用鏡頭和視頻對(duì)象的時(shí)間特征檢索,可檢索攝像機(jī)的移動(dòng)操作和場(chǎng)景移動(dòng),以及用運(yùn)動(dòng)方向和運(yùn)動(dòng)幅度等。

對(duì)音頻的檢索是將音頻分為三類(lèi):波形聲音、語(yǔ)音、音樂(lè),分別對(duì)應(yīng)物理樣本級(jí)、聲學(xué)特征級(jí)和語(yǔ)義級(jí),利用聲學(xué)的和主觀的特性進(jìn)行檢索。聲音的一些感知特性,如音調(diào)、響度、音色等,與音頻信號(hào)的測(cè)量屬性非常接近,在音頻數(shù)據(jù)庫(kù)中記錄這些特征,并利用這些特征進(jìn)行示例和指定特征值檢索。

2001年11月MPEG組織將推出針對(duì)基于內(nèi)容多媒體信息檢索的MPEG-7,其正式命名為"多媒體內(nèi)容描述接口",它將規(guī)定一套可用于描述各種多媒體信息的描述符標(biāo)準(zhǔn),支持用戶對(duì)多媒體資源進(jìn)行快速、有效的檢索。MPEG-7將多媒體信息描述標(biāo)準(zhǔn)化,并解構(gòu)成語(yǔ)義上的層次。以視頻為例,最底層的語(yǔ)義描述是形狀、大小、顏色、運(yùn)動(dòng)等信息,而最高層的語(yǔ)義描述可以是"畫(huà)面中一個(gè)小女孩在草地上嬉戲,背景聲為歡快的兒歌。"介于這兩層之間的是中層語(yǔ)義描述。一般來(lái)說(shuō),底層語(yǔ)義由全自動(dòng)方式提取,高層語(yǔ)義則需要較多人工介入。除了內(nèi)容描述,描述還包括:格式、獲得資料的條件、分類(lèi)、與其它相關(guān)資料的連接以及上下文信息等。通過(guò)MPEG-7可實(shí)現(xiàn)視頻數(shù)據(jù)庫(kù)的存儲(chǔ)和檢索、專(zhuān)業(yè)媒體制作中圖片和視頻提交、用戶代理驅(qū)動(dòng)的媒體選擇和過(guò)濾、個(gè)性化瀏覽等。

目前已經(jīng)出現(xiàn)了許多專(zhuān)門(mén)針對(duì)多媒體的搜索引擎,其中包括較為成熟的CBR產(chǎn)品,例如IBM公司研制的QBIC( Query By lmage Content)圖像檢索系統(tǒng)、Columbia 大學(xué)開(kāi)發(fā)的專(zhuān)門(mén)用于因特網(wǎng)上圖像檢索的WebSeek、Excalib公司的ImageRetrievalWare、VisionNext公司推出的 eefind圖像搜索引擎,東北大學(xué)軟件中心研?quot;分布式多媒體信息系統(tǒng)"也采用了基于內(nèi)容的多媒體檢索技術(shù)。

三、CBR在因特網(wǎng)教育資源檢索中的應(yīng)用

一方面,因特網(wǎng)的無(wú)限容量為我們采集各種教育資源提供了可能,但其無(wú)序組織又使檢索工作具有相當(dāng)難度。此外,我國(guó)用戶還會(huì)碰到諸如信道擁擠、上網(wǎng)費(fèi)用高、語(yǔ)言和文化障礙等難題。采用CBR的檢索方法無(wú)疑將會(huì)使這一問(wèn)題大為改觀。尤其是對(duì)因特網(wǎng)多媒體教育資源的檢索將會(huì)更加方便。例如,歷史教師可以借助CBR技術(shù),通過(guò)輸入"I hava a dream"來(lái)查找馬丁·路德·金那次著名演講的視頻或音頻資料。

CBR在因特網(wǎng)教育資源檢索中的應(yīng)用不同于其一般的應(yīng)用,我們應(yīng)著重其教育的特點(diǎn)。根據(jù)目的不同,對(duì)因特網(wǎng)教育資源的檢索可分為基于因特網(wǎng)資源學(xué)習(xí)的檢索、基于因特網(wǎng)資源教學(xué)開(kāi)發(fā)的檢索和基于因特網(wǎng)資源教育研究的檢索。基于因特網(wǎng)資源學(xué)習(xí)體現(xiàn)了一種教育哲學(xué),學(xué)習(xí)者借助因特網(wǎng)豐富的學(xué)習(xí)資源在獲取知識(shí)的同時(shí)掌握學(xué)習(xí)的方法,迎合了當(dāng)今終身學(xué)習(xí)的趨勢(shì),但因特網(wǎng)上也存在著大量信息垃圾、信息病毒,尤其針對(duì)青少年學(xué)習(xí)者應(yīng)在CBR中內(nèi)嵌自動(dòng)跟蹤用戶使用不當(dāng)?shù)那闆r,屏蔽、過(guò)濾不良信息的功能,或者對(duì)學(xué)習(xí)者可檢索的資源事先進(jìn)行預(yù)處理,圈定合適的范圍。基于因特網(wǎng)資源教學(xué)開(kāi)發(fā)意味著對(duì)教師而言最佳的CBR應(yīng)具有內(nèi)嵌整合不同教學(xué)策略的功能,是基于教學(xué)策略和資源采集兩者基礎(chǔ)上的內(nèi)容檢索。目前越來(lái)越多的科研機(jī)構(gòu)和公司選擇多媒體形式發(fā)布其最新研究成果,而不局限于文字著作,因此基于因特網(wǎng)資源教育研究檢索的核心是建立與多媒體檢索相適應(yīng)的文獻(xiàn)數(shù)據(jù)庫(kù),并且革新傳統(tǒng)的B+樹(shù)索引,采用與非結(jié)構(gòu)數(shù)據(jù)庫(kù)相適應(yīng)的索引方法,如國(guó)信貝斯公司提出的B*樹(shù)概念等。

目前還沒(méi)有專(zhuān)門(mén)針對(duì)因特網(wǎng)教育資源檢索的CBR產(chǎn)品,難點(diǎn)在于CBR中特征提取和語(yǔ)義獲取、基于內(nèi)容編碼、查詢(xún)說(shuō)明模式等關(guān)鍵技術(shù)還有待進(jìn)一步研究,又涉及教育的特定要求。但CBR無(wú)疑是未來(lái)因特網(wǎng)教育資源檢索的一個(gè)趨勢(shì),它的出現(xiàn)必將推動(dòng)我們對(duì)因特網(wǎng)教育資源更加有效的利用。

[1] 祝智庭.因特網(wǎng)教育資源利用.北京:高等教育出版社,2001年.

[2] 張彥民.基于內(nèi)容的檢索技術(shù).北京:情報(bào)學(xué)報(bào),1999年12期.

[3] 鐘玉琢.多媒體計(jì)算機(jī)技術(shù).北京:清華大學(xué)出版社,1993年.

下載