午夜亚洲国产日本电影一区二区三区,九九久久99综合一区二区,国产一级毛片视频,草莓视频在线观看精品最新

加急見刊

CBR在因特網教育資源檢索中的應用

佚名

摘要對因特網教育資源的檢索日益受到關注,而目前基于關鍵詞的檢索方法效率不高,特別是對多媒體資源的檢索顯得相形見絀,人們迫切需要一種對因特網教育資源,尤其是多媒體教育資源更為有效的檢索方法。基于內容的檢索CBR(Content-Based Retrieval)應運而生。它的出現將對提高因特網教育資源檢索的質量和效率起到積極作用。

關鍵詞內容;多媒體;檢索;因特網;教育資源.

Absract Because the rapid development of the Internet has resulted in increasing amount of educational resource,especially in multimedia forms,the methods of retrieval based on keywords are not satisfying.People need more efficient methods of educational resource retrieval in the Internet . Content-Based Retrieval(CBR) is an effort to handle this "educational resource explosion" problem. This paper presents a survey of current methods of resource retrieval in the Internet,then introduces the application of CBR in educational resource retrieval in the Internet and its great value.

Key words:content;multimedia;retrieval;the Internet;educational resource.

一、目前因特網教育資源檢索的局限性

目前對因特網教育資源的檢索方法可分為三類:主題目錄(subject directory)、搜索引擎(search engine)、元搜索引擎(metasearch engine)。主題目錄由人工收集、編排,雖然檢索結果更人性化,但效率低、周期長,無法適應因特網資源龐大、變化快的特點。搜索引擎又分為自動搜索(auto-retrieval)和全文檢索(full text retrieval)。自動搜索依靠蜘蛛(Spider)、爬蟲(Webcrawler)等搜索工具自動完成,效率高、更新快,但Spider不能訪問Cookie、JavaScript或Java技術制作的網頁,建立包容所有因特網資源的數據庫也不現實,且搜索結果往往不切題。全文檢索以文本信息為檢索對象,建立全文數據庫,可以高效檢索海量非結構化數據,但不能有效過濾不相關內容。元搜索引擎讓用戶同時搜索若干數據庫和搜索引擎,相對于單一搜索引擎它能查找到更多的資源,但由于必須兼顧不同搜索引擎,采用的是簡單直接的搜索策略,反而失去了每個搜索引擎自身的特色。總之,現有一般檢索方法均是基于關鍵詞的檢索,由于關鍵詞標引工作量大,而標引同用戶的檢索概念常常不一致,導致查準率和查全率低。目前最好的搜索引擎其全球網頁覆蓋率還不到五成。雖然因特網這個世界最大的信息資源庫為我們提供了極為豐富的教育資源,但現有的檢索方法并沒有使我們能有效地加以利用,我們常常感?quot;生活在信息的海洋中,卻忍受著知識的饑渴。"

未來因特網的發展使這種檢索方法的局限性日益凸現。首先,因特網海量數據的產生。因特網每天新添150萬個文件,8個月增長1倍,其網頁遍及全球300萬個服務器,總數將由1997年2月的3.2億猛增至2002年的80億。利用現有的檢索技術要在這以指數形式不斷增長的資源數據庫中提取所需如同大海撈針。其次,非結構化數據大量涌現。因特網的資源可分為結構化數據和非結構化數據。結構化數據能用數據或統一的結構加以表示,如數字、符號等。非結構化數據則不能,如圖像、聲音、視頻等。這類數據的特征,如圖像中的顏色、紋理,視頻中的鏡頭、場景,聲音中的音調、音色等雖可賦予名字、文件格式、采樣率等屬性,但其中沒有可確認的詞或可比較的實體,不能像文本那樣搜索其內容,因此很難用現有基于關鍵詞的檢索方法檢索。當然可以人工輸入其屬性和描述來彌補,但隨著數據量的增大人工注釋的強度也將加大。而且,人對非結構化數據的感知,如音樂的旋律很難付諸文字。第三,新一代高速因特網的出現對基于內容的多媒體信息檢索提出了迫切要求。1996年美國啟動的NGI(Next Generation Internet)計劃目標是實現端到端的傳送速率比目前的Internet快成百至上千倍,可達到100Mbps至1Gbps,實現大量交互式多媒體的高速傳送,構建可視化、合作型虛擬現實(VR)和3D虛擬環境。今年8月國家863計劃中被稱為寬帶互聯網"心臟"的核心路由器項目正式通過了國家科技部組織的驗收,標志著我國新一代高速互聯網"中國高速信息示范網"的攻堅戰基本完成。這個高速信息實驗網以IP技術為基礎,將計算機、電信和電視網三網合一,將使以電路交換技術為基礎的傳統電信網逐漸退出歷史舞臺。總之,未來的因特網將是以人為中心,支持服務質量控制(QoS),實現多用戶多媒體實時交互,這就要求在資源檢索方面,用基于內容的多媒體檢索取代傳統基于關鍵字的檢索。

二、基于內容的檢索CBR

基于內容的檢索CBR(Content-Based Retrieval)是根據媒體和媒體對象的內容語義及上下文聯系進行檢索。它具有如下特點:(1)直接對圖像、視頻、音頻等媒體內容進行分析,抽取特征和語義建立索引,進行檢索。(2) 放棄常規數據庫檢索中的精確匹配方法,而采用相似性匹配的方法逐步迭代求精獲得檢索結果。(3)能對大型多媒體數據庫進行快速檢索。(4) 采用多種檢索手段,除提取多媒體內容特征進行檢索外,還提供了其它檢索手段,如通過提供樣本圖像進行相似性檢索,或通過人機交互進行瀏覽檢索。

完整的CBR系統一般由兩個子系統構成,即數據庫生成子系統和檢索子系統。每個子系統由相應的功能模塊和部件組成,包括:(1)對象標識、(2)特征提取、(3)數據庫、(4)用戶檢索和瀏覽接口、(5)搜索引擎、(6)索引和過濾器。

對因特網多媒體資源的CBR檢索歷經特征調整、重新匹配、逐步求精的循環過程:(1)最初用戶可用檢索語言形成一個初始化的檢索,系統提取該示例的特征或把檢索描述映射為具體的特征矢量。(2)將檢索特征與特征庫中特征按一定匹配算法進行相似匹配。(3)按相似度大小,將滿足一定相似條件的候選結果排序后反饋給用戶。(4)用戶挑選候選滿意的結果,或從候選結果中選擇一個示例,經特征調整后形成新的檢索。(5)逐步縮小檢索范圍,直到用戶對檢索滿意為止。

對文本的檢索則采用直接對文本進行任意字詞的檢索。根據實現方法不同,可分為串搜索、串匹配和全文檢索,以字和詞以及它們的邏輯組合為條件進行檢索。

對圖形的檢索包括:(1)點檢索,查找某坐標處的目標。(2)線檢索,查找線狀目標兩側的目標。(3)區域檢索,查找某區域內的圖形目標。(4)關聯檢索,利用兩個或多個圖形對象之間的空間和拓撲關系來檢索。

對圖像的檢索是基于圖像的顏色、紋理、形狀以及圖像中子圖像等特征,包括:(1)顏色檢索,檢索與用戶指定顏色相似的圖像。(2)紋理檢索,檢索具有相似紋理的圖像。(3)形狀檢索,用戶選擇形狀或勾勒草圖,利用形狀特征或匹配主要邊界進行檢索。(4)圖像對象檢索,對圖像中所包含的靜態子對象進行查詢。

對視頻的檢索可分為基于鏡頭、場景、關鍵幀、運動的檢索。關鍵幀是一幅幅圖像,可以采用與圖像檢索相似的方法。一旦檢索到目標關鍵幀,用戶可利用播放來觀看它代表的視頻片斷。而鏡頭表示一個攝像機的移動操作、一個事件或連續的動作,由一個或多個關鍵幀構成。場景又由若干個鏡頭構成。基于運動的檢索,是利用鏡頭和視頻對象的時間特征檢索,可檢索攝像機的移動操作和場景移動,以及用運動方向和運動幅度等。

對音頻的檢索是將音頻分為三類:波形聲音、語音、音樂,分別對應物理樣本級、聲學特征級和語義級,利用聲學的和主觀的特性進行檢索。聲音的一些感知特性,如音調、響度、音色等,與音頻信號的測量屬性非常接近,在音頻數據庫中記錄這些特征,并利用這些特征進行示例和指定特征值檢索。

2001年11月MPEG組織將推出針對基于內容多媒體信息檢索的MPEG-7,其正式命名為"多媒體內容描述接口",它將規定一套可用于描述各種多媒體信息的描述符標準,支持用戶對多媒體資源進行快速、有效的檢索。MPEG-7將多媒體信息描述標準化,并解構成語義上的層次。以視頻為例,最底層的語義描述是形狀、大小、顏色、運動等信息,而最高層的語義描述可以是"畫面中一個小女孩在草地上嬉戲,背景聲為歡快的兒歌。"介于這兩層之間的是中層語義描述。一般來說,底層語義由全自動方式提取,高層語義則需要較多人工介入。除了內容描述,描述還包括:格式、獲得資料的條件、分類、與其它相關資料的連接以及上下文信息等。通過MPEG-7可實現視頻數據庫的存儲和檢索、專業媒體制作中圖片和視頻提交、用戶代理驅動的媒體選擇和過濾、個性化瀏覽等。

目前已經出現了許多專門針對多媒體的搜索引擎,其中包括較為成熟的CBR產品,例如IBM公司研制的QBIC( Query By lmage Content)圖像檢索系統、Columbia 大學開發的專門用于因特網上圖像檢索的WebSeek、Excalib公司的ImageRetrievalWare、VisionNext公司推出的 eefind圖像搜索引擎,東北大學軟件中心研?quot;分布式多媒體信息系統"也采用了基于內容的多媒體檢索技術。

三、CBR在因特網教育資源檢索中的應用

一方面,因特網的無限容量為我們采集各種教育資源提供了可能,但其無序組織又使檢索工作具有相當難度。此外,我國用戶還會碰到諸如信道擁擠、上網費用高、語言和文化障礙等難題。采用CBR的檢索方法無疑將會使這一問題大為改觀。尤其是對因特網多媒體教育資源的檢索將會更加方便。例如,歷史教師可以借助CBR技術,通過輸入"I hava a dream"來查找馬丁·路德·金那次著名演講的視頻或音頻資料。

CBR在因特網教育資源檢索中的應用不同于其一般的應用,我們應著重其教育的特點。根據目的不同,對因特網教育資源的檢索可分為基于因特網資源學習的檢索、基于因特網資源教學開發的檢索和基于因特網資源教育研究的檢索。基于因特網資源學習體現了一種教育哲學,學習者借助因特網豐富的學習資源在獲取知識的同時掌握學習的方法,迎合了當今終身學習的趨勢,但因特網上也存在著大量信息垃圾、信息病毒,尤其針對青少年學習者應在CBR中內嵌自動跟蹤用戶使用不當的情況,屏蔽、過濾不良信息的功能,或者對學習者可檢索的資源事先進行預處理,圈定合適的范圍。基于因特網資源教學開發意味著對教師而言最佳的CBR應具有內嵌整合不同教學策略的功能,是基于教學策略和資源采集兩者基礎上的內容檢索。目前越來越多的科研機構和公司選擇多媒體形式發布其最新研究成果,而不局限于文字著作,因此基于因特網資源教育研究檢索的核心是建立與多媒體檢索相適應的文獻數據庫,并且革新傳統的B+樹索引,采用與非結構數據庫相適應的索引方法,如國信貝斯公司提出的B*樹概念等。

目前還沒有專門針對因特網教育資源檢索的CBR產品,難點在于CBR中特征提取和語義獲取、基于內容編碼、查詢說明模式等關鍵技術還有待進一步研究,又涉及教育的特定要求。但CBR無疑是未來因特網教育資源檢索的一個趨勢,它的出現必將推動我們對因特網教育資源更加有效的利用。

[1] 祝智庭.因特網教育資源利用.北京:高等教育出版社,2001年.

[2] 張彥民.基于內容的檢索技術.北京:情報學報,1999年12期.

[3] 鐘玉琢.多媒體計算機技術.北京:清華大學出版社,1993年.

下載