數(shù)據(jù)挖掘(數(shù)據(jù)挖掘),簡單來說就是從大量的數(shù)據(jù)中提取or挖掘知識。首先要明確的是數(shù)據(jù)挖掘object可以來自任何數(shù)據(jù) source。經(jīng)過適當(dāng)?shù)母袷睫D(zhuǎn)換等預(yù)處理后,根據(jù)應(yīng)用需求選擇相應(yīng)的算法。最常見的數(shù)據(jù)來源類型如下:關(guān)系型數(shù)據(jù)庫型、數(shù)據(jù)倉庫型、事務(wù)型數(shù)據(jù)庫型、面向?qū)ο笮蛿?shù)據(jù)庫型。-3/圖書館,多媒體 數(shù)據(jù)圖書館,混合數(shù)據(jù)圖書館,歷史數(shù)據(jù)圖書館,互聯(lián)網(wǎng)信息。
2) 數(shù)據(jù)集成:即多源數(shù)據(jù) is集成(可采用數(shù)據(jù)倉庫技術(shù));3) 數(shù)據(jù)篩選:摘錄數(shù)據(jù)與分析任務(wù)相關(guān);4)數(shù)據(jù)Convert:數(shù)據(jù)轉(zhuǎn)換或合并成適當(dāng)?shù)男问奖阌谕诰颍?) 數(shù)據(jù) 挖掘:用智能的方法提取數(shù)據(jù)中隱藏的模式和知識;6)模式評估:按照一定的值標(biāo)準(zhǔn)對挖掘的結(jié)果進(jìn)行評估;7)知識表達(dá):可視化采用知識表達(dá)技術(shù)表達(dá)挖掘結(jié)果。
4、淺談 數(shù)據(jù) 挖掘在情報(bào)學(xué)領(lǐng)域中的應(yīng)用(新疆烏魯木齊市新疆財(cái)經(jīng)大學(xué)圖書館)摘要:介紹了數(shù)據(jù) 挖掘的含義及其與傳統(tǒng)的數(shù)據(jù)分析的區(qū)別,探討了其在情報(bào)研究領(lǐng)域的應(yīng)用。關(guān)鍵詞:數(shù)據(jù)挖掘;信息科學(xué);信息檢索;圖書館信息服務(wù)分類編號。:G350.7文件識別碼:A貨號:10076921 (2009) 07030302 1信息科學(xué)領(lǐng)域面臨的問題1.1資源全球化可以說,互聯(lián)網(wǎng)是世界上最大的信息資源庫,資源類型多樣,包括教育網(wǎng)站、虛擬圖書館、虛擬軟件庫等。,為收集所需信息提供了便利和可能。
另外,海量網(wǎng)絡(luò)數(shù)據(jù)的出現(xiàn),使得提取有用信息變得困難。1.2 數(shù)據(jù)呈現(xiàn)非結(jié)構(gòu)化就大量的視頻、音頻、動畫等非結(jié)構(gòu)化數(shù)據(jù)而言,現(xiàn)有的搜索方式對這類數(shù)據(jù)并不有效。只有數(shù)據(jù)挖掘technology能夠高效地檢索、處理和分析海量結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)。1.3信息需求的個(gè)性化需求的個(gè)性化使得傳統(tǒng)的一對多的信息服務(wù)模式越來越不適應(yīng)時(shí)代的要求。
5、 數(shù)據(jù) 挖掘概念綜述數(shù)據(jù) 挖掘概念總結(jié)數(shù)據(jù)挖掘又名KDD(知識發(fā)現(xiàn))來自數(shù)據(jù)圖書館、。KDD一詞最早出現(xiàn)在1989年8月舉行的第11屆國際聯(lián)合人工智能大會上。隨后,在1991年、1993年和1994年召開了KDD研討會,匯集了來自各個(gè)領(lǐng)域的研究人員和應(yīng)用程序開發(fā)人員,重點(diǎn)討論數(shù)據(jù)統(tǒng)計(jì)學(xué)、海量數(shù)據(jù)分析算法、知識表示和知識應(yīng)用。
1998年在美國紐約召開的第四屆知識發(fā)現(xiàn)和數(shù)據(jù) 挖掘國際會議,不僅進(jìn)行了學(xué)術(shù)討論,而且有30多家軟件公司展示了他們的數(shù)據(jù) 挖掘軟件產(chǎn)品,其中很多已經(jīng)在北美和歐洲。一、數(shù)據(jù) 挖掘1.1、數(shù)據(jù) 挖掘的歷史是什么近十年來,人們利用信息技術(shù)生產(chǎn)和收集數(shù)據(jù)的能力有了很大的提高。