在信息社會,信息可以分為兩類。一類信息可以用數(shù)據(jù)或者統(tǒng)一的結(jié)構來表示,我們稱之為結(jié)構化 data,比如數(shù)字和符號;另一種信息,如文本、圖像、聲音、網(wǎng)頁等。,不能用數(shù)字或者統(tǒng)一的結(jié)構來表示。我們稱之為非結(jié)構化數(shù)據(jù)。結(jié)構化 data屬于非結(jié)構化 data,而且是非結(jié)構化 data。
管理結(jié)構化data relation數(shù)據(jù)庫的局限性暴露得越來越明顯。因此,數(shù)據(jù)庫技術也相應地進入了“后關系數(shù)據(jù)庫時代”。已經(jīng)進入了基于網(wǎng)絡應用的非結(jié)構化 數(shù)據(jù)庫時代。所謂非-結(jié)構化 數(shù)據(jù)庫是指數(shù)據(jù)庫的變長記錄由幾個不可重復的字段組成。
7、什么是 結(jié)構化數(shù)據(jù),非 結(jié)構化數(shù)據(jù)和半 結(jié)構化數(shù)據(jù)與結(jié)構化 data(即行數(shù)據(jù)存儲在數(shù)據(jù)庫中,實現(xiàn)的數(shù)據(jù)可以用二維表結(jié)構進行邏輯表示)相比,不便用數(shù)據(jù)庫二維邏輯表表示的數(shù)據(jù)稱為non-。字段可以根據(jù)需要進行擴展,即字段個數(shù)不確定,可以稱為semi 結(jié)構化 data,比如存儲在Exchange中的數(shù)據(jù)。
一類信息可以用數(shù)據(jù)或者統(tǒng)一的結(jié)構來表示,我們稱之為結(jié)構化 data,比如數(shù)字和符號;另一種信息,如文本、圖像、聲音、網(wǎng)頁等。,不能用數(shù)字或統(tǒng)一的結(jié)構來表示,我們稱之為非結(jié)構化 data。結(jié)構化數(shù)據(jù)屬于非-結(jié)構化數(shù)據(jù),是非-結(jié)構化數(shù)據(jù)的特例。顧名思義,數(shù)據(jù)清洗就是把臟的“洗”掉。由于數(shù)據(jù)倉庫中的數(shù)據(jù)是面向某個主題的數(shù)據(jù)集合,這些數(shù)據(jù)是從多個業(yè)務系統(tǒng)中抽取出來的,并且包含歷史數(shù)據(jù),所以不可避免的會出現(xiàn)一些數(shù)據(jù)錯誤,一些數(shù)據(jù)相互沖突。這些錯誤或沖突的數(shù)據(jù)顯然是不想要的,被稱為“臟數(shù)據(jù)”。
8、非 結(jié)構化數(shù)據(jù)的云計算與非 結(jié)構化數(shù)據(jù)IDC的一份調(diào)查報告顯示,企業(yè)中80%的數(shù)據(jù)是真的還是假的結(jié)構化 data,這些數(shù)據(jù)每年以60%的指數(shù)級增長。Non-結(jié)構化 data顧名思義就是存儲在文件系統(tǒng)中的信息,而不是數(shù)據(jù)庫。據(jù)悉,平均只有1%和5%的數(shù)據(jù)是結(jié)構化。如今,未使用數(shù)據(jù)的快速增長消耗了企業(yè)中復雜而昂貴的主存儲的存儲容量。如何在全球范圍內(nèi)更好地保存不同類型的具有潛在價值的文檔,而不是因為處理它們而干擾日常工作?
云存儲是一種越來越多的IT公司正在使用的存儲技術。以下段落解釋了存儲在云中的業(yè)務信息的一些要點,員工面臨新挑戰(zhàn)的數(shù)據(jù)如何管理?當企業(yè)參與全球經(jīng)濟競爭時,IT員工面臨著讓分布在世界各地的員工有效訪問重要數(shù)據(jù)的新挑戰(zhàn)。全球分布的團隊需要共享對大型文件和數(shù)據(jù)集的讀寫訪問,但這顯然增加了data 管理的復雜性,此外,數(shù)據(jù)同步功能的不斷采用和準確性問題影響了企業(yè)的工作效率。