因此,數(shù)據(jù)庫技術也相應地進入了“后關系數(shù)據(jù)庫時代”,發(fā)展到了基于網(wǎng)絡應用的非結構化數(shù)據(jù)庫時代。所謂非結構化數(shù)據(jù)庫,是指數(shù)據(jù)庫的變長記錄由若干個不可重復、可重復的字段組成,每個字段又可以由若干個不可重復、可重復的子字段組成。簡單來說,非結構化數(shù)據(jù)庫是一個具有可變字段的數(shù)據(jù)庫。
5、“數(shù)據(jù)倉庫之父”談如何處理非結構化數(shù)據(jù)雖然非結構化數(shù)據(jù)很難處理,但是它已經(jīng)存在很久了,絕對比計算機的歷史還要長。不信你想想圣經(jīng),埃及象形文字,卡馬河佛經(jīng),都是無結構數(shù)據(jù),歷史可想而知。這些非結構化的數(shù)據(jù)肯定比那些硅片要早。雖然搜索引擎已經(jīng)出現(xiàn)了一段時間,但它絕不像印刷時代那么古老。即使現(xiàn)在搜索引擎已經(jīng)很完善了,隨意處理非結構化數(shù)據(jù)信息的時代還沒有到來,至少現(xiàn)在還沒有。
無用的輸入,無用的輸出只有從數(shù)據(jù)倉庫中抽取非結構化數(shù)據(jù),搜索引擎才能釋放非結構化數(shù)據(jù)的真正價值。難以實現(xiàn)非結構化數(shù)據(jù)的集成。想想很久以前就提出的信息技術問題:無用信息輸入和無用信息輸出(GIGO),你就知道即使用功能強大的搜索引擎去處理那些本質上沒有經(jīng)過提煉和整合的數(shù)據(jù),會得到什么結果。搜索引擎的結果會告訴我們答案,返回給用戶的會是一些未經(jīng)提煉的無用信息。
6、什么是結構化數(shù)據(jù)和非結構化數(shù)據(jù)?什么是數(shù)據(jù)清洗?結構化數(shù)據(jù)就是一個簡單的數(shù)據(jù)庫。與結構化數(shù)據(jù)(即行數(shù)據(jù),存儲在數(shù)據(jù)庫中,可以用二維表結構進行邏輯表示)相比,不方便用數(shù)據(jù)庫的二維邏輯表表示的數(shù)據(jù)稱為非結構化數(shù)據(jù)。由于數(shù)據(jù)倉庫中的數(shù)據(jù)是面向某個主題的數(shù)據(jù)集合,這些數(shù)據(jù)是從多個業(yè)務系統(tǒng)中抽取出來的,并且包含歷史數(shù)據(jù),所以不可避免的會出現(xiàn)一些數(shù)據(jù)錯誤,一些數(shù)據(jù)相互沖突。這些錯誤或沖突的數(shù)據(jù)顯然是不想要的,被稱為“臟數(shù)據(jù)”。
結構化數(shù)據(jù)即行數(shù)據(jù)存儲在數(shù)據(jù)庫中,實現(xiàn)的數(shù)據(jù)可以用二維表結構進行邏輯表達。非結構化數(shù)據(jù),包括所有格式的辦公文檔、文本、圖片、XML、HTML、各種報表、圖像和音視頻信息等。所謂半結構化數(shù)據(jù)是介于完全結構化數(shù)據(jù)(如關系數(shù)據(jù)庫和面向對象數(shù)據(jù)庫中的數(shù)據(jù))和完全非結構化數(shù)據(jù)(如聲音和圖像文件)之間的數(shù)據(jù),HTML文檔屬于半結構化數(shù)據(jù)。
7、結構化數(shù)據(jù)和非結構化數(shù)據(jù)是什么意思總的來說,我們把數(shù)據(jù)類型分為結構化數(shù)據(jù)、半結構化數(shù)據(jù)和非結構化數(shù)據(jù)。結構化數(shù)據(jù)可以用數(shù)據(jù)或統(tǒng)一的結構來表示,如數(shù)字、字符和符號。結構化數(shù)據(jù)(Structured data)又稱行數(shù)據(jù),是以二維表結構進行邏輯表達和實現(xiàn)的數(shù)據(jù),嚴格遵循數(shù)據(jù)格式和長度規(guī)范,主要通過關系數(shù)據(jù)庫進行存儲和管理。半結構化數(shù)據(jù)是介于完全結構化數(shù)據(jù)(如關系數(shù)據(jù)庫和面向對象數(shù)據(jù)庫中的數(shù)據(jù))和完全非結構化數(shù)據(jù)(如聲音和圖像文件)之間的數(shù)據(jù),XML和HTML文檔屬于半結構化數(shù)據(jù)。
8、結構化數(shù)據(jù)和非結構化數(shù)據(jù)的區(qū)別結構化數(shù)據(jù)和非結構化數(shù)據(jù)的區(qū)別:定義不同,來源不同,形式不同,模型不同,存儲不同。1.定義不同的結構化數(shù)據(jù):結構化數(shù)據(jù)又稱行數(shù)據(jù),是以二維表結構進行邏輯表達和實現(xiàn)的數(shù)據(jù),嚴格遵循數(shù)據(jù)格式和長度規(guī)范,主要由關系數(shù)據(jù)庫進行存儲和管理。非結構化數(shù)據(jù):非結構化數(shù)據(jù)是數(shù)據(jù)結構不規(guī)則或不完整的數(shù)據(jù),沒有預定義的數(shù)據(jù)模型,不方便用數(shù)據(jù)庫的二維邏輯表來表示。
2.不同的結構化數(shù)據(jù)源:結構化數(shù)據(jù)源來自GPS傳感器、在線表單、web日志、Web服務器日志、OLTP系統(tǒng)等。非結構化數(shù)據(jù):非結構化數(shù)據(jù)源包括電子郵件、文字處理文檔、PDF文件等。3.不同形式的結構化數(shù)據(jù):結構化數(shù)據(jù)由數(shù)字和值組成。非結構化數(shù)據(jù):非結構化數(shù)據(jù)由傳感器、文本文件、音視頻文件等組成。4.不同的模型結構化數(shù)據(jù):結構化數(shù)據(jù)有一個預定義的數(shù)據(jù)模型,并在放入數(shù)據(jù)存儲之前被格式化成一個設定的數(shù)據(jù)結構(例如,寫時模式)。
9、什么是結構化數(shù)據(jù)非結構化數(shù)據(jù)和半結構化數(shù)據(jù)結構化數(shù)據(jù)(Structured data)又稱行數(shù)據(jù),是以二維表結構進行邏輯表達和實現(xiàn)的數(shù)據(jù),嚴格遵循數(shù)據(jù)格式和長度規(guī)范,主要通過關系數(shù)據(jù)庫進行存儲和管理。結構化數(shù)據(jù)標記是一種使網(wǎng)站更好地顯示在搜索結果中的方法。通過標記結構化數(shù)據(jù),網(wǎng)站可以在搜索結果中顯示豐富的web摘要。非結構化數(shù)據(jù)是數(shù)據(jù)結構不規(guī)則或不完整的數(shù)據(jù),沒有預定義的數(shù)據(jù)模型,不方便用數(shù)據(jù)庫的二維邏輯表來表示。
半結構化數(shù)據(jù)具有一定的結構,是一種適合數(shù)據(jù)庫集成的數(shù)據(jù)模型。也就是說,它適用于描述包含在兩個或兩個以上數(shù)據(jù)庫中的數(shù)據(jù)(以不同的模式包含相似的數(shù)據(jù)),它也是標記服務的基本模型,用于在Web上共享信息。擴展數(shù)據(jù):結構化數(shù)據(jù)的標記方法,用HTML代碼標記HTML代碼主要有三種方式:微數(shù)據(jù)、微格式和RDFa。但是對于一些外貿站來說,標簽主要是微數(shù)據(jù),微格式有時會用到,具體要看不使用的頁面類型。