强奸久久久久久久|草草浮力在线影院|手机成人无码av|亚洲精品狼友视频|国产国模精品一区|久久成人中文字幕|超碰在线视屏免费|玖玖欧洲一区二区|欧美精品无码一区|日韩无遮一区二区

首頁(yè) > 資訊 > 經(jīng)驗(yàn) > 可解釋性,數(shù)據(jù)挖掘?qū)垲?lèi)的數(shù)據(jù)要求是什么

可解釋性,數(shù)據(jù)挖掘?qū)垲?lèi)的數(shù)據(jù)要求是什么

來(lái)源:整理 時(shí)間:2023-08-20 13:32:57 編輯:智能門(mén)戶(hù) 手機(jī)版

本文目錄一覽

1,數(shù)據(jù)挖掘?qū)垲?lèi)的數(shù)據(jù)要求是什么

1. 可擴(kuò)展性(Scalability) 大多數(shù)來(lái)自于機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)領(lǐng)域的聚類(lèi)算法在處理數(shù)百條數(shù)據(jù)時(shí)能表現(xiàn)出高效率 2. 處理不同數(shù)據(jù)類(lèi)型的能力 數(shù)字型;二元類(lèi)型,分類(lèi)型/標(biāo)稱(chēng)型,序數(shù)型,比例標(biāo)度型等等 3. 發(fā)現(xiàn)任意形狀的能力 基于距離的聚類(lèi)算法往往發(fā)現(xiàn)的是球形的聚類(lèi),其實(shí)現(xiàn)實(shí)的聚類(lèi)是任意形狀的 4. 用于決定輸入?yún)?shù)的領(lǐng)域知識(shí)最小化 對(duì)于高維數(shù)據(jù),參數(shù)很難決定,聚類(lèi)的質(zhì)量也很難控制 5. 處理噪聲數(shù)據(jù)的能力 對(duì)空缺值、孤立點(diǎn)、數(shù)據(jù)噪聲不敏感 6. 對(duì)于輸入數(shù)據(jù)的順序不敏感 同一個(gè)數(shù)據(jù)集合,以不同的次序提交給同一個(gè)算法,應(yīng)該產(chǎn)生相似的結(jié)果 7. 高維度 高維度的數(shù)據(jù)往往比較稀松,而且高度傾斜 8. 基于約束的聚類(lèi) 找到既滿(mǎn)足約束條件,又具有良好聚類(lèi)特性的數(shù)據(jù)分組 9. 可解釋性和可用性 聚類(lèi)要和特定的語(yǔ)義解釋和應(yīng)用相聯(lián)系 相異度矩陣:存儲(chǔ)n個(gè)對(duì)象兩兩之間的近似性,也叫單模矩陣,行和列代表相同的實(shí)體

數(shù)據(jù)挖掘?qū)垲?lèi)的數(shù)據(jù)要求是什么

2,分類(lèi)器中可解釋性最弱的是

分類(lèi)是數(shù)據(jù)挖掘的一種非常重要的方法。分類(lèi)的概念是在已有數(shù)據(jù)的基礎(chǔ)上學(xué)會(huì)一個(gè)分類(lèi)函數(shù)或構(gòu)造出一個(gè)分類(lèi)模型(即我們通常所說(shuō)的分類(lèi)器(Classifier))。該函數(shù)或模型能夠把數(shù)據(jù)庫(kù)中的數(shù)據(jù)紀(jì)錄映射到給定類(lèi)別中的某一個(gè),從而可以應(yīng)用于數(shù)據(jù)預(yù)測(cè)??傊?,分類(lèi)器是數(shù)據(jù)挖掘中對(duì)樣本進(jìn)行分類(lèi)的方法的統(tǒng)稱(chēng),包含決策樹(shù)、邏輯回歸、樸素貝葉斯、神經(jīng)網(wǎng)絡(luò)等算法。分類(lèi)器的構(gòu)造和實(shí)施大體會(huì)經(jīng)過(guò)以下幾個(gè)步驟:選定樣本(包含正樣本和負(fù)樣本),將所有樣本分成訓(xùn)練樣本和測(cè)試樣本兩部分。在訓(xùn)練樣本上執(zhí)行分類(lèi)器算法,生成分類(lèi)模型。在測(cè)試樣本上執(zhí)行分類(lèi)模型,生成預(yù)測(cè)結(jié)果。根據(jù)預(yù)測(cè)結(jié)果,計(jì)算必要的評(píng)估指標(biāo),評(píng)估分類(lèi)模型的性能。幾種基本的分類(lèi)器?1.決策樹(shù)分類(lèi)器  提供一個(gè)屬性集合,決策樹(shù)通過(guò)在屬性集的基礎(chǔ)上作出一系列的決策,將數(shù)據(jù)分類(lèi)。這個(gè)過(guò)程類(lèi)似于通過(guò)一個(gè)植物的特征來(lái)辨認(rèn)植物??梢詰?yīng)用這樣的分類(lèi)器來(lái)判定某人的信用程度,比如,一個(gè)決策樹(shù)可能會(huì)斷定“一個(gè)有家、擁有一輛價(jià)值在1.5 萬(wàn)到2.3 萬(wàn)美元之間的轎車(chē)、有兩個(gè)孩子的人”擁有良好的信用。決策樹(shù)生成器從一個(gè)“訓(xùn)練集”中生成決策樹(shù)。SGI 公司的數(shù)據(jù)挖掘工具M(jìn)ineSet 所提供的可視化工具使用樹(shù)圖來(lái)顯示決策樹(shù)分類(lèi)器的結(jié)構(gòu),在圖中,每一個(gè)決策用樹(shù)的一個(gè)節(jié)點(diǎn)來(lái)表示。圖形化的表示方法可以幫助用戶(hù)理解分類(lèi)算法,提供對(duì)數(shù)據(jù)的有價(jià)值的觀察視角。生成的分類(lèi)器可用于對(duì)數(shù)據(jù)的分類(lèi)
weak classifier and strong classifier (弱分類(lèi)器和強(qiáng)分類(lèi)器) 分類(lèi)是數(shù)據(jù)挖掘的一種非常重要的方法。分類(lèi)的概念是在已有數(shù)據(jù)的基礎(chǔ)上學(xué)會(huì)一個(gè)分類(lèi)函數(shù)或構(gòu)造出一個(gè)分類(lèi)模型(即我們通常所說(shuō)的分類(lèi)器(classifier))。該函數(shù)或模型能夠把數(shù)據(jù)庫(kù)中的數(shù)據(jù)紀(jì)錄映射到給定類(lèi)別中的某一個(gè),從而可以應(yīng)用于數(shù)據(jù)預(yù)測(cè)??傊?,分類(lèi)器是數(shù)據(jù)挖掘中對(duì)樣本進(jìn)行分類(lèi)的方法的統(tǒng)稱(chēng),包含決策樹(shù)、邏輯回歸、樸素貝葉斯、神經(jīng)網(wǎng)絡(luò)等算法。 簡(jiǎn)而言之,分類(lèi)器的強(qiáng)弱是其分類(lèi)能力的一種描述。其實(shí)就是字面意思。 能夠迅速正確的識(shí)別的過(guò)程就是強(qiáng)分類(lèi)器,而易錯(cuò)的則是弱分類(lèi)器。 強(qiáng)分類(lèi)器可以由多個(gè)弱分類(lèi)器組成。

分類(lèi)器中可解釋性最弱的是

3,量表具有信度就一定具有效度

什么是信度?信度可以理解為可靠度、一致性、穩(wěn)定性。比如說(shuō),在對(duì)同一對(duì)象進(jìn)行測(cè)量,多次測(cè)量結(jié)果都很接近,大家會(huì)認(rèn)為這個(gè)結(jié)果是可信的,真實(shí)的,也就是信度高。如果每次測(cè)量的結(jié)果都有很大的差異(例如,用同一份考卷對(duì)同一批學(xué)生進(jìn)行測(cè)驗(yàn),每次測(cè)試平均分?jǐn)?shù)差別都很大),則說(shuō)明信度較低。同樣在問(wèn)卷研究中,也是通過(guò)信度分析來(lái)測(cè)量樣本回答結(jié)果是否真實(shí)可靠,檢驗(yàn)信度越高,就是表示結(jié)果越可信。什么是效度?效度分析,簡(jiǎn)單來(lái)說(shuō)就是問(wèn)卷設(shè)計(jì)的有效性、準(zhǔn)確程度。當(dāng)我們?cè)跒檠芯恐黝}設(shè)計(jì)問(wèn)卷時(shí),都會(huì)希望問(wèn)題實(shí)際測(cè)量到的是我們希望測(cè)量的,這樣研究的數(shù)據(jù)才能準(zhǔn)確地說(shuō)明問(wèn)題。例如,我們想了解一個(gè)班級(jí)里學(xué)生的綜合成績(jī)情況,正式研究中如果僅測(cè)試數(shù)學(xué)一科,然后得出結(jié)論,這樣的研究有效性可能很低,原因在于實(shí)際測(cè)量的方向與研究方向之間有很大偏差。從計(jì)算公式角度看,信度和效度之前確實(shí)存在一定的關(guān)系。兩者的關(guān)系可以理解為:效度高,信度一定高;信度高,效度不一定高。在spssau中進(jìn)行信效度檢驗(yàn),同時(shí)有智能文字分析可以查看。
效度(Validity)即有效性,它是指測(cè)量工具或手段能夠準(zhǔn)確測(cè)出所需測(cè)量的事物的程度。效度是指所測(cè)量到的結(jié)果反映所想要考察內(nèi)容的程度,測(cè)量結(jié)果與要考察的內(nèi)容越吻合,則效度越高;反之,則效度越低。效度分為三種類(lèi)型:內(nèi)容效度、準(zhǔn)則效度和結(jié)構(gòu)效度。信度是指測(cè)驗(yàn)結(jié)果的一致性、穩(wěn)定性及可靠性,一般多以?xún)?nèi)部一致性來(lái)加以表示該測(cè)驗(yàn)信度的高低。信度系數(shù)愈高即表示該測(cè)驗(yàn)的結(jié)果愈一致、穩(wěn)定與可靠。系統(tǒng)誤差對(duì)信度沒(méi)什么影響,因?yàn)橄到y(tǒng)誤差總是以相同的方式影響測(cè)量值的,因此不會(huì)造成不一致性。反之,隨機(jī)誤差可能導(dǎo)致不一致性,從而降低信度。信度主要回答測(cè)量結(jié)果的一致性、穩(wěn)定性和可靠性問(wèn)題;效度主要回答測(cè)量結(jié)果的有效性和正確性問(wèn)題。效度和信度的關(guān)系可以用測(cè)量值的構(gòu)成公式O=T S R來(lái)理解。如果測(cè)量是完全有效的,即0=T,S=0,R=0,此時(shí)測(cè)量必然是完全可信的,若量表的信度不足,它也不可能完全有效,因?yàn)橛蠴=T R。如果量表是完全可信的,可以達(dá)到完全有效,也可能達(dá)不到,因?yàn)橛锌赡艽嬖趯?dǎo)致誤差,雖然缺乏信度必然缺乏效度,但信度的大小并不能體現(xiàn)效度的大小。信度是效度的必要條件,但不是充分條件。從理論的角度來(lái)看,量應(yīng)具有足夠的效度和信度;從實(shí)踐的觀點(diǎn)來(lái)看,一個(gè)好的量表還應(yīng)該具有實(shí)用性。實(shí)用性指量表的經(jīng)濟(jì)性、便利性和可解釋性。一般來(lái)說(shuō),信度是效度的必要條件,也就是說(shuō),效度都必須建立在信度的基礎(chǔ)上;但是沒(méi)有效度的測(cè)量,即使它的信度再高,這樣的測(cè)量也是沒(méi)有意義的。信度和效度的關(guān)系有如下幾種類(lèi)型:①可信且有效這種問(wèn)卷準(zhǔn)確地反映被調(diào)查人員的真實(shí)態(tài)度,問(wèn)卷中的題目是和調(diào)查目標(biāo)緊密關(guān)聯(lián)的。這種情況如圖8-8(a)所示,圖中(x,y)所在的實(shí)心點(diǎn)表示要測(cè)量的現(xiàn)象的真實(shí)情況,其余點(diǎn)表示經(jīng)過(guò)調(diào)查所得得測(cè)量結(jié)果。若調(diào)查結(jié)果能真實(shí)地反映所調(diào)查的對(duì)象,測(cè)量的誤差較小,則說(shuō)明問(wèn)卷調(diào)查的結(jié)果是可信而且有效的。②可信但無(wú)效這種問(wèn)卷調(diào)查結(jié)果雖然能準(zhǔn)確地反映被調(diào)查人員的真實(shí)態(tài)度,但問(wèn)卷中題目與真實(shí)的調(diào)查目的的關(guān)聯(lián)程度較弱,

量表具有信度就一定具有效度

4,闡述自然辯證法的主要科學(xué)研究方法

  科學(xué)研究過(guò)程和方法   一、科學(xué)問(wèn)題的提出   1、科學(xué)研究從問(wèn)題開(kāi)始   波普爾:觀察始于問(wèn)題  ?。?)從理論發(fā)展的總過(guò)程看,問(wèn)題是舊理論的終點(diǎn)與新理論的起點(diǎn)。  ?。?)從科學(xué)研究的具體過(guò)程看,科學(xué)研究是以問(wèn)題為框架有選擇地去搜集事實(shí)資料。  ?。?)與認(rèn)識(shí)來(lái)源于實(shí)踐有關(guān)聯(lián):“問(wèn)題說(shuō)”著眼于科學(xué)研究的程序,“觀察說(shuō)”著眼于認(rèn)識(shí)的來(lái)源,二者層次不同,實(shí)質(zhì)統(tǒng)一。   2、科學(xué)問(wèn)題的來(lái)源   (1)為尋求事實(shí)之間的聯(lián)系提出問(wèn)題;  ?。?)從理論與事實(shí)之間的矛盾中發(fā)現(xiàn)問(wèn)題:   (3)從某一理論內(nèi)部的矛盾中發(fā)現(xiàn)問(wèn)題  ?。?)不同學(xué)派理論之間的矛盾中產(chǎn)生  ?。?)社會(huì)需要與現(xiàn)有的生產(chǎn)技術(shù)手段的差距上發(fā)現(xiàn)問(wèn)題   3、科研選題原則   科研選題是形成、選擇和確定所要研究和解決的課題的過(guò)程。是科學(xué)研究的具體化。  ?。?)創(chuàng)新性原則:前人未解決或未完 全解決的問(wèn)題   (2)科學(xué)性原則:科學(xué)理論與科學(xué)事實(shí)為依據(jù)  ?。?)可行性原則:主客觀條件的考慮   (4)需要性原則:社會(huì)(實(shí)踐)與學(xué)科 (理論)發(fā)展需要   二、科學(xué)事實(shí)的獲取—觀察與實(shí)驗(yàn)   1、科學(xué)觀察:是指人們有目的、有計(jì)劃地利用自己的感官,認(rèn)識(shí)與描述各種自然現(xiàn)象,獲取經(jīng)驗(yàn)知識(shí)的基本手段。  ?。?)具有目的性和計(jì)劃性  ?。?)依賴(lài)感官與儀器(3)不改變研究對(duì)象,自然發(fā)生   2、科學(xué)實(shí)驗(yàn):是指人們根據(jù)一定的科學(xué)研究目的,借助于科學(xué)儀器,在科學(xué)方法指導(dǎo)下,人為控制或模擬自然現(xiàn)象,排除干擾,突出主要因素,在有利的條件下獲取科學(xué)事實(shí)的方法。   科學(xué)實(shí)驗(yàn)的特殊作用  ?。?)簡(jiǎn)化研究對(duì)象   (2)強(qiáng)化研究對(duì)象  ?。?)經(jīng)濟(jì)實(shí)用  ?。?)降低科學(xué)研究的風(fēng)險(xiǎn)   觀察與理論的關(guān)系   ---傳統(tǒng)的看法:觀察獨(dú)立于理論   ---波普爾等:觀察滲透理論   ---愛(ài)因斯坦:“是理論決定我們能夠觀察到的東西。”   ◎觀察與觀察者的理論知識(shí)背景有關(guān);   ◎觀察與觀察者的注意力有關(guān);   觀察的客觀性的保證   ◎標(biāo)準(zhǔn)方法、先進(jìn)的觀測(cè)儀器;   ◎正確理論的指導(dǎo)、嚴(yán)謹(jǐn)?shù)目茖W(xué)態(tài)度;   ◎與認(rèn)識(shí)與實(shí)踐的關(guān)系的理解相一致;   ◎與真理觀相一致。   觀察實(shí)驗(yàn)中的機(jī)遇   機(jī)遇是因意外事件導(dǎo)致的科學(xué)新發(fā)現(xiàn)。   *機(jī)遇產(chǎn)生的客觀原因:   自然界中必然性與偶然性的統(tǒng)一   如何利用機(jī)遇:   世界觀上的認(rèn)識(shí);開(kāi)放的思路;廣博的知識(shí)背景;敏銳的洞察力   三、科學(xué)假說(shuō)的形成   1、科學(xué)假說(shuō)的構(gòu)成:背景理論;對(duì)現(xiàn)象本質(zhì)的猜測(cè);推演出的預(yù)言與預(yù)見(jiàn)   2、假說(shuō)形成的基本條件:  ?。?)一致對(duì)應(yīng)性;(2)可解釋性;(3)可預(yù)測(cè)性;   3、假說(shuō)的檢驗(yàn):   (1)邏輯分析;(2)實(shí)踐檢驗(yàn);(3)判決性實(shí)驗(yàn);   四、科學(xué)理論的創(chuàng)立   1、創(chuàng)立理論的思維過(guò)程  ?。?)準(zhǔn)備階段—問(wèn)題的提出  ?。?)醞釀階段—問(wèn)題的求解   (3)豁朗階段—問(wèn)題的突破  ?。?)驗(yàn)證階段—問(wèn)題成果的證明和檢驗(yàn)   2 、科學(xué)語(yǔ)言:(1)科學(xué)術(shù)語(yǔ)(2)科學(xué)命題(3)科學(xué)符號(hào)   3、科學(xué)思維方法—演繹方法:(1)演繹推理(2)公理化方法(3)理想實(shí)驗(yàn)   4、科學(xué)思維方法—非演繹方法  ?。?)分析與綜合(2)歸納與概括(3)類(lèi)比與聯(lián)想(4)思想模型

5,如何建立和評(píng)估數(shù)據(jù)倉(cāng)庫(kù)邏輯模型

邏輯模型指數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)的邏輯表現(xiàn)形式。從最終應(yīng)用的功能和性能的角度來(lái)看,數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)邏輯模型也許是整個(gè)項(xiàng)目最重要的方面,需要領(lǐng)域?qū)<业膮⑴c。從內(nèi)容上看,涉及的方面有確立主題域,粒度層次的劃分,確定數(shù)據(jù)分割策略,關(guān)系模式的確定。 邏輯模型建設(shè)方法 邏輯建模是數(shù)據(jù)倉(cāng)庫(kù)實(shí)施中的重要一環(huán),因?yàn)樗苤苯臃从吵鰳I(yè)務(wù)部門(mén)的需求,同時(shí)對(duì)系統(tǒng)的物理實(shí)施有著重要的指導(dǎo)作用。目前較常用的兩種建模方法是所謂的第三范式 (3NF,即 Third Normal Form)和星型模式 (Star-Schema) 第三范式 關(guān)系模式滿(mǎn)足以下特征: 1 每個(gè)屬性的值唯一,不具有多義性; 2. 每個(gè)非主屬性必須完全依賴(lài)于整個(gè)主鍵,而非主鍵的一部分; 3. 每個(gè)非主屬性不能依賴(lài)于其他關(guān)系中的屬性,因?yàn)檫@樣的話(huà),這種屬性應(yīng)該歸到其他關(guān)系中去 星型模型 星型模式是一種多維的數(shù)據(jù)關(guān)系,它由一個(gè)事實(shí)表(Fact Table)和一組維表(Dimens ion Table)組成。每個(gè)維表都有一個(gè)維作為主鍵,所有這些維則組合成事實(shí)表的主鍵,換言之,事實(shí)表主鍵的每個(gè)元素都是維表的外鍵。事實(shí)表的非主屬性稱(chēng)為事實(shí) (Fact),它們一般都是數(shù)值或其他可以進(jìn)行計(jì)算的數(shù)據(jù);而維大都是文字、時(shí)間等類(lèi)型的數(shù)據(jù)。 第三范式和星型模式在數(shù)據(jù)倉(cāng)庫(kù)中的應(yīng)用 大多數(shù)人在設(shè)計(jì)中央數(shù)據(jù)倉(cāng)庫(kù)的邏輯模型時(shí),都按照第三范式來(lái)設(shè)計(jì);而在進(jìn)行物理實(shí)施時(shí),則由于數(shù)據(jù)庫(kù)引擎的限制,不得不對(duì)邏輯模型進(jìn)行不規(guī)范處理 (De-Normalize), 以提高系統(tǒng)的響應(yīng)速度,這當(dāng)然是以增加系統(tǒng)的復(fù)雜度、維護(hù)工作量、磁盤(pán)使用比率 (指原始數(shù)據(jù)與磁盤(pán)大小的比率)并降低系統(tǒng)執(zhí)行動(dòng)態(tài)查詢(xún)能力為代價(jià)的。 那么,在中央數(shù)據(jù)倉(cāng)庫(kù)中是否可以采用星型模式來(lái)進(jìn)行模型設(shè)計(jì)呢?我們知道,星型模式中有一個(gè)事實(shí)表和一組維表,我們可以把事實(shí)看成是各個(gè)維交叉點(diǎn)上的值。 星型模式之所以速度快,在于針對(duì)各個(gè)維作了大量的預(yù)處理,如按照維進(jìn)行預(yù)先的統(tǒng)計(jì)、分類(lèi)、排序等。因此,在星型模式設(shè)計(jì)的數(shù)據(jù)倉(cāng)庫(kù)中,作報(bào)表的速度雖然很快,但由于存在大量的預(yù)處理,其建模過(guò)程相對(duì)來(lái)說(shuō)就比較慢。當(dāng)業(yè)務(wù)問(wèn)題發(fā)生變化,原來(lái)的維不能滿(mǎn)足要求時(shí),需要增加新的維。由于事實(shí)表的主鍵由所有維表的主鍵組成,這種維的變動(dòng)將是非常復(fù)雜、非常耗時(shí)的。星型模式另一個(gè)顯著的缺點(diǎn)是數(shù)據(jù)的冗余量很大。綜合這些討論,不難得出結(jié)論,星型模式比較適合于預(yù)先定義好的問(wèn)題,如需要產(chǎn)生大量報(bào)表的場(chǎng)合;而不適合于動(dòng)態(tài)查詢(xún)多、系統(tǒng)可擴(kuò)展能力要求高或者數(shù)據(jù)量很大的場(chǎng)合。因此,星型模式在一些要求大量報(bào)表的部門(mén)數(shù)據(jù)集市中有較多的應(yīng)用。 總之,上面討論了數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)中常用的兩種方法。對(duì)于部門(mén)數(shù)據(jù)集市,當(dāng)數(shù)據(jù)量不大、報(bào)表較固定時(shí)可以采用星型模式;對(duì)于企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù),考慮到系統(tǒng)的可擴(kuò)展能力、投資成本和易于管理等多種因素,最好采用第三范式。邏輯模型指數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)的邏輯表現(xiàn)形式。從最終應(yīng)用的功能和性能的角度來(lái)看,數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)邏輯模型也許是整個(gè)項(xiàng)目最重要的方面,需要領(lǐng)域?qū)<业膮⑴c。從內(nèi)容上看,涉及的方面有確立主題域,粒度層次的劃分,確定數(shù)據(jù)分割策略,關(guān)系模式的確定。 邏輯模型的質(zhì)量標(biāo)準(zhǔn) 對(duì)邏輯模型的評(píng)估,就是對(duì)邏輯模型質(zhì)量的考察,什么是邏輯模型的質(zhì)量呢?從狹義的概念說(shuō),邏輯模型是否正確表達(dá)了業(yè)務(wù)規(guī)則,也就是準(zhǔn)確,但是隨著人們對(duì)數(shù)據(jù)倉(cāng)庫(kù)認(rèn)識(shí)的加深,質(zhì)量的含義不斷延伸,現(xiàn)在對(duì)模型質(zhì)量要求不僅僅單純指單純的業(yè)務(wù)規(guī)則,還包括模型滿(mǎn)足用戶(hù)分析需求的程度,它是一個(gè)包含豐富內(nèi)涵、具有多維因素的綜合性概念。相應(yīng)地邏輯模型質(zhì)量概念的認(rèn)識(shí)也從狹義向廣義轉(zhuǎn)變,準(zhǔn)確性已不再是衡量唯一標(biāo)準(zhǔn)。評(píng)估邏輯模型一般包括如下方面的標(biāo)準(zhǔn) 正確性 邏輯模型的建設(shè)方法是正確的,遵循了從上到下和從下到上相結(jié)合的方法,選擇了正確的模型表示方式,對(duì)實(shí)際業(yè)務(wù)采用正確的概化抽象。 準(zhǔn)確性(精度) 指邏輯模型和實(shí)際業(yè)務(wù)即“真值”之間的差異程度。誤差越小,準(zhǔn)確性就越高。這里,所謂的“真值”是可知的,盡管邏輯模型經(jīng)過(guò)了抽象,概化等方法總結(jié)共性,但是模型的具體化后,與“真值”是應(yīng)當(dāng)符合的??梢酝ㄟ^(guò)范圍誤差、計(jì)數(shù)誤差、不回答率、加工整理差錯(cuò)、模型假設(shè)誤差等影響準(zhǔn)確性的各個(gè)因素,測(cè)算統(tǒng)計(jì)估算值的變動(dòng)系數(shù)、標(biāo)準(zhǔn)差、均方差、曲線(xiàn)配合吻合度、假設(shè)檢驗(yàn)、偏差等,修正邏輯模型將其的誤差控制在一個(gè)可接受的置信區(qū)間內(nèi)。 適用性 指收集的信息是否有用,是否符合用戶(hù)的需求。它要求邏輯模型的粒度,分割方式符合用戶(hù)的分析需求。 可解釋性 是指在公布邏輯模型時(shí),應(yīng)同時(shí)公開(kāi)邏輯模型的的補(bǔ)充解釋信息或稱(chēng)為“元數(shù)據(jù)”,即關(guān)于模型數(shù)據(jù)的解釋說(shuō)明。內(nèi)容包括所使用的建設(shè)方法,建設(shè)目標(biāo),以防止模型數(shù)據(jù)二義性導(dǎo)致錯(cuò)誤解釋和使用。 完備性 目前的業(yè)務(wù)需求和所用的業(yè)務(wù)規(guī)則完全包含在邏輯模型中。模型中不存在沒(méi)有包含的需求業(yè)務(wù)對(duì)象(如實(shí)體,屬性,以及之間的關(guān)系) 一致性 模型中的各個(gè)對(duì)象命名方式統(tǒng)一,有明確的命名規(guī)范。而且模型中各個(gè)相關(guān)對(duì)象的粒度一致,業(yè)務(wù)邏輯模型對(duì)象的劃分標(biāo)準(zhǔn)應(yīng)當(dāng)統(tǒng)一。 擴(kuò)展性 當(dāng)新的業(yè)務(wù)產(chǎn)生時(shí),僅僅是增加了相關(guān)邏輯模型對(duì)象的實(shí)例內(nèi)容,不影響目前的邏輯模型,模型這些分類(lèi)能夠隨統(tǒng)計(jì)分析需求的不同進(jìn)行相應(yīng)的調(diào)整,無(wú)需改變數(shù)據(jù)庫(kù)結(jié)構(gòu),具有靈活的擴(kuò)展性。僅在個(gè)別情況下,需要對(duì)邏輯模型的屬性或者實(shí)體本身增加,支持分步驟的實(shí)施。 可銜接性 邏輯模型來(lái)自擁有行業(yè)經(jīng)驗(yàn)的概念模型,里面凝聚了許多成功的經(jīng)驗(yàn),而且從規(guī)劃上符合行業(yè)系統(tǒng)的長(zhǎng)遠(yuǎn)發(fā)展,因此邏輯模型應(yīng)當(dāng)從概念模型上相對(duì)平滑的過(guò)度過(guò)來(lái)。此外,物理模型應(yīng)當(dāng)來(lái)自與邏輯模型,邏輯模型的建設(shè)應(yīng)當(dāng)具有一定的可操作性,便于向物理模型的轉(zhuǎn)化。 邏輯模型中常犯的錯(cuò)誤: 命名規(guī)范不統(tǒng)一 對(duì)于匯總數(shù)據(jù),低粒度數(shù)據(jù)或歷史數(shù)據(jù)采用已定義的命名規(guī)范。 粒度層次不統(tǒng)一 有的具體,有的過(guò)于抽象 不準(zhǔn)確 業(yè)務(wù)關(guān)系表示錯(cuò) 不全面: 一些屬性外鍵標(biāo)識(shí)沒(méi)有主表 無(wú)用關(guān)聯(lián)關(guān)系多: 模型中各種對(duì)象所表示的內(nèi)容,應(yīng)當(dāng)與用戶(hù)的業(yè)務(wù)分析需求密切相關(guān)。 與行業(yè)通用模型移動(dòng)的兼容性差: 與行業(yè)通用模型存在較大的差異,不利于系統(tǒng)的將來(lái)發(fā)展符合信息發(fā)展的趨勢(shì)。 總結(jié) 商業(yè)智能和數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的建設(shè)作為一個(gè)漸進(jìn)、迭代的過(guò)程,其發(fā)展趨勢(shì)是從現(xiàn)有的初步應(yīng)用如報(bào)表分析、數(shù)據(jù)集市,向深度和廣度復(fù)雜分析和數(shù)據(jù)挖掘技術(shù)應(yīng)用發(fā)展,其依賴(lài)的數(shù)據(jù)存儲(chǔ)模型,包括邏輯模型和物理模型,也是一個(gè)不斷發(fā)展,不斷豐富完善的過(guò)程。

6,主成份分析和因子分析的區(qū)別

主成分分析就是將多項(xiàng)指標(biāo)轉(zhuǎn)化為少數(shù)幾項(xiàng)綜合指標(biāo),用綜合指標(biāo)來(lái)解釋多變量的方差- 協(xié)方差結(jié)構(gòu)。綜合指標(biāo)即為主成分。所得出的少數(shù)幾個(gè)主成分,要盡可能多地保留原始變量的信息,且彼此不相關(guān)。因子分析是研究如何以最少的信息丟失,將眾多原始變量濃縮成少數(shù)幾個(gè)因子變量,以及如何使因子變量具有較強(qiáng)的可解釋性的一種多元統(tǒng)計(jì)分析方法。聚類(lèi)分析是依據(jù)實(shí)驗(yàn)數(shù)據(jù)本身所具有的定性或定量的特征來(lái)對(duì)大量的數(shù)據(jù)進(jìn)行分組歸類(lèi)以了解數(shù)據(jù)集的內(nèi)在結(jié)構(gòu),并且對(duì)每一個(gè)數(shù)據(jù)集進(jìn)行描述的過(guò)程。其主要依據(jù)是聚到同一個(gè)數(shù)據(jù)集中的樣本應(yīng)該彼此相似,而屬于不同組的樣本應(yīng)該足夠不相似。三種分析方法既有區(qū)別也有聯(lián)系,本文力圖將三者的異同進(jìn)行比較,并舉例說(shuō)明三者在實(shí)際應(yīng)用中的聯(lián)系,以期為更好地利用這些高級(jí)統(tǒng)計(jì)方法為研究所用有所裨益。二、基本思想的異同(一) 共同點(diǎn)主成分分析法和因子分析法都是用少數(shù)的幾個(gè)變量(因子) 來(lái)綜合反映原始變量(因子) 的主要信息,變量雖然較原始變量少,但所包含的信息量卻占原始信息的85 %以上,所以即使用少數(shù)的幾個(gè)新變量,可信度也很高,也可以有效地解釋問(wèn)題。并且新的變量彼此間互不相關(guān),消除了多重共線(xiàn)性。這兩種分析法得出的新變量,并不是原始變量篩選后剩余的變量。在主成分分析中,最終確定的新變量是原始變量的線(xiàn)性組合,如原始變量為x1 ,x2 ,. . . ,x3 ,經(jīng)過(guò)坐標(biāo)變換,將原有的p個(gè)相關(guān)變量xi 作線(xiàn)性變換,每個(gè)主成分都是由原有p 個(gè)變量線(xiàn)性組合得到。在諸多主成分Zi 中,Z1 在方差中占的比重最大,說(shuō)明它綜合原有變量的能力最強(qiáng),越往后主成分在方差中的比重也小,綜合原信息的能力越弱。因子分析是要利用少數(shù)幾個(gè)公共因子去解釋較多個(gè)要觀測(cè)變量中存在的復(fù)雜關(guān)系,它不是對(duì)原始變量的重新組合,而是對(duì)原始變量進(jìn)行分解,分解為公共因子與特殊因子兩部分。公共因子是由所有變量共同具有的少數(shù)幾個(gè)因子;特殊因子是每個(gè)原始變量獨(dú)自具有的因子。對(duì)新產(chǎn)生的主成分變量及因子變量計(jì)算其得分,就可以將主成分得分或因子得分代替原始變量進(jìn)行進(jìn)一步的分析,因?yàn)橹鞒煞肿兞考耙蜃幼兞勘仍甲兞可倭嗽S多,所以起到了降維的作用,為我們處理數(shù)據(jù)降低了難度。聚類(lèi)分析的基本思想是: 采用多變量的統(tǒng)計(jì)值,定量地確定相互之間的親疏關(guān)系,考慮對(duì)象多因素的聯(lián)系和主導(dǎo)作用,按它們親疏差異程度,歸入不同的分類(lèi)中一元,使分類(lèi)更具客觀實(shí)際并能反映事物的內(nèi)在必然聯(lián)系。也就是說(shuō),聚類(lèi)分析是把研究對(duì)象視作多維空間中的許多點(diǎn),并合理地分成若干類(lèi),因此它是一種根據(jù)變量域之間的相似性而逐步歸群成類(lèi)的方法,它能客觀地反映這些變量或區(qū)域之間的內(nèi)在組合關(guān)系[3 ]。聚類(lèi)分析是通過(guò)一個(gè)大的對(duì)稱(chēng)矩陣來(lái)探索相關(guān)關(guān)系的一種數(shù)學(xué)分析方法,是多元統(tǒng)計(jì)分析方法,分析的結(jié)果為群集。對(duì)向量聚類(lèi)后,我們對(duì)數(shù)據(jù)的處理難度也自然降低,所以從某種意義上說(shuō),聚類(lèi)分析也起到了降維的作用。(二) 不同之處主成分分析是研究如何通過(guò)少數(shù)幾個(gè)主成分來(lái)解釋多變量的方差一協(xié)方差結(jié)構(gòu)的分析方法,也就是求出少數(shù)幾個(gè)主成分(變量) ,使它們盡可能多地保留原始變量的信息,且彼此不相關(guān)。它是一種數(shù)學(xué)變換方法,即把給定的一組變量通過(guò)線(xiàn)性變換,轉(zhuǎn)換為一組不相關(guān)的變量(兩兩相關(guān)系數(shù)為0 ,或樣本向量彼此相互垂直的隨機(jī)變量) ,在這種變換中,保持變量的總方差(方差之和) 不變,同時(shí)具有最大方差,稱(chēng)為第一主成分;具有次大方差,稱(chēng)為第二主成分。依次類(lèi)推。若共有p 個(gè)變量,實(shí)際應(yīng)用中一般不是找p 個(gè)主成分,而是找出m (m < p) 個(gè)主成分就夠了,只要這m 個(gè)主成分能反映原來(lái)所有變量的絕大部分的方差。主成分分析可以作為因子分析的一種方法出現(xiàn)。因子分析是尋找潛在的起支配作用的因子模型的方法。因子分析是根據(jù)相關(guān)性大小把變量分組,使得同組內(nèi)的變量之間相關(guān)性較高,但不同的組的變量相關(guān)性較低,每組變量代表一個(gè)基本結(jié)構(gòu),這個(gè)基本結(jié)構(gòu)稱(chēng)為公共因子。對(duì)于所研究的問(wèn)題就可試圖用最少個(gè)數(shù)的不可測(cè)的所謂公共因子的線(xiàn)性函數(shù)與特殊因子之和來(lái)描述原來(lái)觀測(cè)的每一分量。通過(guò)因子分析得來(lái)的新變量是對(duì)每個(gè)原始變量進(jìn)行內(nèi)部剖析。因子分析不是對(duì)原始變量的重新組合,而是對(duì)原始變量進(jìn)行分解,分解為公共因子和特殊因子兩部分。具體地說(shuō),就是要找出某個(gè)問(wèn)題中可直接測(cè)量的具有一定相關(guān)性的諸指標(biāo),如何受少數(shù)幾個(gè)在專(zhuān)業(yè)中有意義、又不可直接測(cè)量到、且相對(duì)獨(dú)立的因子支配的規(guī)律,從而可用各指標(biāo)的測(cè)定來(lái)間接確定各因子的狀態(tài)。因子分析只能解釋部分變異,主成分分析能解釋所有變異。 聚類(lèi)分析算法是給定m 維空間R 中的n 個(gè)向量,把每個(gè)向量歸屬到k 個(gè)聚類(lèi)中的某一個(gè),使得每一個(gè)向量與其聚類(lèi)中心的距離最小。聚類(lèi)可以理解為: 類(lèi)內(nèi)的相關(guān)性盡量大,類(lèi)間相關(guān)性盡量小。聚類(lèi)問(wèn)題作為一種無(wú)指導(dǎo)的學(xué)習(xí)問(wèn)題,目的在于通過(guò)把原來(lái)的對(duì)象集合分成相似的組或簇,來(lái)獲得某種內(nèi)在的數(shù)據(jù)規(guī)律。從三類(lèi)分析的基本思想可以看出,聚類(lèi)分析中并沒(méi)于產(chǎn)生新變量,但是主成分分析和因子分析都產(chǎn)生了新變量。三、數(shù)據(jù)標(biāo)準(zhǔn)化的比較主成分分析中為了消除量綱和數(shù)量級(jí),通常需要將原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,將其轉(zhuǎn)化為均值為0方差為1 的無(wú)量綱數(shù)據(jù)。而因子分析在這方面要求不是太高,因?yàn)樵谝蜃臃治鲋锌梢酝ㄟ^(guò)主因子法、加權(quán)最小二乘法、不加權(quán)最小二乘法、重心法等很多解法來(lái)求因子變量,并且因子變量是每一個(gè)變量的內(nèi)部影響變量,它的求解與原始變量是否同量綱關(guān)系并不太大,當(dāng)然在采用主成分法求因子變量時(shí),仍需標(biāo)準(zhǔn)化。不過(guò)在實(shí)際應(yīng)用的過(guò)程中,為了盡量避免量綱或數(shù)量級(jí)的影響,建議在使用因子分析前還是要進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化。在構(gòu)造因子變量時(shí)采用的是主成分分析方法,主要將指標(biāo)值先進(jìn)行標(biāo)準(zhǔn)化處理得到協(xié)方差矩陣,即相關(guān)矩陣和對(duì)應(yīng)的特征值與特征向量,然后構(gòu)造綜合評(píng)價(jià)函數(shù)進(jìn)行評(píng)價(jià)。聚類(lèi)分析中如果參與聚類(lèi)的變量的量綱不同會(huì)導(dǎo)致錯(cuò)誤的聚類(lèi)結(jié)果。因此在聚類(lèi)過(guò)程進(jìn)行之前必須對(duì)變量值進(jìn)行標(biāo)準(zhǔn)化,即消除量綱的影響。不同方法進(jìn)行標(biāo)準(zhǔn)化,會(huì)導(dǎo)致不同的聚類(lèi)結(jié)果要注意變量的分布。如果是正態(tài)分布應(yīng)該采用z 分?jǐn)?shù)法。四、應(yīng)用中的優(yōu)缺點(diǎn)比較(一) 主成分分析1、優(yōu)點(diǎn)首先它利用降維技術(shù)用少數(shù)幾個(gè)綜合變量來(lái)代替原始多個(gè)變量,這些綜合變量集中了原始變量的大部分信息。其次它通過(guò)計(jì)算綜合主成分函數(shù)得分,對(duì)客觀經(jīng)濟(jì)現(xiàn)象進(jìn)行科學(xué)評(píng)價(jià)。再次它在應(yīng)用上側(cè)重于信息貢獻(xiàn)影響力綜合評(píng)價(jià)。2、缺點(diǎn)當(dāng)主成分的因子負(fù)荷的符號(hào)有正有負(fù)時(shí),綜合評(píng)價(jià)函數(shù)意義就不明確。命名清晰性低。(二) 因子分析1、優(yōu)點(diǎn)第一它不是對(duì)原有變量的取舍,而是根據(jù)原始變量的信息進(jìn)行重新組合,找出影響變量的共同因子,化簡(jiǎn)數(shù)據(jù);第二,它通過(guò)旋轉(zhuǎn)使得因子變量更具有可解釋性,命名清晰性高。2、缺點(diǎn)在計(jì)算因子得分時(shí),采用的是最小二乘法,此法有時(shí)可能會(huì)失效。(三) 聚類(lèi)分析1、優(yōu)點(diǎn)聚類(lèi)分析模型的優(yōu)點(diǎn)就是直觀,結(jié)論形式簡(jiǎn)明。2、缺點(diǎn)在樣本量較大時(shí),要獲得聚類(lèi)結(jié)論有一定困難。由于相似系數(shù)是根據(jù)被試的反映來(lái)建立反映被試間內(nèi)在聯(lián)系的指標(biāo),而實(shí)踐中有時(shí)盡管從被試反映所得出的數(shù)據(jù)中發(fā)現(xiàn)他們之間有緊密的關(guān)系,但事物之間卻無(wú)任何內(nèi)在聯(lián)系,此時(shí),如果根據(jù)距離或相似系數(shù)得出聚類(lèi)分析的結(jié)果,顯然是不適當(dāng)?shù)模?,聚?lèi)分析模型本身卻無(wú)法識(shí)別這類(lèi)錯(cuò)誤。
文章TAG:解釋數(shù)據(jù)數(shù)據(jù)挖掘挖掘可解釋性

最近更新

  • 球缺,球冠球缺的差異球缺,球冠球缺的差異

    球冠球缺的差異2,球體削去一塊叫什么3,球冠和球缺有什么不同4,球缺的體積公式是什么5,球缺的介紹6,球缺是大的還是小的部分7,什么叫球缺它的一些公式8,球缺是什么意思9,球缺體是什么意思10,數(shù)學(xué).....

    經(jīng)驗(yàn) 日期:2023-08-20

  • 引用數(shù)據(jù)類(lèi)型,什么叫做引用數(shù)據(jù)類(lèi)型參數(shù)引用數(shù)據(jù)類(lèi)型,什么叫做引用數(shù)據(jù)類(lèi)型參數(shù)

    什么叫做引用數(shù)據(jù)類(lèi)型參數(shù)2,java中的引用數(shù)據(jù)類(lèi)型3,java中引用數(shù)據(jù)類(lèi)型有哪些4,什么是引用類(lèi)型5,基本數(shù)據(jù)類(lèi)型和引用數(shù)據(jù)類(lèi)型的區(qū)別是什么6,java中的引用數(shù)據(jù)數(shù)據(jù)類(lèi)型是怎樣的1,什么叫做引用.....

    經(jīng)驗(yàn) 日期:2023-08-20

  • 思悟?qū)W,如何做到學(xué)思悟行思悟?qū)W,如何做到學(xué)思悟行

    如何做到學(xué)思悟行2,學(xué)悟思練什么意思3,荀子61勸學(xué)中論述思與學(xué)的語(yǔ)句是4,孔子認(rèn)為思與學(xué)是什么關(guān)系5,思與悟有什么不同那個(gè)層次更高6,以學(xué)與思為話(huà)題寫(xiě)一篇不少于600字的作文大全1,如何做到.....

    經(jīng)驗(yàn) 日期:2023-08-20

  • 華冠半導(dǎo)體,蘇州華冠科技有限公司做什么產(chǎn)品華冠半導(dǎo)體,蘇州華冠科技有限公司做什么產(chǎn)品

    蘇州華冠科技有限公司做什么產(chǎn)品2,我要去吳江華冠通訊面試想問(wèn)一下工資待遇怎么樣進(jìn)出口方面的3,江蘇科林集團(tuán)有限公司好不好4,低碳概念股有哪幾個(gè)新能源上市公司有哪些5,江蘇吳江有哪些知.....

    經(jīng)驗(yàn) 日期:2023-08-20

  • 555,555有什么特殊含義嗎555,555有什么特殊含義嗎

    555有什么特殊含義嗎2,555有什么特殊意義3,555什么意思4,什么是5555,555是什么意思6,555是什么1,555有什么特殊含義嗎“嗚嗚嗚”的意思表示哭2,555有什么特殊意義555--嗚嗚嗚~哭~3,555什么意思5555.....

    經(jīng)驗(yàn) 日期:2023-08-20

  • 白熾燈發(fā)光原理,白熾燈是如何發(fā)出光亮的白熾燈發(fā)光原理,白熾燈是如何發(fā)出光亮的

    白熾燈是如何發(fā)出光亮的2,請(qǐng)回答白熾燈發(fā)光原理3,誰(shuí)能告訴我白熾燈的發(fā)光原理先在此謝過(guò)4,白熾電燈的工作原理5,白熾燈發(fā)光原理是什么6,白熾燈霓虹燈的發(fā)光原理是什么1,白熾燈是如何發(fā)出光亮.....

    經(jīng)驗(yàn) 日期:2023-08-20

  • EBIDA,什么是EVEBIDAEBIDA,什么是EVEBIDA

    什么是EVEBIDA2,EBIDA是什么3,ebida是財(cái)務(wù)管理的內(nèi)容嗎4,EBIDA是什么1,什么是EVEBIDA乘數(shù)是市值相對(duì)于一個(gè)假設(shè)與市值相關(guān)的統(tǒng)計(jì)數(shù)據(jù)的倍數(shù)。該統(tǒng)計(jì)數(shù)據(jù)可以是收益、現(xiàn)金流等,但必須與市值.....

    經(jīng)驗(yàn) 日期:2023-08-20

  • 氪系列積木機(jī)器人aPP,用積木拼一個(gè)可以變形的機(jī)器人氪系列積木機(jī)器人aPP,用積木拼一個(gè)可以變形的機(jī)器人

    有沒(méi)有飛行能力風(fēng)暴機(jī)器人?根據(jù)能力風(fēng)暴系列的四款新品分別是:氪-3積木-2/Okorius系列Mobile機(jī)器人、虹灣-3。支持識(shí)別科沃斯機(jī)器人-3/的全部機(jī)器人,非常方便!科沃斯機(jī)器人APP是一款連接.....

    經(jīng)驗(yàn) 日期:2023-08-20

經(jīng)驗(yàn)文章排行榜