特征工程的好壞主要由domainknowledge決定,但大多數(shù)人可能沒有這方面的知識,所以只能根據(jù)原有的特征生成盡可能多的新特征,然后讓模型選擇重要的特征。featureselection來了,方法有很多,比如backward,forwardselection等等。
5、Kaggle指南(四如前所述,在模型選擇上沒有什么靈丹妙藥,所以探索性數(shù)據(jù)分析(EDA)是如何確定最合適的模型并做出假設的必不可少的環(huán)節(jié)。為什么要做EDA分析?這里我們以iris 數(shù)據(jù) set為例,主要使用熊貓的describe()方法。這種方法的輸出非常豐富,包括數(shù)據(jù)總計、平均值、方差、最小值和最大值以及各種分位數(shù)。通過這個結(jié)果,我們可以了解數(shù)據(jù)的大致分布。在單一特征探索中使用的主要工具是直方圖和散點圖直方圖。直方圖將單個特征值的數(shù)據(jù)劃分為不同的數(shù)據(jù)段,我們可以直觀的看到數(shù)據(jù)在各段的分布情況。
當數(shù)據(jù)的值缺失或異常時,此錯誤可能特別明顯。這時候可能需要做一些預處理,比如填充缺失值或者取日志。以指數(shù)為X軸,特征值為y值畫散點圖,可以看到數(shù)據(jù)隨指數(shù)的變化,從而檢查數(shù)據(jù)是否有洗牌。比如上圖中,花瓣_長度分布均勻,花瓣_寬度呈現(xiàn)階段性特征。
6、 kaggle的 數(shù)據(jù)可以用來做學術(shù)研究發(fā)論文么是的,現(xiàn)在的學術(shù)界沒有以前那么嚴重了。只要是有用的數(shù)據(jù),都可以用于學術(shù)研究。發(fā)表學術(shù)論文只是學術(shù)成果的展示,并不包括研究過程。只要不發(fā)表對社會敏感有害的東西,一般問題不大(其實雜志是不會收這些文章的),有出版方面的問題可以私信我。
7、 kaggle只能用谷歌嗎Kaggle只能用Google?近年來,Kaggle已經(jīng)成為數(shù)據(jù) science的重要平臺之一。這個平臺以其公平性、專業(yè)性和開放性,吸引了眾多數(shù)據(jù)科學家的關(guān)注。在Kaggle上,用戶可以從Kaggle中搜索并選擇任意數(shù)據(jù)進行建模和分析。但是,可能有人會疑惑,Kaggle只能用Google嗎?谷歌云平臺與Kaggle合作。事實上,Kaggle并沒有限制用戶使用的計算機或云計算平臺。
這意味著用戶可以使用Google為數(shù)據(jù)分析和建模提供的云計算服務。同時,Kaggle用戶也可以使用自己的云服務提供商,比如亞馬遜AWS和微軟Azure。Kaggle上的競爭不僅需要云服務的選擇,還需要具體的處理速度、計算能力和硬件要求。這些硬件和軟件要求通常由競賽的贊助商提供。當然,這并不意味著你必須使用谷歌云平臺。
8、Kaggle簡介Kaggle由聯(lián)合創(chuàng)始人兼首席執(zhí)行官安東尼·戈德布盧姆(Anthony Goldbloom)于2010年在墨爾本創(chuàng)立。主要是為開發(fā)者和數(shù)據(jù)科學家舉辦機器學習競賽、主持數(shù)據(jù)庫、編寫和分享代碼提供平臺,該平臺吸引了80萬/123,456,789-2/科學家的關(guān)注,這些用戶資源可能是吸引谷歌的主要因素。2019年1月Kaggle人類蛋白質(zhì)圖像深度學習分類大賽,昂梯克kaggle比賽在業(yè)內(nèi)含金量很高,有興趣的話可以試著參加一下,同時也可以開闊眼界,向很多有實力的人學習。所以不管你是求職者還是學生,如果你對數(shù)據(jù)理科感興趣,你都可以用Kaggle鍛煉技能,提升背景,如果簡歷中有這種為“準業(yè)主”定制的Kaggle項目經(jīng)歷,一定會提高夢想學校和大廠Offer的命中率。