量化后的遞歸神經(jīng)網(wǎng)絡(luò)在PennTreebank數(shù)據(jù)集上測(cè)試,精度相當(dāng)于僅用4比特的32比特。N-ShotLearning:用最少的數(shù)據(jù)訓(xùn)練最多的模型作者|HeetSankesara譯|田字一中(鄭州大學(xué))和野調(diào)(江蘇科技大學(xué))修訂|唐力和皮塔如果把AI比作電,那么數(shù)據(jù)就是創(chuàng)造電的煤。
作者| Sophie Transformer模型在NLP領(lǐng)域取得了巨大的成功,以此為核心的超大規(guī)模預(yù)訓(xùn)練模型BERT和GPT3在所有NLP任務(wù)中大放異彩,引人注目。計(jì)算機(jī)視覺分析的任務(wù)也借鑒了變壓器模型的思想和方法。在Meta公司的DETR模型中,使用Transformer和端到端的方法來實(shí)現(xiàn)CV領(lǐng)域的目標(biāo)檢測(cè)任務(wù),隨后Google公司又推出了使用純Transformer來完成計(jì)算機(jī)視覺任務(wù)的ViT模型。
coco(commonobjectsincontext)數(shù)據(jù)集是微軟研究院提出的大規(guī)模計(jì)算機(jī)視覺數(shù)據(jù)集,致力于常見視覺任務(wù)的分析和評(píng)估,包括物體檢測(cè)、實(shí)例分割、人體關(guān)鍵點(diǎn)檢測(cè)、全景分割等。與之前的PASCALVOC和ImageNet數(shù)據(jù)集不同,COCO數(shù)據(jù)集更加復(fù)雜,任務(wù)更加豐富,更加貼近實(shí)際應(yīng)用。
神經(jīng)網(wǎng)絡(luò)(QNN)的方法具有極低的精度(例如,1位)權(quán)重和運(yùn)行時(shí)活躍的神經(jīng)網(wǎng)絡(luò)。在訓(xùn)練期間,量化的權(quán)重和激活值用于計(jì)算參數(shù)梯度。在正向傳輸過程中,QNN大大減少了內(nèi)存大小和訪問次數(shù),并用位運(yùn)算取代了大多數(shù)算術(shù)運(yùn)算。因此,預(yù)期的功耗將大大降低。我們用MNIST、CIFAR10、SVHN和ImageNet數(shù)據(jù)集對(duì)QNN進(jìn)行了訓(xùn)練。
比如我們量化版的AlexNet,1比特權(quán)重,2比特激活,可以達(dá)到51%的top1準(zhǔn)確率。此外,我們將參數(shù)gradient量化為6bit,使得僅通過位運(yùn)算計(jì)算梯度成為可能。量化后的遞歸神經(jīng)網(wǎng)絡(luò)在PennTreebank數(shù)據(jù)集上測(cè)試,精度相當(dāng)于僅用4比特的32比特。最后,我們編寫了二進(jìn)制矩陣乘法GPU內(nèi)核。與未優(yōu)化的GPU內(nèi)核相比,使用它可以在不降低分類精度的情況下,使MNISTQNN運(yùn)行速度提高7倍。
4、手機(jī)上運(yùn)行的深度神經(jīng)網(wǎng)絡(luò)模型-MobileNet文章引用自《從MobileNet看輕量級(jí)神經(jīng)網(wǎng)絡(luò)的發(fā)展》。詳情請(qǐng)點(diǎn)擊原文觀看前言。隨著深度學(xué)習(xí)的火熱,計(jì)算機(jī)視覺領(lǐng)域的卷積神經(jīng)網(wǎng)絡(luò)模型層出不窮。從1998年的LeNet到2012年掀起深度學(xué)習(xí)熱潮的AlexNet,再到2014年的VGG和2015年的ResNet,深度學(xué)習(xí)網(wǎng)絡(luò)模型在圖像處理中的應(yīng)用效果越來越好。
由于硬件資源和計(jì)算能力的限制,移動(dòng)設(shè)備很難運(yùn)行復(fù)雜的深度學(xué)習(xí)網(wǎng)絡(luò)模型。在深度學(xué)習(xí)領(lǐng)域,也在努力推進(jìn)神經(jīng)網(wǎng)絡(luò)的小型化。在保證模型精度的同時(shí),更小更快。從2016年至今,業(yè)界提出了SqueezeNet、ShuffleNet、NasNet、MnasNet、MobileNet等輕量級(jí)網(wǎng)絡(luò)模型。這些模型使得移動(dòng)終端和嵌入式設(shè)備運(yùn)行神經(jīng)網(wǎng)絡(luò)模型成為可能。
5、如何使用網(wǎng)絡(luò)的bottleneck特征提升準(zhǔn)確率一個(gè)稍微考究的方法是使用在大規(guī)模數(shù)據(jù)集上預(yù)先訓(xùn)練好的網(wǎng)絡(luò)。這種網(wǎng)絡(luò)可以在大多數(shù)計(jì)算機(jī)視覺問題上得到很好的特征,利用這種特征我們可以得到更高的精度。我們將使用vgg16網(wǎng)絡(luò),它是在ImageNet數(shù)據(jù)集上訓(xùn)練的。我們之前提到過這個(gè)模型。因?yàn)镮mageNet數(shù)據(jù)集包含多種“貓”和多種“狗”,所以這個(gè)模型已經(jīng)能夠?qū)W習(xí)與我們的數(shù)據(jù)集相關(guān)的特征。
但是我們這里說的方法對(duì)其他類似問題有更好的推廣性,包括ImageNet中沒有出現(xiàn)的類別的分類。VGG16的網(wǎng)絡(luò)結(jié)構(gòu)如下:我們的方法如下:我們會(huì)用網(wǎng)絡(luò)的卷積層部分,把全連接上面的部分扔掉。然后在我們的訓(xùn)練集和測(cè)試集上運(yùn)行,在兩個(gè)numpyarray中記錄輸出(也就是“bottleneckfeature”,全連接前在網(wǎng)絡(luò)最后一層激活的featuremap)。
6、N-ShotLearning:用最少的數(shù)據(jù)訓(xùn)練最多的模型作者|翻譯作者|HeetSankesara |修改作者一中(鄭州大學(xué))和野釣(江蘇科技大學(xué))|唐力和皮塔如果把AI比作電,那么數(shù)據(jù)就是創(chuàng)造電的煤。不幸的是,正如我們看到可用的煤炭是消耗品一樣,許多人工智能應(yīng)用程序很少或沒有數(shù)據(jù)可訪問。新技術(shù)彌補(bǔ)了物質(zhì)資源的不足;還需要新的技術(shù)來保證程序在數(shù)據(jù)很少的情況下正常運(yùn)行。
7、18組-QuoVadis,ActionRecognition?ANewModelandtheKinetics...QuoVadis,行為識(shí)別?動(dòng)力學(xué)數(shù)據(jù)集的新模型和總結(jié)在現(xiàn)有的行為分類數(shù)據(jù)集(ucf 101和HMDB51)中,視頻數(shù)據(jù)的缺乏使得很難確定一個(gè)好的視頻結(jié)構(gòu),大多數(shù)方法在小規(guī)模數(shù)據(jù)集上取得了類似的結(jié)果。本文根據(jù)人類行為動(dòng)力學(xué)重新評(píng)價(jià)這些高級(jí)結(jié)構(gòu)。Kinetics有兩個(gè)數(shù)量級(jí)的數(shù)據(jù),400種人類行為,每種行為都有超過400個(gè)片段,而這些都是從真實(shí)且具有挑戰(zhàn)性的YouTube視頻中收集的。
8、論文閱讀:ImageNetClassificationwithDeepConvolutionalNeural...本文由AlexNet于2010年在ImageNetLSVRC2010中制作。在對(duì)120萬張高分辨率圖片進(jìn)行1000個(gè)類別分類的任務(wù)中,測(cè)試集上top1和top5的錯(cuò)誤率分別為37.5%和17.0%(top5錯(cuò)誤率:即對(duì)一張圖片預(yù)測(cè)五個(gè)類別,只要其中一個(gè)與人工標(biāo)注的類別相同,就是對(duì)的,同樣,top1對(duì)一幅圖像只預(yù)測(cè)了一個(gè)類別),在ImageNetLSVRC2012比賽中,top5的錯(cuò)誤率為15.3%。