强奸久久久久久久|草草浮力在线影院|手机成人无码av|亚洲精品狼友视频|国产国模精品一区|久久成人中文字幕|超碰在线视屏免费|玖玖欧洲一区二区|欧美精品无码一区|日韩无遮一区二区

首頁 > 資訊 > 知識 > 中文語料庫,非主流中文網(wǎng)頁

中文語料庫,非主流中文網(wǎng)頁

來源:整理 時(shí)間:2023-09-06 18:43:18 編輯:智能門戶 手機(jī)版

本文目錄一覽

1,非主流中文網(wǎng)頁

http://www.in-fzl.com/

非主流中文網(wǎng)頁

2,國外第一個(gè)語料庫是哪一個(gè)

清華大學(xué)大型通用漢語語料庫
uli09

國外第一個(gè)語料庫是哪一個(gè)

3,北大語料庫 如何下載

找到你要的語料,直接下載不就可以了。把整個(gè)語料庫下載下來,似乎不可能。北大語料庫還行,我就在用,比國家語委語料庫要豐富些,但要注意搜索方法。

北大語料庫 如何下載

4,今日之中文

“是”的意思,也可做系動詞 口訣:“我”用am,“你”用are,is用在“他”、“她”、“它” 英語的主語是“我”的時(shí)候,“是”用am。主語是“他”、“她”或“它”的時(shí)候,“是”用is。主語是“你”、“你們”、“他們”、“我們”或“它們”的時(shí)候,“是”用are。

5,HSK動態(tài)作文語料庫 如何使用

語料庫網(wǎng)址:http://202.112.195.8/hsk/login.asp,注冊后即可登錄使用。用戶也可以登錄北京語言大學(xué)校園網(wǎng)主頁、科研處、漢語水平考試中心、對外漢語研究中心、語言研究所、圖書館的網(wǎng)頁進(jìn)入語料庫。 語料庫建設(shè)及其可持續(xù)發(fā)展,有賴于學(xué)界同仁的大力支持。為使語料庫建設(shè)得到更好更快的發(fā)展,本語料庫擬實(shí)行會員制管理辦法,凡提供外國留學(xué)生的作文語料或其他成篇語料及相關(guān)背景信息的用戶,皆可成為會員,并獲得更高的使用權(quán)限。具體事宜請致函hskcorpus@yeah.net聯(lián)系。

6,文本分類的方法

文本分類問題與其它分類問題沒有本質(zhì)上的區(qū)別,其方法可以歸結(jié)為根據(jù)待分類數(shù)據(jù)的某些特征來進(jìn)行匹配,當(dāng)然完全的匹配是不太可能的,因此必須(根據(jù)某種評價(jià)標(biāo)準(zhǔn))選擇最優(yōu)的匹配結(jié)果,從而完成分類。 后來人們意識到,究竟依據(jù)什么特征來判斷文本應(yīng)當(dāng)隸屬的類別這個(gè)問題,就連人類自己都不太回答得清楚,有太多所謂“只可意會,不能言傳”的東西在里面。人類的判斷大多依據(jù)經(jīng)驗(yàn)以及直覺,因此自然而然的會有人想到何讓機(jī)器像人類一樣自己來通過對大量同類文檔的觀察來自己總結(jié)經(jīng)驗(yàn),作為今后分類的依據(jù)。這便是統(tǒng)計(jì)學(xué)習(xí)方法的基本思想。統(tǒng)計(jì)學(xué)習(xí)方法需要一批由人工進(jìn)行了準(zhǔn)確分類的文檔作為學(xué)習(xí)的材料(稱為訓(xùn)練集,注意由人分類一批文檔比從這些文檔中總結(jié)出準(zhǔn)確的規(guī)則成本要低得多),計(jì)算機(jī)從這些文檔中挖掘出一些能夠有效分類的規(guī)則,這個(gè)過程被形象的稱為訓(xùn)練,而總結(jié)出的規(guī)則集合常常被稱為分類器。訓(xùn)練完成之后,需要對計(jì)算機(jī)從來沒有見過的文檔進(jìn)行分類時(shí),便使用這些分類器來進(jìn)行。這些訓(xùn)練集包括sogou文本分類分類測試數(shù)據(jù)、中文文本分類分類語料庫,包含Arts、Literature等類別的語料文本、可用于聚類的英文文本數(shù)據(jù)集、網(wǎng)易分類文本分類文本數(shù)據(jù)、tc-corpus-train(語料庫訓(xùn)練集,適用于文本分類分類中的訓(xùn)練)、2002年中文網(wǎng)頁分類訓(xùn)練集CCT2002-v1.1等?,F(xiàn)如今,統(tǒng)計(jì)學(xué)習(xí)方法已經(jīng)成為了文本分類領(lǐng)域絕對的主流。主要的原因在于其中的很多技術(shù)擁有堅(jiān)實(shí)的理論基礎(chǔ)(相比之下,知識工程方法中專家的主觀因素居多),存在明確的評價(jià)標(biāo)準(zhǔn),以及實(shí)際表現(xiàn)良好。統(tǒng)計(jì)分類算法將樣本數(shù)據(jù)成功轉(zhuǎn)化為向量表示之后,計(jì)算機(jī)才算開始真正意義上的“學(xué)習(xí)”過程。常用的分類算法為:決策樹,Rocchio,樸素貝葉斯,神經(jīng)網(wǎng)絡(luò),支持向量機(jī),線性最小平方擬合,kNN,遺傳算法,最大熵,Generalized Instance Set等。在這里只挑幾個(gè)最具代表性的算法侃一侃。Rocchio算法Rocchio算法應(yīng)該算是人們思考文本分類問題時(shí)最先能想到,也最符合直覺的解決方法?;镜乃悸肥前岩粋€(gè)類別里的樣本文檔各項(xiàng)取個(gè)平均值(例如把所有 “體育”類文檔中詞匯“籃球”出現(xiàn)的次數(shù)取個(gè)平均值,再把“裁判”取個(gè)平均值,依次做下去),可以得到一個(gè)新的向量,形象的稱之為“質(zhì)心”,質(zhì)心就成了這 個(gè)類別最具代表性的向量表示。再有新文檔需要判斷的時(shí)候,比較新文檔和質(zhì)心有多么相像(八股點(diǎn)說,判斷他們之間的距離)就可以確定新文檔屬不屬于這個(gè)類。 稍微改進(jìn)一點(diǎn)的Rocchio算法不僅考慮屬于這個(gè)類別的文檔(稱為正樣本),也考慮不屬于這個(gè)類別的文檔數(shù)據(jù)(稱為負(fù)樣本),計(jì)算出來的質(zhì)心盡量靠近正樣本同時(shí)盡量遠(yuǎn)離負(fù)樣本。Rocchio算法做了兩個(gè)很致命的假設(shè),使得它的性能出奇的差。一是它認(rèn)為一個(gè)類別的文檔僅僅聚集在一個(gè)質(zhì)心的周圍,實(shí)際情況往往不是如此(這樣的數(shù)據(jù)稱為線性不可分的);二是它假設(shè)訓(xùn)練數(shù)據(jù)是絕對正確的,因?yàn)樗鼪]有任何定量衡量樣本是否含有噪聲的機(jī)制,因而也就對錯誤數(shù)據(jù)毫無抵抗力。不過Rocchio產(chǎn)生的分類器很直觀,很容易被人類理解,算法也簡單,還是有一定的利用價(jià)值的,常常被用來做科研中比較不同算法優(yōu)劣的基線系統(tǒng)(Base Line)。樸素貝葉斯算法貝葉斯算法關(guān)注的是文檔屬于某類別概率。文檔屬于某個(gè)類別的概率等于文檔中每個(gè)詞屬于該類別的概率的綜合表達(dá)式。而每個(gè)詞屬于該類別的概率又在一定程度上 可以用這個(gè)詞在該類別訓(xùn)練文檔中出現(xiàn)的次數(shù)(詞頻信息)來粗略估計(jì),因而使得整個(gè)計(jì)算過程成為可行的。使用樸素貝葉斯算法時(shí),在訓(xùn)練階段的主要任務(wù)就是估計(jì)這些值。樸素貝葉斯算法的公式并不是只有一個(gè)。首先對于每一個(gè)樣本中的元素要計(jì)算先驗(yàn)概率。其次要計(jì)算一個(gè)樣本對于每個(gè)分類的概率,概率最大的分類將被采納。所以其中P(d| Ci)=P(w1|Ci) P(w2|Ci) …P(wi|Ci) P(w1|Ci) …P(wm|Ci) (式1)P(w|C)=元素w在分類為C的樣本中出現(xiàn)次數(shù)/數(shù)據(jù)整理后的樣本中元素的總數(shù)(式2)這其中就蘊(yùn)含著樸素貝葉斯算法最大的兩個(gè)缺陷。首先,P(d| Ci)之所以能展開成(式1)的連乘積形式,就是假設(shè)一篇文章中的各個(gè)詞之間是彼此獨(dú)立的,其中一個(gè)詞的出現(xiàn)絲毫不受另一個(gè)詞的影響(回憶一下概率論中變 量彼此獨(dú)立的概念就可以知道),但這顯然不對,即使不是語言學(xué)專家的我們也知道,詞語之間有明顯的所謂“共現(xiàn)”關(guān)系,在不同主題的文章中,可能共現(xiàn)的次數(shù) 或頻率有變化,但彼此間絕對談不上獨(dú)立。其二,使用某個(gè)詞在某個(gè)類別訓(xùn)練文檔中出現(xiàn)的次數(shù)來估計(jì)P(wi|Ci)時(shí),只在訓(xùn)練樣本數(shù)量非常多的情況下才比較準(zhǔn)確(考慮扔硬幣的問題,得通過大量觀 察才能基本得出正反面出現(xiàn)的概率都是二分之一的結(jié)論,觀察次數(shù)太少時(shí)很可能得到錯誤的答案),而需要大量樣本的要求不僅給前期人工分類的工作帶來更高要求 (從而成本上升),在后期由計(jì)算機(jī)處理的時(shí)候也對存儲和計(jì)算資源提出了更高的要求。但是稍有常識的技術(shù)人員都會了解,數(shù)據(jù)挖掘中占用大量時(shí)間的部分是數(shù)據(jù)整理。在數(shù)據(jù)整理階段,可以根據(jù)詞匯的情況生成字典,刪除冗余沒有意義的詞匯,對于單字和重要的詞組分開計(jì)算等等。這樣可以避免樸素貝葉斯算法的一些問題。其實(shí)真正的問題還是存在于算法對于信息熵的計(jì)算方式。樸素貝葉斯算法在很多情況下,通過專業(yè)人員的優(yōu)化,可以取得極為良好的識別效果。最為人熟悉的兩家跨國軟件公司在目前仍采用樸素貝葉斯算法作為有些軟件自然語言處理的工具算法。kNN算法最近鄰算法(kNN):在給定新文檔后,計(jì)算新文檔特征向量和訓(xùn)練文檔集中各個(gè)文檔的向量的相似度,得到K篇與該新文 檔距離最近最相似的文檔,根據(jù)這K篇文檔所屬的類別判定新文檔所屬的類別(注意這也意味著kNN算法根本沒有真正意義上的“訓(xùn)練”階段)。這種判斷方法很 好的克服了Rocchio算法中無法處理線性不可分問題的缺陷,也很適用于分類標(biāo)準(zhǔn)隨時(shí)會產(chǎn)生變化的需求(只要刪除舊訓(xùn)練文檔,添加新訓(xùn)練文檔,就改變了 分類的準(zhǔn)則)。kNN唯一的也可以說最致命的缺點(diǎn)就是判斷一篇新文檔的類別時(shí),需要把它與現(xiàn)存的所有訓(xùn)練文檔全都比較一遍,這個(gè)計(jì)算代價(jià)并不是每個(gè)系統(tǒng)都能夠承受的(比 如我將要構(gòu)建的一個(gè)文本分類系統(tǒng),上萬個(gè)類,每個(gè)類即便只有20個(gè)訓(xùn)練樣本,為了判斷一個(gè)新文檔的類別,也要做20萬次的向量比較!)。一些基于kNN的 改良方法比如Generalized Instance Set就在試圖解決這個(gè)問題。kNN也有另一個(gè)缺點(diǎn),當(dāng)樣本不平衡時(shí),如一個(gè)類的樣本容量很大,而其他類樣本容量很小時(shí),有可能導(dǎo)致當(dāng)輸入一個(gè)新樣本時(shí),該樣本的K個(gè)鄰居中大容量類的樣本占多數(shù)。 SVM(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解決小樣本、非線性及高維模式識別中表現(xiàn)出許多特有的優(yōu)勢,并能夠推廣應(yīng)用到函數(shù)擬合等其他機(jī)器學(xué)習(xí)問題中。支持向量機(jī)方法是建立在統(tǒng)計(jì)學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理基礎(chǔ)上的,根據(jù)有限的樣本信息在模型的復(fù)雜性(即對特定訓(xùn)練樣本的學(xué)習(xí)精度,Accuracy)和學(xué)習(xí)能力(即無錯誤地識別任意樣本的能力)之間尋求最佳折衷,以期獲得最好的推廣能力(或稱泛化能力)。SVM 方法有很堅(jiān)實(shí)的理論基礎(chǔ),SVM 訓(xùn)練的本質(zhì)是解決一個(gè)二次規(guī)劃問題(Quadruple Programming,指目標(biāo)函數(shù)為二次函數(shù),約束條件為線性約束的最優(yōu)化問題),得到的是全局最優(yōu)解,這使它有著其他統(tǒng)計(jì)學(xué)習(xí)技術(shù)難以比擬的優(yōu)越性。 SVM分類器的文本分類效果很好,是最好的分類器之一。同時(shí)使用核函數(shù)將 原始的樣本空間向高維空間進(jìn)行變換,能夠解決原始樣本線性不可分的問題。其缺點(diǎn)是核函數(shù)的選擇缺乏指導(dǎo),難以針對具體問題選擇最佳的核函數(shù);另外SVM 訓(xùn)練速度極大地受到訓(xùn)練集規(guī)模的影響,計(jì)算開銷比較大,針對SVM 的訓(xùn)練速度問題,研究者提出了很多改進(jìn)方法,包括Chunking 方法、Osuna算法、SMO 算法和交互SVM 等。SVM分類器的優(yōu)點(diǎn)在于通用性較好,且分類精度高、分類速度快、分類速度與訓(xùn)練樣本個(gè)數(shù)無關(guān),在查準(zhǔn)和查全率方面都略優(yōu)于kNN及樸素貝葉斯方法。
文章TAG:中文語料庫非主流中文網(wǎng)頁

最近更新

  • 我是未來女機(jī)器人,未來的機(jī)器人優(yōu)秀作文我是未來女機(jī)器人,未來的機(jī)器人優(yōu)秀作文

    我女朋友是2763-1機(jī)器人。什么叫我女朋友是機(jī)器人?日本電影里女朋友是機(jī)器人,日本電影里女朋友是機(jī)器人,我覺得那個(gè)未來是機(jī)器人靈魂轉(zhuǎn)世不是機(jī)器人你沒有靈魂,如果女性機(jī)器人可以代替女性.....

    知識 日期:2023-09-06

  • 測線,光電測距儀對測線的要求是什么測線,光電測距儀對測線的要求是什么

    光電測距儀對測線的要求是什么2,綜合布線中有一項(xiàng)工作是測線就是測試這一根雙絞線的一端在哪個(gè)3,萬用表怎么測線的長度求方法4,用萬用表怎樣測線的通斷用歐姆然后再怎么測量線5,網(wǎng)線測線器.....

    知識 日期:2023-09-06

  • gnd是什么意思,主板接線不知道怎么接啊GND是什么意思DUMMY是什么意思gnd是什么意思,主板接線不知道怎么接啊GND是什么意思DUMMY是什么意思

    主板接線不知道怎么接啊GND是什么意思DUMMY是什么意思2,弱電端子上GNDPUSHcontrol分別是什么意思3,GND是什么意思4,音響上的GND什么意思5,地線GND是什么意思6,主板線怎么連GND是什么如圖1,主.....

    知識 日期:2023-09-06

  • 京東良研,通州車587路春節(jié)期間有車嗎京東良研,通州車587路春節(jié)期間有車嗎

    通州車587路春節(jié)期間有車嗎2,為什么耳機(jī)不耐用也沒有買垃圾貨啊3,廈門大學(xué)嘉庚學(xué)院是什么路什么街4,北京通州582早班車幾點(diǎn)5,燕郊密云多長時(shí)間6,腎癌能活多久1,通州車587路春節(jié)期間有車嗎587.....

    知識 日期:2023-09-06

  • gps技術(shù),什么是gpsgps技術(shù),什么是gps

    什么是gps2,什么是GPS3,GPS定位技術(shù)的發(fā)展過程4,了解下GPS技術(shù)在大家的物流系統(tǒng)中應(yīng)用得多么5,GPS有什么用有那些功能給人民可帶來什么幫助1,什么是gps全球定位系統(tǒng)2,什么是GPS就是衛(wèi)星定位.....

    知識 日期:2023-09-06

  • 小米5自動亮度不好用,小米自動亮度太暗怎么解決小米5自動亮度不好用,小米自動亮度太暗怎么解決

    小米5為什么自動亮屏?小米5總是自動屏幕亮是怎么回事?為什么小米5屏幕亮自動,以及小米5手機(jī)鎖屏后亮自動?小米5舊自動亮屏原因:后臺有其他軟件在運(yùn)行自動,建議在進(jìn)程管理中關(guān)閉正在運(yùn)行的軟.....

    知識 日期:2023-09-06

  • 模擬電路基礎(chǔ),模擬電路基礎(chǔ)的內(nèi)容簡介模擬電路基礎(chǔ),模擬電路基礎(chǔ)的內(nèi)容簡介

    模擬電路基礎(chǔ)的內(nèi)容簡介2,模擬電路的基礎(chǔ)是什么3,模擬電路基礎(chǔ)4,模電基礎(chǔ)知識5,模擬電路基礎(chǔ)知識是什么6,模擬電路基礎(chǔ)知識1,模擬電路基礎(chǔ)的內(nèi)容簡介各部分教學(xué)內(nèi)容參考學(xué)時(shí)見下表。本書由黃.....

    知識 日期:2023-09-06

  • ic驗(yàn)證,IC認(rèn)證IC認(rèn)證多少錢什么是IC認(rèn)證什么ic驗(yàn)證,IC認(rèn)證IC認(rèn)證多少錢什么是IC認(rèn)證什么

    IC認(rèn)證IC認(rèn)證多少錢什么是IC認(rèn)證什么2,怎樣成為IC驗(yàn)證工程師3,ic驗(yàn)證主要做什么iclayout呢4,ICVerificationEngineer是什么意思5,IC驗(yàn)證工程師的職業(yè)概述6,IC認(rèn)證工程師的工作前景怎樣1,IC認(rèn).....

    知識 日期:2023-09-06