亚洲乱亚洲乱妇24p,日本理伦片午夜理伦片,99精品无码一区二区毛片免费,国产麻豆一精品一av一免费

您當(dāng)前的位置主頁 > SEO優(yōu)化 > 瀏覽文章

Python無監(jiān)督抽詞

來源:SEO優(yōu)化 2012-10-13

快速提升網(wǎng)站銷量,使用365webcall網(wǎng)站客服系統(tǒng)

如何快速正確分詞,對于SEO來說,是提取tags聚合,信息關(guān)聯(lián)的好幫手。

目前很多分詞工具都是基于一元的分詞法,需要詞庫來輔助。

通過對Google黑板報(bào)第一章的學(xué)習(xí),如何利用統(tǒng)計(jì)模型進(jìn)行分詞。

本方法考慮了3個(gè)維度:

凝聚程度:兩個(gè)字連續(xù)出現(xiàn)的概率并不是各自獨(dú)立的程度。例如“上”出現(xiàn)的概率是1×10^-5,”床”出現(xiàn)的概率是1×10^-10,如果這兩個(gè)字的凝聚程度低,則”上床”出現(xiàn)的概率應(yīng)該和1×10^-15接近,但是事實(shí)上”上床”出現(xiàn)的概率在1×10^-11次方,遠(yuǎn)高于各自獨(dú)立概率之積。所以我們可以認(rèn)為“上床”是一個(gè)詞。

左鄰字聚合熵:分出的詞左邊一個(gè)字的信息量,比如”巴掌”,基本只能用于”打巴掌”,“一巴掌”,“拍巴掌”,反之”過去”這個(gè)詞,前面可以用“走過去”,“跑過去”,“爬過去”,“打過去”,“混過去”,“睡過去”,“死過去”,“飛過去”等等,信息熵就非常高。

右鄰字聚合熵:分出的詞右邊一個(gè)詞的信息量,同上。

下面是一個(gè)利用Python實(shí)現(xiàn)的demo(轉(zhuǎn)自:/?p=682

收藏本文

文章編輯: 365webcall在線客服系統(tǒng)(www.365webcall.com)

我的評論

登錄賬號: 密碼: 快速注冊 | 找回密碼

无码少妇一区二区三区芒果| 欧美三级乱人伦电影| 国产乱人激情h在线观看| 狠狠干狠狠爱| 色拍拍在线精品视频| 女人三a级毛片视频| 少妇被多人c夜夜爽爽av| 国产精品va在线观看无码不卡| 人妻夜夜爽天天爽三区麻豆av网站| 精品一区二区三区自拍图片区| 亚洲av香蕉一区区二区三区| 少妇厨房愉情理伦bd在线观看 | 四虎影视www在线观看免费| 亚洲一区二区观看播放| 黑人上司粗大拔不出来电影| 国产女人的高潮国语对白入口| 欧洲-级毛片内射| 偷看农村妇女牲交| 宝宝好涨水快流出来免费视频 | 亚洲精品乱码久久久久久| 国产精品久久久久乳精品爆| 日日碰狠狠添天天爽无码| 久久永久免费人妻精品下载| 女人与公拘交酡免费网站| 亚洲精品久久久无码av片软件| 亚洲AV无码国产精品色午夜软件 | 母亲とが话しています播放| 18岁禁止入内| 俄罗斯zoom人与zoom| 日韩精品久久久久久免费| 日本极品人妻videossex| 麻豆人妻少妇精品无码专区| 永久黄网站色视频免费直播| 又色又爽又黄又粗暴的小说| 久久精品一区二区三区中文字幕| AAA少妇高潮大片免费看| 美女视频黄是免费| 国产精品99久久久久久宅男| 男人又粗又大女人舒服吗| 边摸边吃奶边做爽免费视频99| 成人片黄网站色大片免费观看cn|