蜜桃无码视频,欧美日韩一=三道夲,国产精品午夜AV电影网免费看,aaa.www

歡迎來到 常識詞典網(wǎng) , 一個專業(yè)的常識知識學習網(wǎng)站!

[ Ctrl + D 鍵 ]收藏本站

您所在的位置:首頁 > 教育學習 > 為什么

為什么

文檔向量直接通過距離聚類和通過LSI降維后再聚類效果會有怎么樣的差異?

分類: 為什么 常識詞典 編輯 : 常識 發(fā)布 : 07-21

閱讀 :331

文檔向量直接通過距離聚類和通過LSI降維后再聚類效果會有怎么樣的差異?在文獻檢索領(lǐng)域,LSI是經(jīng)典的降維手段。但我有一個理論問題沒有解決,而且從實踐看貌似情況有點復雜。問題是“文檔向量直接通過距離聚類和通過LSI降維后再聚類效果會有怎么樣的差異?” 我的實踐效果是這樣的:當構(gòu)成文檔向量空間維度的關(guān)鍵詞比較稀疏時,直接聚類和LSI降維聚類效果都不好;然后我們添加更多關(guān)鍵詞,而關(guān)鍵詞和關(guān)鍵詞的關(guān)聯(lián)相對豐富,這樣可以把隱含的話題(topic)揭示出來,這個時候LSI降維聚類效果會比直接聚類效果好;再然后,添加更多關(guān)鍵詞,反倒聚類效果都不好了。 有什么理論上的依據(jù)可以解釋我的實踐結(jié)果嗎?2 個答案

答案 1:

傳統(tǒng)的聚類方法比如k-means對于高維數(shù)據(jù)的效果是很差的。因為在高維度下距離的度量包含了大量隨機擾動的結(jié)果。用PCA(或者LSI)降維以后那些隨機擾動所在的分量都被濾掉了,所以聚類會有提高??偟膩碚f引入很多沒有信息量又帶來噪聲的維度總是會讓聚類變差的。 另外統(tǒng)計工具經(jīng)過發(fā)展之后已經(jīng)能夠處理高維的聚類問題了,比如LDA或者人工神經(jīng)網(wǎng)絡(luò)一類的方法。

答案 2:

同意勞兄的看法,鄙人一點淺顯的看法是在高維空間中任何兩點間的距離都是很遠的,那么即便聚類后作為特征仍然未必很好。而SVD類的工具要有效地多。

下一篇:HR 們?nèi)绾慰创龖獙蒙@的獎學金? 下一篇 【方向鍵 ( → )下一篇】

上一篇:1900 年之前有用分數(shù)表述地震震級的方法嗎?如果有,是怎樣表述的? 上一篇 【方向鍵 ( ← )上一篇】

午夜久久久久久久| 日韩日本综合网页| 亚洲av不卡一区二区三区| 欧美日韩网| 亚洲综合激情无码乱自慰| 特色av一牛影视| 成熟女人毛片WWW免费版在线| 伊金霍洛旗| 精品欧美国产一区二区三区不卡| 亚洲天美久久| 美女少妇性爱会所| 精品久久久久久久一区二区伦理| 日韩毛片第1000页| 国语人妻对白| 天天草.com| 九九国产精品电影| 亚洲国产欧美日本视频| 熟妇中文第四页| 精品国产一区二区三区无码黄| 丝袜美腿中文字幕在线| 麻豆91Av映画| 澳门无码一区二区三区| 国产91亚洲| 国产女主播激情在线观看| 亚洲中文字幕无码久久2| 无码20| 这里只有精品日本| 最新日韩精品久久精品| 亚洲Av无码精品中字| 无码久久精| 欧美日韩国产码高| 国产熟女一区二区三区灬| 国产欧美最新| 久久优物电影| 亚洲精品少妇二区| 午夜高潮久久久| 亚洲日韩男人天堂| 性色AV无码不卡中文字幕| 亚州Aⅴ| 亚洲色图一道本东京热| 国产小视频网址你懂的|