蜜桃无码视频,欧美日韩一=三道夲,国产精品午夜AV电影网免费看,aaa.www

歡迎來到 常識詞典網(wǎng) , 一個專業(yè)的常識知識學(xué)習(xí)網(wǎng)站!

[ Ctrl + D 鍵 ]收藏本站

您所在的位置:首頁 > 教育學(xué)習(xí) > 問答

問答

爬蟲如何辨別目錄頁?

分類: 問答 常識詞典 編輯 : 常識 發(fā)布 : 08-22

閱讀 :354

爬蟲如何辨別目錄頁?現(xiàn)在有一堆url,我想根據(jù)這些url爬取網(wǎng)頁,但是那些主頁和目錄頁是沒用的,要怎么辨別并過濾掉這些頁面?例如news.sina.cn/z/cjzxyz...,我要怎么辨別呢?4 個答案

答案 1:

當(dāng)下我采用的是簡單幼稚但還算有效的辦法----鏈接數(shù)目,超過閾值便處理為索引頁,否則判定為內(nèi)容頁。

答案 2:

我猜想可以這樣判斷:1、頁面子鏈個數(shù)很多。2、頁面子鏈的url形式(目錄)有一定共性。3、判斷錨文本占頁面所有文本比重很高。

答案 3:

首先要區(qū)分問題解決的環(huán)境:如果是處理特定的站點,肯定是手工配url pattern,如果是大規(guī)模海量無共性站點,那么@鄭傳義的方法機上@Paul說的特征,毫無疑問是性價比最高的,當(dāng)然如果你對自己自信,可以基于站點構(gòu)型做挖掘最后,這些索引頁是幫你發(fā)現(xiàn)新鏈接的,如果做spider,怎么會沒用呢?

答案 4:

我的想法是這樣的,如果有子url的就是目錄頁,如果沒有的基本都是內(nèi)容頁。但是就是news.sina.cn/z/cjzxyz...,這個這樣下來就不大好辨別了

下一篇:京九線運營至今,盈虧分析究竟如何?大家如何看待? 下一篇 【方向鍵 ( → )下一篇】

上一篇:一般而言,一天睡多少個小時才是正常的、健康的? 上一篇 【方向鍵 ( ← )上一篇】

色土豆亚洲综合| 欧美视频不卡| 色综合久久久久网| 久久成人毛片| 日本三级本道| 国产成人综合久久网站| 欧美十日韩| 五月婷婷综合九月| 久久精品欧美大胆A级| 五月婷婷色网站| 中文字幕亚洲日本欧美| 免费看一级毛片| 日韩精品性爱一三区| 一区二区福利| 国模在线视频 妲己| 少妇被粗大的猛烈进出69影院 | 久久久久电影院9799久久国产综合| 激情一级无码毛片| xxxxx欧美精品一区二区| 亚洲福利综合导航| 大爆乳美女护士| 亚洲另类图片小说春色| 亚洲欧美日本国产一区二区三区| 日韩精品诚人电影| 欧美线精品一三区激情综合| 二级片免费观看| 日韩无码一区中文| 爱超碰| 狠狠地ady亚洲色| 一级毛片5| 日本乱人伦片中文字幕三区| 美丽美女被操国产| 日韩大黄| 国产精品综合色区日韩 | 人人骑人人爽出破| 亚洲日韩欧美精品在线| 欧美乱视频2区| 调教av在线| av粉嫩| 福利一区二区在线观看| 欧美亚洲成人国产一区|