国产1级片-国产1级毛片-国产18在线-国产1-日韩欧美偷拍-日韩欧美天堂

Menu

[官方]百度蜘蛛抓取流量暴增的原因

網站建設 錄入時間 2023-09-16 閱讀次數 無雙建站
  先我們來說說這兩個問題,百度是怎么計算分配抓取流量的呢?站點抓取流量暴增的原因有哪些呢?

  總體來說,Baiduspider會根據站點規模、歷網站每天新產出的鏈接數量、已抓取網頁的綜合質量打分等等,來綜合計算抓取流量,同時兼顧站長在抓取頻次工具里設置的、網站可承受的大抓取值。
百度站長平臺   從目前追查過的抓取流量突增的case中,原因可以分為以下幾種:

  1、Baiduspider發現站內JS代碼較多,調用大量資源針對JS代碼進行解析抓取;
  2、百度其他部門(如商業、圖片等)的spider在抓取,但流量沒有控制好;
  3、已抓取的鏈接,打分不夠好,垃圾過多,導致spider重新抓取;
  4、站點被攻擊,有人仿冒百度爬蟲(見下文關于BaiduSpider)。

  如果站長排除了自身問題、仿冒問題,確認BaiduSpider抓取流量過大的話,可以通過百度的反饋中心(http://zhanzhang.baidu.com/feedback)反饋,注:一定要提供詳細的抓取日志截圖。

  關于BaiduSpider

  如何正確識別Baiduspider移動ua

  新版移動ua:

  Mozilla/5.0(Linux;u;Android4.2.2;zh-cn;)

  AppleWebKit/534.46(KHTML,likeGecko)

  Version/5.1MobileSafari/10600.6.3(compatible;Baiduspider/2.0;+http://www.baidu.com/search/spider.html)

  PCua:Mozilla/5.0(compatible;Baiduspider/2.0;+http://www.baidu.com/search/spider.html)

  之前通過“+http://www.baidu.com/search/spider.html”進行識別的網站請注意!需要修改識別方式,新的正確的識別Baiduspider移動ua的方法如下:

  1、通過關鍵詞“Android”或者“Mobile”來進行識別,判斷為移動訪問或者抓取;
  2、通過關鍵詞“Baiduspider/2.0”,判斷為百度爬蟲。

  另外需要強調的是,對于robots封禁,如果封禁的agent是Baiduspider,會對PC和移動同時生效。即無論是PC還是移動Baiduspider,都不會對封禁對象進行抓取。之所以要強調這一點,是發現有些代碼適配站點(同一個url,PCua打開的時候是PC頁,移動ua打開的時候是移動頁),想通過設置robots的agent封禁達到只讓移動Baiduspider抓取的目的,但由于PC和移動Baiduspider的agent都是Baiduspider,這種方法是非常不可取的。

  如何識別百度蜘蛛

  百度蜘蛛對于站長來說可謂上賓,可是也有站長會發出這樣的疑問:

  我們如何判斷瘋狂抓我們網站內容的蜘蛛是不是百度的?

  其實站長可以通過DNS反查IP的方式判斷某只spider是否來自百度搜索引擎。根據平臺不同驗證方法不同,如linux/windows/os三種平臺下的驗證方法分別如下:

  1、在linux平臺下,可以使用hostip命令反解ip來判斷是否來自Baiduspider的抓取。Baiduspider的hostname以*.baidu.com或*.baidu.jp的格式命名,非*.baidu.com或*.baidu.jp即為冒充。
  2、在windows平臺或者IBMOS/2平臺下,可以使用nslookupip命令反解ip來判斷是否來自Baiduspider的抓取。打開命令處理器輸入nslookupxxx.xxx.xxx.xxx(IP地址)就能解析ip,來判斷是否來自Baiduspider的抓取,Baiduspider的hostname以*.baidu.com或*.baidu.jp的格式命名,非*.baidu.com或*.baidu.jp即為冒充。
  3、在macos平臺下,您可以使用dig命令反解ip來判斷是否來自Baiduspider的抓取。打開命令處理器輸入digxxx.xxx.xxx.xxx(IP地址)就能解析ip,來判斷是否來自Baiduspider的抓取,Baiduspider的hostname以*.baidu.com或*.baidu.jp的格式命名,非*.baidu.com或*.baidu.jp即為冒充。

  BaiduspiderIP是多少

  即便很多站長知道了如何判斷百度蜘蛛,仍然會不斷地問“百度蜘蛛IP是多少”。并想將百度蜘蛛所在IP加入白名單,只準白名單下IP對網站進行抓取,避免被采集等行為。

  百度方面表示,不建議站長這樣做。雖然百度蜘蛛的確有一個IP池,真實IP在這個IP池內切換,但無法保證這個IP池整體不會發生變化。所以,建議站長勤看日志,發現惡意蜘蛛后放入黑名單,以保證百度的正常抓取。

  同時,百度方面還強調:通過IP來分辨百度蜘蛛的屬性是非常可笑的事情,所謂的“沙盒蜘蛛”“降權蜘蛛”等等是從來都不存在的。

【版權聲明】:本站內容來自于與互聯網(注明原創稿件除外),供訪客免費學習需要。如文章或圖像侵犯到您的權益,請及時告知,我們第一時間刪除處理!謝謝!

無雙科技
如何獲取外貿詢盤和訂單?
網站建設咨詢:13534259410

經典客戶案例展示

深圳無雙科技 - 專注于高端網站建設、網站設計開發、品牌網站制作

咨詢電話:13534259410

售后服務:13534259410  (7×24小時)
在線 Q Q:253849310 (售前咨詢)

深圳網站建設咨詢
【掃一掃咨詢】
  • 掃一掃 在線咨詢
    無雙科技官方公眾號
  • 響應式客戶端
    掃一掃 關注好友
體驗創新服務

深圳無雙科技,專注于深圳網站建設、深圳網站設計、深圳網站制作。
服務客戶超3000家,一站式網站建設及推廣營銷解決方案提供商。
我們的價值觀:誠信、坦誠、盡責、創新。期待與您合作!

您好,很高興為您服務 ^_^
主站蜘蛛池模板: 鬼吹灯黄皮子坟| 何以笙箫默豆瓣| 纳尼亚传奇4在线观看免费完整版 虞书欣新剧永夜星河免费观看 | 纵横欲海| 双重曝光韩剧在线观看| 最佳嫌疑人电影免费观看| 二胡独奏北国之春| 成人免费视频观看视频| 俺去也电影网| s0hu搜狐| 神宫寺奈绪作品| 重生2003| 女孩们的周末| 浙江省全省地图| 伊藤爱子| 墓王之王动漫完整版在线观看 | 鲁滨逊漂流记阅读笔记| 绿门背后| 民国往事电视剧演员表| 幸福年民乐合奏曲简谱| 遥远的天熊山电影完整版在线观看| 中国人免费观看| 黄海冰主演电视剧大全| busty milf| 邪教档案| 我的电影在线观看| 爱神的诱惑| 苏州标志性建筑大裤衩| 白蛇三| 美丽的坏女人中文字幕| 法医秦明之幸存者 2018 经超| 部队肩章等级排名图片| 俱乐部的女人| 二年级上册数学试卷题全套| 七龙珠2| 火火| 超薄轻舞玉女女裤广场舞| 汽球造型| 乔什布洛林| yy五项滚刀骂人套词| 39天 电影|