搜索引擎爬蟲(Spider)或者機器人(bot)訪問網站特點及分析
廣告:
搜索引擎UserAgent:
Googlebot Bytespider BLEXBot Baiduspider YisouSpider Googlebot SemrushBot bingbot DotBot 360Spider
DotBot : Mozilla/5.0 (compatible; DotBot/1.1; http://www.opensiteexplorer.org/dotbot, help@moz.com)
Sogou web spider : Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)
Baiduspider :Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
YisouSpider :Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.81 YisouSpider/5.0 Safari/537.36
Bytespider : Mozilla/5.0 (Linux; Android 5.0; SM-G900P Build/LRX21T) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.7938.1115 Mobile Safari/537.36; Bytespider
YandexBot : Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)
bingbot : Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)
360Spider : Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36;360Spider
Googlebot :Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
BLEXBot : Mozilla/5.0 (compatible; BLEXBot/1.0; +http://webmeup-crawler.com/)
SemrushBot:SEMrush 是一個強大的、全面的在線營銷競爭情報平臺,其中包括 SEO、PPC、社交媒體和視頻廣告研究。
Exabot:
AhrefsBot:AhrefsBot是ahrefs.com的一條網絡爬蟲,通過抓取網頁建立索引庫,并提供反向鏈接分析和服務
CCBot: 美國
ZoominfoBot: 美國
CCBot: 美國
robots.txt 禁止寫法:
User-agent:YisouSpider
Disallow:/
User-agent: yisouspider
Disallow: /update
Disallow: /history
禁止抓取 update、history 目錄下網頁
其他:
yisouspider 一搜蜘蛛
FeedDemon 內容采集
BOT/0.1 (BOT for JCE) sql 注入
CrawlDaddy sql 注入
Java 內容采集
Jullo 內容采集
Feedly 內容采集
UniversalFeedParser 內容采集
ApacheBench cc 攻擊器
Swiftbot 無用爬蟲
YandexBot 無用爬蟲
AhrefsBot 無用爬蟲
YisouSpider 無用爬蟲(已被 UC 神馬搜索收購,此蜘蛛可以放開!)
MJ12bot 無用爬蟲
ZmEu phpmyadmin 漏洞掃描
WinHttp 采集 cc 攻擊
EasouSpider 無用爬蟲
HttpClient tcp 攻擊
Microsoft URL Control 掃描
YYSpider 無用爬蟲
jaunty wordpress 爆破掃描器
oBot 無用爬蟲
Python-urllib 內容采集
Indy Library 掃描
FlightDeckReports Bot 無用爬蟲
Linguee Bot 無用爬蟲
每個爬蟲抓取特點:
1.Sogou web:固定同一個IP,如:220.181.125.106,跟普通用戶一樣,抓取每個頁面用同一sessionid,每隔10秒左右抓取一次。
2. so.com 360Spider 每次訪問用不同IP,不同sessionid,間隔時間時長最高可每秒20多次,不同的ip 如:42.236.10.110
3.baidu.com 每次訪問用不同IP,跟普通用戶一樣,抓取每個頁面用不同ip,間隔時間比較長。
4.yisouspider 每次訪問用不同IP,跟普通用戶一樣,抓取每個頁面用不同ip,間隔時間時長時短,有時幾秒一次,全天會經常訪問。
5. DotBot 每次訪問用同一次ip,不同sessionid,間隔時間時長1秒一次,但并不是一直訪問
6. Googlebot 每次訪問用同一次ip,同一sesssionid,間隔時間時長最高可1秒一次,有時一秒訪問兩次,但并不是一直訪問
7. Bytespider 每次訪問用不同IP,不同sessionid,間隔時間時長最高可2秒一次
8. bingbot 每次訪問用不同IP,不同sessionid,間隔時間時長最高可30秒左右一次
9.BLEXBot 同一ip,共sesssionid,間隔時間時長最高可1秒左右一次 176.9.4.107 (德國)
10.SemrushBot 不同ip
11.Exabot 同一ip,3秒左右訪問一次 法國
12. AhrefsBot 不同ip,10秒左右訪問一次 法國
13.ZoominfoBot 不同ip,10秒左右訪問一次 美國
14.CCBot 同一ip,10秒左右訪問一次 美國
so.com頁面轉向代碼:
http://www.so.com/link?m=anXMqRPrMC1q6PSQES2fzEntRMI%2BcimPSHHCVI8wChywVJQUk7CsOzbAj8bdEZJ50ZArarV1d42VFTgyE8I1frrspi7VdsPNg69D0RFp8WwZMR0989UzLfdqJOcUixaneRXNdc2enBhc%3D
<meta content="always" name="referrer">
<script>window.location.replace("http://www.53bk.com/")</script>
<noscript>
<meta http-equiv="refresh" content="0;URL='http://www.53bk.com/'">
</noscript>
cururl:http://www.53bk.com/
refer:http://www.so.com/link?m=anXMqRPrMC1q6PSQES2fzEntRMI+cimPSHHCVI8wChywVJQUk7CsOzbAj8bdEZJ50ZArarV1d42VFTgyE8I1frrspi7VdsPNg69D0RFp8WwZMR0989UzLfdqJOcUixaneRXNdc2enBhc=
Connection:keep-alive
Accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8
Accept-Encoding:gzip, deflate
Accept-Language:zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7
Host:www.53bk.com
Referer:http://www.so.com/link?m=anXMqRPrMC1q6PSQES2fzEntRMI%2BcimPSHHCVI8wChywVJQUk7CsOzbAj8bdEZJ50ZArarV1d42VFTgyE8I1frrspi7VdsPNg69D0RFp8WwZMR0989UzLfdqJOcUixaneRXNdc2enBhc%3D
User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36 OPR/60.0.3255.151
Upgrade-Insecure-Requests:1
百度頁面搜索轉向代碼:
https://www.baidu.com/link?url=ZaRdutd-_FMUyNxbxonyB66E-t5gTkttXPL2NTW4BG7&wd=&eqid=8ffd6569000590ef000000065d0706b8
響應標頭:
Location: http://www.53bk.com/ 302轉向
cururl:http://www.53bk.com/
refer:https://www.baidu.com/link?url=JmHSJr-e53qzYyN-aVzIZRolMVUziTlgfk235j-bzCi&wd=&eqid=93720c1b000149e1000000065d070af3
Connection:keep-alive
Accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8
Accept-Encoding:gzip, deflate
Accept-Language:zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7 CheckCode=2F84
Host:www.53bk.com
Referer:https://www.baidu.com/link?url=JmHSJr-e53qzYyN-aVzIZRolMVUziTlgfk235j-bzCi&wd=&eqid=93720c1b000149e1000000065d070af3
User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36 OPR/60.0.3255.151
Upgrade-Insecure-Requests:1
廣告: