91高清免费看_欧洲精品_好吊日在线视频_肉色超薄丝袜脚交69xx_男人天堂视频_99热色

爬蟲(chóng)使用ip代理注意事項(xiàng)

b b b

爬蟲(chóng)使用ip代理注意事項(xiàng)

  由于爬蟲(chóng)爬取速度過(guò)快,可能會(huì)遇到同一個(gè)IP訪問(wèn)過(guò)于頻繁的問(wèn)題,網(wǎng)站就會(huì)讓我們輸入驗(yàn)證碼再登錄或直接封鎖IP,這樣會(huì)給爬取帶來(lái)極大的不便。

 

 

  通過(guò)使用代理服務(wù)器軟件隱藏IP,在爬取過(guò)程中不斷更換ip地址,就不會(huì)被封鎖,達(dá)到很好的數(shù)據(jù)成果。即使用了ip代理,也不能百分百的保障不會(huì)遇到問(wèn)題,或者IP不會(huì)被封,在使用的過(guò)程中可能會(huì)因?yàn)樾袨閱?wèn)題暴露了,又或者是ip修改器有效性低,導(dǎo)致出現(xiàn)的問(wèn)題,還有其他的一些原因也會(huì)影響到這樣的后果,解決這些問(wèn)題也是有方法的。

 

  1、web端做了一層緩存

 

  挑選一定數(shù)量的ip,每隔2-3分鐘,進(jìn)行檢測(cè),這個(gè)檢測(cè)就不需要是爬取的網(wǎng)站的url,因?yàn)闇y(cè)試過(guò)能夠連接代理訪問(wèn)即可,例如baidu之類的比較大眾的網(wǎng)站.

 

  2、使用了bloomfilter進(jìn)行判重

 

  獲取的ip代理可能之前有判定重復(fù)的,通過(guò)檢查判重,減少資源消耗。每隔一定時(shí)間bf會(huì)被清空,python本身自帶bf,當(dāng)時(shí)好像遇到什么問(wèn)題了,實(shí)際使用與需求有點(diǎn)不符,具體記不清楚了,最后摒棄了自帶的bf,使用了別人的一個(gè)bf on redis的項(xiàng)目.paramiao/pydrbloomfilter其實(shí)我就是想用用bf而已.造輪子花費(fèi)時(shí)間,就暫時(shí)不造了.

 

  3、ip代理通過(guò)輪詢的方式給出

 

  后續(xù)想更新算法,根據(jù)時(shí)間與計(jì)數(shù)挑選。

 

  4、多進(jìn)程進(jìn)行ip判定

 

  防止數(shù)量太多進(jìn)程一直運(yùn)行.目前判定進(jìn)程數(shù)是直接配置在配置文件中的,后面想做到自適應(yīng).

 

  5、數(shù)據(jù)庫(kù)使用redis

 

  redis這里作為兩點(diǎn),一個(gè)是數(shù)據(jù)存儲(chǔ),一個(gè)是web的緩存.而且redis本身又不是很大.用在這里很適合.而且bf-redis項(xiàng)目中,也在使用redis.

 

  6、目標(biāo)網(wǎng)站檢測(cè)使用的反爬蟲(chóng)方式

 

  ip代理,隨機(jī)agent,帶cookie訪問(wèn)。

 

  由于IP會(huì)失效,這可能會(huì)遇到許多問(wèn)題,大家對(duì)于找出原因,對(duì)癥下藥處理,使用動(dòng)態(tài)ip海,海量的IP資源隨意切換,高匿名ip代理可以更好的隱藏起用戶的真實(shí)IP。

 

版權(quán)聲明:本文為ipadsl.cn所屬公司原創(chuàng)作品,未經(jīng)許可,禁止轉(zhuǎn)載!

主站蜘蛛池模板: 毛片视频播放 | 国产专区一区二区三区 | 国产毛片一级 | 欧美人与禽猛交乱配 | 日本高清有码 | 欧美日韩久久 | 性生活短视频 | 国产又粗又长又黄视频 | 夜夜夜夜操 | 五月婷婷六月丁香综合 | 国产女人毛片 | 久久毛片基地 | 精品中文一区 | 毛片高清 | 久草国产视频 | 成人黄色一级片 | 成年人免费网站在线观看 | 91高跟黑色丝袜呻吟在线观看 | 国产成人愉拍精品久久 | 免费观看一区 | 欧美日韩在线影院 | 丁香激情五月 | 中文字幕7 | 免费视频国产 | 久久在线免费视频 | 日韩欧美中文字幕在线播放 | 久久久久久九九九九 | 成人拍拍拍 | 麻生希在线播放 | 国产一区二区毛片 | 综合精品在线 | 成人短视频在线免费观看 | 91丝袜一区在线观看 | 亚洲黄色精品视频 | 日韩精品999 | 亚洲欧洲色| 精品国产乱码一区二区三 | 国产精品福利在线 | 日韩天堂网 | 国产精品福利一区 | 欧美色资源 |