瀏覽數量: 33 作者: 本站編輯 發布時間: 2020-03-09 來源: 本站
網站建設/設計維護時相信大家的網站都有被爬蟲爬過,導致許多核心數據都被競爭對手獲得了。如果非得要研究的話,爬蟲在合適的情況下也是可以被防止的。
我們該怎么防止爬蟲呢?知己知彼才能找到合理應對方式,咱們先從低級的爬蟲開始聊起。
頁面分為動態和靜態,靜態就是純html文件,這樣的數據不要太好爬,直接獲取你的網頁地址就好了。我們可以通過request的方式獲取到頁面源碼,再通過bs4庫按規則對數據提取。
什么是動態頁面呢,有一些公司通過調用接口,然后由js來渲染的叫動態頁面。如果接口簡單,可以直接調接口獲取,但是遇到加密的接口就只能研究其js文件,通過查詢其加密方法進行截取,這也是常用手段。
可是還有更簡單的辦法,無需破譯接口,只要讓瀏覽器模仿人的行為即可。目前小編用的多的就是這個方式。
既然要模擬人來瀏覽網頁,就要研究人的特征。主要有以下幾個點。
1)瀏覽速度不快,看的數據也不多
2)瀏覽器相關參數要有,比如要有cookies, userAgent,以及referce更為重要。