緣起
一位firefox抓取速度慢,想加速,發(fā)現(xiàn)通過(guò)無(wú)界面的瀏覽器取抓取可以快很多,因?yàn)椴挥眠M(jìn)行瀏覽器頁(yè)面渲染,這個(gè)可是非常耗費(fèi)時(shí)間的。這個(gè)理由夠了把。
安裝ghostdriver
因?yàn)間hostdriver已經(jīng)和phantomjs合二為一了,所以直接安裝phantomjs(phantomis是一個(gè)基于webkit的無(wú)界面瀏覽器,瀏覽器能干的他大多能干,是不渲染出后的網(wǎng)頁(yè))
直接下載phantomjs好,由于各個(gè)平臺(tái)的安裝模式差異較大,不多介紹了,百度一把好。
linux or mac 備忘一句
#mac擁護(hù)請(qǐng)?jiān)诘刂废螺d,否則出錯(cuò)kill:9
#https://github.com/eugene1g/phantomjs/releases
#軟鏈接phantomjs
ln -s /where/dir/phantomjs /usr/local/bin/phantomjs
python 測(cè)試
#coding=utf-8
from selenium import webdriver
import time
import os
br=webdriver.PhantomJS('phantomjs')
baseurl="http://quote.eastmoney.com/"
indexurl="stocklist.html"
gourl="%s%s"%(baseurl,indexurl)
br.get(gourl)
print br.title
time.sleep(5)
br.quit()
phantomjs 截圖
#coding=utf-8
from selenium import webdriver
import time
import os
br=webdriver.PhantomJS('phantomjs')
baseurl="http://quote.eastmoney.com/"
indexurl="stocklist.html"
gourl="%s%s"%(baseurl,indexurl)
br.get(gourl)
br.save_screenshot('./股票列表.png')
print "完成"
br.quit()