您的位置:軟件測試 > 開源軟件測試 > 開源功能測試工具 > Selenium
Headless模式下的運行Selenium
作者:網(wǎng)絡轉載 發(fā)布時間:[ 2017/5/15 11:53:27 ] 推薦標簽:功能測試 Selenium

  在Python中進行瀏覽器測試時,一般我們會選擇selenium這樣的庫來簡化我們工作量。而有些時候,為了對一些動態(tài)數(shù)據(jù)進行抓取,我們會選擇 PhantomJs 這樣的工具。而在selenium中我們也可以集成Phantomjs對應的驅動,可以很方便的進行對應的操作。
  在Phantomjs的官方網(wǎng)站上,我們可以看到類似如下的字樣:

  在這里引申出1個 headless mode 的概念。而phantomjs與我們常用瀏覽器的區(qū)別是,它不需要GUI界面也可以運行,因此更為節(jié)省資源。
  實際上,對于動態(tài)數(shù)據(jù)的抓取問題對我來說已經(jīng)是很多年之前的事情,無論是基于Phantomjs的 casperjs ,還是使用Qt、GTK這樣的GUI包編寫瀏覽器來進行操作,或者是這里要介紹的selenium的方式,都已經(jīng)成為過去式了。
  而自從在新公司從事自然語言處理方面的工作后,對于這樣的問題實際上基本上都懶得動手了,不如讓同事去做吧。
  大概在1個月前,之前公司坐我隔壁的那個哥們寫了1個分布式的爬蟲框架(實際上關于這方面,個人覺得完全沒有必要,流行的scrapy和pyspider那個好用)時遇到了這樣1個問題,當時他在selenium中使用Phantomjs對某個頁面進行抓取,然后發(fā)現(xiàn)有些東西使用Phantomjs抓取不下來,然后只要使用firefox的方式來進行。這個哥們的博客可以 點擊 。
  而在不久前,chrome宣布支持 headless模式 ,而后firefox跟隨的新聞,再次勾起我無盡的回憶。
  實際上,phantomjs這個工具對于Python的人來說很不習慣,而且還有一些莫名其妙的問題。那么,我們來談談在Firefox和Chrome瀏覽器不原生支持headless模式下,如何使用selenium來實現(xiàn)headless模式進行動態(tài)數(shù)據(jù)的抓取。
  在這里為了方便說明,我們在Linux環(huán)境下進行操作,使用的版本如下:
  Centos==6.8
  Python==2.7.10
  selenium==2.53.0
  Firefox==45.0
  在Linux中有1個很好用的工具xvfb,它是1個X服務可以用于在沒有顯示器的硬件和物理輸入設備上運行,詳細的操作可以 參考 。而關于X服務的內容,請自行百度。比較常見的例子在ssh中進行X11轉發(fā)。
  可以看到,在這里我們需要借助xvfb的方式來實現(xiàn)所謂的headless模式,實際上這個操作10分鐘完成了。
  安裝必需的軟件包
  在這里,我們通過如下的方式安裝需要的軟件包:
  [cat@localhost ~]$ sudo yum install xdg-utils xorg-x11-server-Xvfb xorg-x11-xkb-utils
  如果你使用的是基于Debian的系統(tǒng),比如Ubuntu,那么對應的安裝方式可能為:
  sudo aptitude install xdg-utils xvfb x11-xkb-utils
  安裝xvfb的綁定
  安裝完成xvfb綁定后,一般情況下我們會使用命令的方式來開啟虛擬顯示。而由于本人比較懶是1個特點,因此我們直接將其與我們的腳本一起集成在一起。
  在這里,我們安裝1個 xvfbwrapper 的庫,這個庫用于在你的Python中開啟和關閉xfvb會話。
  在這里,我們直接通過pip進行安裝:
  pip install xvfbwrapper
  編寫對應的代碼
  安裝完綁定依賴后,我們終于可以愉快的開啟編寫代碼了,在這里我們先引入對應的模塊:
  from xvfbwrapper import Xvfb
  接著我們實例化1個實例:
  xvfb = Xvfb()
  接著我們可以開啟及關閉其其會話了:
#!/usr/bin/env python
from selenium import webdriver
from xvfbwrapper import Xvfb
xvfb = Xvfb(width=1280,height=720)
xvfb.start()
print('Start...')
browser = webdriver.Firefox()
browser.get('http://52sox.com')
title = browser.title
print(title)
print("Clean...")
browser.close()
xvfb.stop()
  在這里,我們將其與selenium進行集成,在這里由于時間的關系,簡單的用于獲取個人博客上的標題。
  下面我們進行測試:
  [cat@localhost ~]$ python headless.py
  Start...
  The Kite in the wind
  Clean...
  發(fā)現(xiàn)其可以正常的運行?梢哉f,簡單到?jīng)]有朋友。

軟件測試工具 | 聯(lián)系我們 | 投訴建議 | 誠聘英才 | 申請使用列表 | 網(wǎng)站地圖
滬ICP備07036474 2003-2017 版權所有 上海澤眾軟件科技有限公司 Shanghai ZeZhong Software Co.,Ltd