查看您列出的url,我執行了以下操作:使用wget下載了頁面
將urllib與ipython一起使用并下載了頁面
使用chrome,只保存了url
所有3個都給了我相同的結果文件(相同的大小,相同的內容)。在
這可能是因為我沒有登錄,但我確實看到這個網站包含了大量的javascript來呈現頁面。在
我知道您正在嘗試使用urllib,但是考慮到上述情況,我將使用selenium并將詳細介紹如何開始使用它。這個例子需要selenium和phantomjs,但是對于selenium和firefox也可以這樣做。在from selenium import webdriver
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
browser_agent = "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36"
url = 'https://scrap.tf/stranges/47'
dcap = {}
mydriver = None
dcap = dict(DesiredCapabilities.PHANTOMJS)
dcap["phantomjs.page.settings.userAgent"] = browser_agent
mydriver = webdriver.PhantomJS(desired_capabilities=dcap)
mydriver.implicitly_wait(30)
mydriver.set_window_size(1366,768)
mydriver.get(url)
title = mydriver.title
print (title)
page = mydriver.page_source
# debugging get screen shot to see how we look
mydriver.get_screenshot_as_file('/data/screen/test.png')
這會下載頁面,并且所有javascript都會正確呈現,但是您需要登錄到steam,這需要一些交互。在
您可以通過檢查Chrome或Firefox中的頁面,找到css選擇器或xpath,并使用webdriver find_element函數來確定需要做什么。在
這也允許按鍵和單擊。在