首先查看當當網好評書單頁面,找到翻頁的URL參數
直接用requests請求頁面
resp = requests.get(url)
?
找到想要的信息,使用正則表達式把這些信息提取出來
pattern=re.compile('list_num.*?(\d+).<.*?<img src="(.*?)".*?title="(.*?)".*?tuijian">(.*?)</span>.*?title="(.*?)".*?<span>(\d{4}-\d{2}-\d{2}).*?(\d+)次.*?price_n">¥(.*?)</span>.*?price_r">¥(.*?)</span>',re.S)
items = re.findall(pattern,html)
打印出來看看是否提取到
把信息保存下來就可以了
完整代碼如下
?