python爬取豆瓣前25個影片內容的正則表達式練習

通過python正則表達式獲取豆瓣top250的第一頁的25個影片排名,影片名字,影片連接,導演,主演,上映日期,國家,劇情,評分,評價人數的內容

網頁html內容:

 1 <ol class="grid_view">
 2         <li>
 3             <div class="item">
 4                 <div class="pic">
 5                     <em class="">1</em>
 6                     <a href="https://movie.douban.com/subject/1292052/">
 7                         <img width="100" alt="肖申克的救贖" src="https://img3.doubanio.com/view/photo/s_ratio_poster/public/p480747492.jpg" class="">
 8                     </a>
 9                 </div>
10                 <div class="info">
11                     <div class="hd">
12                         <a href="https://movie.douban.com/subject/1292052/" class="">
13                             <span class="title">肖申克的救贖</span>
14                                     <span class="title">&nbsp;/&nbsp;The Shawshank Redemption</span>
15                                 <span class="other">&nbsp;/&nbsp;月黑高飛(港)  /  刺激1995(臺)</span>
16                         </a>
17 
18 
19                             <span class="playable">[可播放]</span>
20                     </div>
21                     <div class="bd">
22                         <p class="">
23                             導演: 弗蘭克·德拉邦特 Frank Darabont&nbsp;&nbsp;&nbsp;主演: 蒂姆·羅賓斯 Tim Robbins /...<br>
24                             1994&nbsp;/&nbsp;美國&nbsp;/&nbsp;犯罪 劇情
25                         </p>
26 
27                         
28                         <div class="star">
29                                 <span class="rating5-t"></span>
30                                 <span class="rating_num" property="v:average">9.6</span>
31                                 <span property="v:best" content="10.0"></span>
32                                 <span>1109414人評價</span>
33                         </div>

代碼:

 1 import requests
 2 import re
 3 url = 'https://movie.douban.com/top250'
 4 headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko'}
 5 response = requests.get(url,headers = headers)
 6 print('影片排名:',re.findall(re.compile(r'<em class="">(.*)</em>'),response.text))
 7 print('影片名字:',re.findall(re.compile(r'<span class="title">(.*)</span>'),response.text))
 8 print("影片連接:",re.findall(re.compile(r'<a href="(.*)" class=""'),response.text))
 9 print('導演:',re.findall(re.compile(r'導演: (.*)&nbsp;&nbsp;&nbsp;'),response.text))
10 print('主演:',re.findall(re.compile(r'主演: (.*)<br>'),response.text))
11 print('上映日期:',re.findall(re.compile(r'(\d\d\d\d)&nbsp;/&nbsp;'),response.text))
12 print('國家:',re.findall(re.compile(r'&nbsp;/&nbsp;(.*)&nbsp;/&nbsp;'),response.text))
13 print('劇情',re.findall(re.compile(r'&nbsp;/&nbsp;劇情 (.*)'),response.text))
14 print('評分',re.findall(re.compile(r'<span class="rating_num" property="v:average">(.*)</span>'),response.text))
15 print('評價人數',re.findall(re.compile(r'<span>(.*)人評價'),response.text))

結果:

轉載于:https://www.cnblogs.com/jiyanjiao-702521/p/9488497.html

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/249697.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/249697.shtml
英文地址，請注明出處：http://en.pswp.cn/news/249697.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！