「爬取豆瓣Top250電影的中文名稱」數據采集、網絡爬蟲

- 第 108 篇 -
Date: 2025 - 06 - 16
Author: 鄭龍浩(仟墨)

文章目錄

    • **任務:爬取豆瓣Tap250電影的中文名稱**
      • **代碼**
      • **實現效果**

任務:爬取豆瓣Tap250電影的中文名稱

代碼

# 豆瓣前Tap 250
import requests
from bs4 import BeautifulSoup
# 檢查獲取是否成功
def check(response):if not response.ok:print(f'請求失敗,服務器錯誤\n狀態碼: {response.status_code}')exit()  # 退出程序# 瀏覽器標識
head = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)'
}# 存儲中文電影名
tap250_movie_title = []
# 獲取每一頁中的電影名(從0到225,star以25為一個步長去增加)
for start in range(0, 226, 25):# 目標網址url = f"https://movie.douban.com/top250?start={start}&filter="# 獲取網頁信息response = requests.get(url, headers=head)# 檢查是否成功獲取check(response)# 存儲HTML源碼html = response.text# 解析HTML,并將返回的對象存至soupsoup = BeautifulSoup(html, "html.parser")# 提取出所有包含著“電影名稱”的元素(標簽),包含中文名字和原本語言名字(每個名字前都有'/')# 解釋:返回的是可迭代對象(列表):找到所有class值為title的<span>元素 (參數1為要查找的標簽;參數2為標簽中的屬性,"class" : "title"為一個鍵值對)all_titles = soup.find_all("span", attrs={"class": "title"})# print(all_titles) # 如果此時將 all_titles 打印出來,打印的是一個列表for title in all_titles:title_string = title.string  # title.string 不要標簽,只要標簽中的文本內容# 只打印中文電影名:只有不含 '/' 的電影名,才不是原版語言電影名,即中文電影名,那就打印if '/' not in title_string:tap250_movie_title.append(title_string)   # 電影名存儲到列表中print('Tap電影如下:')
num = 0
for title in tap250_movie_title:if num % 25 == 0: # 如果一行25個了,則就換行(包括第一行)print()print(f'{num+1} ~ {num + 25}: ', end='\t') # 打印下一行的開頭(表示第多少個電影)num += 1 # 累加以打印電影的個數print(f'{title}', end = '  ')

實現效果

1 ~ 25: 	肖申克的救贖  霸王別姬  泰坦尼克號  阿甘正傳  千與千尋  美麗人生  這個殺手不太冷  星際穿越  盜夢空間  楚門的世界  辛德勒的名單  忠犬八公的故事  海上鋼琴師  三傻大鬧寶萊塢  瘋狂動物城  放牛班的春天  機器人總動員  無間道  控方證人  大話西游之大圣娶親  熔爐  觸不可及  教父  尋夢環游記  當幸福來敲門  
26 ~ 50: 	末代皇帝  哈利·波特與魔法石  龍貓  怦然心動  活著  蝙蝠俠:黑暗騎士  指環王3:王者無敵  我不是藥神  亂世佳人  飛屋環游記  讓子彈飛  哈爾的移動城堡  素媛  十二怒漢  海蒂和爺爺  貓鼠游戲  天空之城  摔跤吧!爸爸  鬼子來了  少年派的奇幻漂流  鋼琴家  指環王2:雙塔奇兵  死亡詩社  大話西游之月光寶盒  何以為家  
51 ~ 75: 	聞香識女人  綠皮書  大鬧天宮  黑客帝國  指環王1:護戒使者  羅馬假日  教父2  獅子王  天堂電影院  飲食男女  辯護人  搏擊俱樂部  本杰明·巴頓奇事  美麗心靈  穿條紋睡衣的男孩  情書  竊聽風暴  兩桿大煙槍  哈利·波特與死亡圣器(下)  音樂之聲  西西里的美麗傳說  功夫  阿凡達  哈利·波特與阿茲卡班的囚徒  看不見的客人  
76 ~ 100: 	拯救大兵瑞恩  沉默的羔羊  小鞋子  飛越瘋人院  布達佩斯大飯店  蝴蝶效應  禁閉島  致命魔術  心靈捕手  低俗小說  超脫  哈利·波特與密室  摩登時代  喜劇之王  殺人回憶  致命ID  春光乍泄  一一  海豚灣  美國往事  加勒比海盜  紅辣椒  七宗罪  唐伯虎點秋香  還有明天  
101 ~ 125: 	狩獵  幽靈公主  甜蜜蜜  蝙蝠俠:黑暗騎士崛起  7號房的禮物  寄生蟲  天書奇譚  超能陸戰隊  愛在黎明破曉前  被嫌棄的松子的一生  第六感  愛在日落黃昏時  重慶森林  入殮師  剪刀手愛德華  未麻的部屋  斷背山  菊次郎的夏天  哈利·波特與火焰杯  借東西的小人阿莉埃蒂  勇敢的心  茶館  頭腦特工隊  時空戀旅人  無人知曉  
126 ~ 150: 	消失的愛人  倩女幽魂  完美的世界  陽光燦爛的日子  馴龍高手  花樣年華  小森林 夏秋篇  天使愛美麗  新世界  傲慢與偏見  一個叫歐維的男人決定去死  側耳傾聽  怪獸電力公司  玩具總動員3  請以你的名字呼喚我  教父3  色,戒  幸福終點站  哪吒鬧海  被解救的姜戈  小森林 冬春篇  九品芝麻官  釜山行  神偷奶爸  螢火之森  
151 ~ 175: 	喜宴  告白  瑪麗和馬克思  頭號玩家  模仿游戲  七武士  大魚  驚魂記  射雕英雄傳之東成西就  血戰鋼鋸嶺  我是山姆  你的名字。  陽光姐妹淘  恐怖直播  黑客帝國3:矩陣革命  背靠背,臉對臉  心靈奇旅  電鋸驚魂  三塊廣告牌  小丑  諜影重重3  達拉斯買家俱樂部  瘋狂原始人  無間道2  綠里奇跡  
176 ~ 200: 	愛在午夜降臨前  海街日記  風之谷  上帝之城  英雄本色  瘋狂的石頭  雨中曲  心迷宮  2001太空漫游  末路狂花  縱橫四海  記憶碎片  盧旺達飯店  高山下的花環  無敵破壞王  小偷家族  冰川時代  恐怖游輪  東京教父  牯嶺街少年殺人事件  魔女宅急便  歲月神偷  忠犬八公物語  荒蠻故事  遺愿清單  
201 ~ 225: 	大佛普拉斯  貧民窟的百萬富翁  芙蓉鎮  源代碼  瘋狂的麥克斯4:狂暴之路  你看起來好像很好吃  東邪西毒  可可西里  爆裂鼓手  城市之光  波西米亞狂想曲  花束般的戀愛  愛樂之城  黑天鵝  機器人之夢  白日夢想家  青蛇  哈利·波特與死亡圣器(上)  終結者2:審判日  初戀這件小事  無恥混蛋  新龍門客棧  雨人  人工智能  虎口脫險  
226 ~ 250: 	崖上的波妞  大紅燈籠高高掛  真愛至上  千鈞一發  羅生門  戀戀筆記本  彗星來的那一夜  哈利·波特與鳳凰社  海邊的曼徹斯特  火星救援  黑客帝國2:重裝上陣  奇跡男孩  螢火蟲之墓  戰爭之王  千年女優  步履不停  諜影重重2  血鉆  蜘蛛俠:平行宇宙  攻殼機動隊  魂斷藍橋  冰雪奇緣  房間  隱藏人物  諜影重重  

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/87401.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/87401.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/87401.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

MySQL 多表查詢、事務

1.多表查詢的分類 1.1 內連接 在 MySQL 中&#xff0c;內連接&#xff08;INNER JOIN&#xff09;返回的是兩個表中滿足連接條件的記錄的交集。這個“交集”不是指整個表&#xff0c;而是指符合連接條件的行組合&#xff0c;也就是A表和B表中滿足我們使用on指定條件的記錄。圖…

CSP-J 2020 入門級 第一輪(初賽) 答案及解析

CSP-J 2020 入門級 第一輪&#xff08;初賽&#xff09; 答案及解析 在內存儲器中每個存儲單元都被賦予一個唯一的序號&#xff0c;稱為&#xff08;&#xff09;。 A. 地址 B. 序號 C. 下標 D. 編號 答: A 計算機中每個存儲單元都是1字節&#xff0c;都有唯一的地址。 編譯器…

Flutter包管理與插件開發完全指南

Flutter作為Google推出的跨平臺移動應用開發框架&#xff0c;其強大的生態系統離不開完善的包管理機制和豐富的插件支持。本文將全面介紹Flutter中的包管理體系和插件開發實踐&#xff0c;幫助開發者高效管理項目依賴并擴展應用功能。 一、Flutter包管理基礎 1.1 包管理概述 …

【視頻直播出海】阿里云ApsaraVideo Live:從零搭建全球直播平臺的“星際航行”指南!

【視頻直播出海】阿里云ApsaraVideo Live&#xff1a;從零搭建全球直播平臺的“星際航行”指南&#xff01; 在全球化浪潮的推動下&#xff0c;視頻直播行業正以前所未有的速度跨越國界&#xff0c;成為連接世界的“數字新橋梁”。對于渴望拓展海外市場的企業而言&#xff0c;…

OAuth2中的Token

兩個不同的Token OAuth2 中主要有兩個不同的Token, 其中的區別為是否與用戶相關聯, 即與用戶相關的用戶Token, 和與客戶端相關的客戶端Token, 可以通過用戶Token, 查詢到用戶的相關信息, 客戶端Token與用戶無關, 一般只用于客戶端認證 用戶Token 獲取用戶Token一般有兩個方式…

使用 FastMCP 實現 Word 文檔與 JSON 數據互轉的 Python 服務

一、項目背景 本文分享一個基于 FastMCP 框架實現的文檔處理服務&#xff0c;可實現 Word 文檔&#xff08;.docx&#xff09;與 JSON 數據格式的雙向轉換。通過此服務&#xff0c;開發者可以輕松實現文檔內容提取、結構化數據填充、樣式模板復用等功能&#xff0c;適用于自動…

Vue3輪播圖組件,當前輪播區域有當前圖和左右兩邊圖,兩邊圖各顯示一半,支持點擊跳轉和手動滑動切換

功能&#xff1a; 自動循環播放&#xff08;到達末尾后回到第一張&#xff09;、可設置切換間隔時間&#xff08;interval屬性&#xff09; 左右導航按鈕&#xff08;可自定義顯示/隱藏&#xff09; 點擊底部指示器跳轉到指定幻燈片、且位置可調&#xff08;輪播圖內部/外部&…

350+交付案例,高質量低成本構建智慧園區數字孿生交付新范式

在智慧園區建設領域&#xff0c;數字孿生技術正成為推動園區智能化轉型的核心引擎。山東融谷信息憑借其全要素、全周期、全方位的數字孿生交付能力&#xff0c;已成功交付350余個項目&#xff0c;覆蓋產業園區、智慧樓宇、智慧社區等多元場景&#xff0c;低成本高質量交付&…

OpenCV 圖像像素類型轉換與歸一化

一、知識點 1、OpenCV支持多種數據類型&#xff0c;每種類型都對應著不同的取值范圍。 (1)、CV_8U取值范圍[0, 255]。 (2)、CV_16U取值范圍[0, 65535]。 (3)、CV_32F取值范圍[0, 1]。 2、OpenCV提供convertTo()函數來轉換數據類型&#xff0c;提供normalize()函數來改…

機器學習算法_支持向量機

一、支持向量機 支持向量機只能做二分類任務 SVM全稱支持向量機&#xff0c;即尋找到一個超平面使樣本分成兩類&#xff0c;且間隔最大 硬間隔&#xff1a;如果樣本線性可分&#xff0c;在所有樣本分類都正確的情況下&#xff0c;尋找最大間隔&#xff1b;如果出現異常值或樣…

Linux : echo ~ tail 重定向符

&#x1f680; Linux 常用命令詳解&#xff1a;echo、tail 與重定向符號全解析&#xff08;含通俗案例&#xff09; &#x1f4c5; 更新時間&#xff1a;2025年6月17日 &#x1f3f7;? 標簽&#xff1a;Linux基礎 | Shell命令 | echo | tail | 輸出重定向 | Linux入門 文章目錄…

uniapp的更新流程【安卓、IOS、熱更新】

UniApp應用更新方案 兩種更新方式 APP全量升級&#xff1a;需要重新下載安裝包熱更新&#xff1a;通過下載wgt資源包實現&#xff0c;用戶只需重啟應用 Android更新實現 用戶需要授權安裝權限&#xff0c;流程為下載APK后自動彈出安裝界面 var dtask plus.downloader.cre…

火山引擎解碼生態型增長鐵律

“技術流量與力量的崛起&#xff0c;本質上是一場生態規模的競賽。每次浪潮的排頭兵&#xff0c;都是指尖沾著代碼的開發者——互聯網時代的Linux社區讓開源席卷全球&#xff0c;移動互聯網的App Store催生百萬開發者&#xff0c;而今天&#xff0c;大模型正在用API重構產業。”…

警惕GO的重復初始化

go的初始化方式有很多種&#xff0c;在某些情況下容易引起重復初始化導致錯誤。 事例如下&#xff1a; 當使用gorm連接數據庫時定義了全局DB var DB *gorm.DB 但是在后面某個函數內部初始化時導致DB重新初始化變成了局部變量&#xff0c;導致原來的全局變量DB還是nil func I…

python校園服務交流系統

目錄 技術棧介紹具體實現截圖系統設計研究方法&#xff1a;設計步驟設計流程核心代碼部分展示研究方法詳細視頻演示試驗方案論文大綱源碼獲取/詳細視頻演示 技術棧介紹 Django-SpringBoot-php-Node.js-flask 本課題的研究方法和研究步驟基本合理&#xff0c;難度適中&#xf…

AlexNet:圖像分類領域的里程碑網絡及其創新剖析

文章目錄 前言AlexNet一、網絡的背景二、網絡結構三、網絡的創新3.1 首次使用GPU訓練網絡3.2 使用Relu激活函數3.2.1 sigmoid激活函數和tanh激活函數3.2.1.1 sigmoid激活函數3.2.1.2 tanh激活函數 3.3 Relu激活函數3.4 使用LRN局部響應歸一化(已棄用)3.4.1 LRN的定義與起源3.4.…

iOS性能調優實踐:結合KeyMob等多個工具提升應用穩定性與流暢度

在iOS應用開發中&#xff0c;性能問題往往難以通過單一工具輕松解決。尤其是當App面臨用戶反饋的流暢度差、卡頓嚴重、內存泄漏等問題時&#xff0c;開發者需要依靠多種工具的組合&#xff0c;才能有效地排查和優化性能瓶頸。 在我們最近的一個項目中&#xff0c;開發團隊在處…

球形波方程的推導與解法

題目 問題 6. 一個球形波是三維波動方程的解,形式為 u ( r , t ) u(r,t) u(r,t),其中 r r r 是到原點的距離(球坐標)。波動方程的形式為: u t t = c 2 ( u r r + 2 r u r ) (球形波方程) . u_{tt} = c^{2} \left( u_{rr} + \frac{2}{r} u_{r} \right) \quad \text{(球形…

自動打電話軟件設計與實現

文章目錄 方案概述實現代碼1. 安裝必要的庫2. 主程序代碼3. HTML模板 (templates/index.html) 功能說明部署說明擴展功能建議注意事項 方案概述 使用Twilio的API進行電話呼叫實現基本的呼叫邏輯添加簡單的用戶界面 實現代碼 1. 安裝必要的庫 pip install twilio flask2. 主…

RedissonLock源代碼分析與鎖應用

文章目錄 前言一、RedissonLock源代碼分析1.1 嘗試加鎖2.2 解鎖 二、鎖業務應用1.服務層方法注解方式 注入鎖1.1 定義DistributedLock 注解類1.2 定義DistributedLockAspect 切片類1.3 嘗試獲取鎖代碼片斷1.4 釋放鎖代碼片斷1.5 服務層注入鎖注解 2.代碼行加鎖2.1 pom.xml文件引…