【python】爬取鏈家二手房數據做數據分析【附源碼】

一、前言、

????????在數據分析和挖掘領域中,網絡爬蟲是一種常見的工具,用于從網頁上收集數據。本文將介紹如何使用 Python 編寫簡單的網絡爬蟲程序,從鏈家網上海二手房頁面獲取房屋信息,并將數據保存到 Excel 文件中。

二、效果圖:

  • 導入需要的庫:

    • requests:用于發送 HTTP 請求和獲取網頁內容。
    • BeautifulSoup:用于解析 HTML 內容,提取所需信息。
    • pandas:用于數據處理和保存數據到 Excel 文件。
import requestsfrom bs4 import BeautifulSoupimport pandas as pd

???? 如果出現模塊報錯

c124a1693bfc457ba1f2909ee9d299fc.png

??????? 進入控制臺輸入:建議使用國內鏡像源

pip install 模塊名稱 -i https://mirrors.aliyun.com/pypi/simple

???????? 我大致羅列了以下幾種國內鏡像源:

清華大學
https://pypi.tuna.tsinghua.edu.cn/simple阿里云
https://mirrors.aliyun.com/pypi/simple/豆瓣
https://pypi.douban.com/simple/ 百度云
https://mirror.baidu.com/pypi/simple/中科大
https://pypi.mirrors.ustc.edu.cn/simple/華為云
https://mirrors.huaweicloud.com/repository/pypi/simple/騰訊云
https://mirrors.cloud.tencent.com/pypi/simple/

三、代碼分析

????????首先,我們定義了一個函數 fetch_data(page_number),用于獲取指定頁面的房屋信息數據。這個函數會構建對應頁數的 URL,并發送 GET 請求獲取頁面內容。然后,使用 BeautifulSoup 解析頁面內容,并提取每個房屋信息的相關數據,如區域、房型、關注人數、單價和總價。最終將提取的數據以字典形式存儲在列表中,并返回該列表。

????????接下來,我們定義了主函數 main(),該函數控制整個爬取和保存數據的流程。在主函數中,我們循環爬取前 10 頁的數據,調用 fetch_data(page_number) 函數獲取每一頁的數據,并將數據追加到列表中。然后,將所有爬取的數據存儲在 DataFrame 中,并使用 df.to_excel('lianjia_data.xlsx', index=False) 將數據保存到 Excel 文件中。

最后,在程序的入口處,通過 if __name__ == "__main__": 來執行主函數 main()

四、詳解代碼

  • 定義 fetch_data(page_number) 函數:

    • 這個函數接收一個參數 page_number,表示要爬取的頁面頁數。
    • 構建相應頁數的 URL,并發送 GET 請求獲取頁面內容。
    • 使用 BeautifulSoup 解析頁面內容,并提取每個房屋信息的相關數據,如區域、房型、關注人數、單價和總價。
    • 將提取的數據以字典形式存儲在 rows 列表中,并返回該列表。
# 收集單頁數據 xpanx.comdef fetch_data(page_number):url = f"https://sh.lianjia.com/ershoufang/pg{page_number}/"response = requests.get(url)if response.status_code != 200:print("請求失敗")return []soup = BeautifulSoup(response.text, 'html.parser')rows = []for house_info in soup.find_all("li", {"class": "clear LOGVIEWDATA LOGCLICKDATA"}):row = {}# 使用您提供的類名來獲取數據 xpanx.comrow['區域'] = house_info.find("div", {"class": "positionInfo"}).get_text() if house_info.find("div", {"class": "positionInfo"}) else Nonerow['房型'] = house_info.find("div", {"class": "houseInfo"}).get_text() if house_info.find("div", {"class": "houseInfo"}) else Nonerow['關注'] = house_info.find("div", {"class": "followInfo"}).get_text() if house_info.find("div", {"class": "followInfo"}) else Nonerow['單價'] = house_info.find("div", {"class": "unitPrice"}).get_text() if house_info.find("div", {"class": "unitPrice"}) else Nonerow['總價'] = house_info.find("div", {"class": "priceInfo"}).get_text() if house_info.find("div", {"class": "priceInfo"}) else Nonerows.append(row)return rows# 主函數def main():all_data = []for i in range(1, 11):  # 爬取前10頁數據作為示例print(f"正在爬取第{i}頁...")all_data += fetch_data(i)# 保存數據到Excel xpanx.comdf = pd.DataFrame(all_data)df.to_excel('lianjia_data.xlsx', index=False)print("數據已保存到 'lianjia_data.xlsx'")
  • 定義 main() 函數:

    • 在主函數中循環爬取前 10 頁的數據,調用 fetch_data(page_number) 函數獲取每一頁的數據,并將數據追加到 all_data 列表中。
    • 將所有爬取的數據存儲在 DataFrame 中。
    • 最后使用 df.to_excel('lianjia_data.xlsx', index=False) 將數據保存到名為 lianjia_data.xlsx 的 Excel 文件中。

???????

五、完整代碼

?這段代碼的主要流程是通過循環遍歷頁面頁數,調用 fetch_data(page_number) 函數爬取每一頁的數據,并將數據保存到 Excel 文件中。整體上,這個程序完成了以下幾個主要功能:

  1. 發送 HTTP 請求并獲取網頁內容。
  2. 使用 BeautifulSoup 解析 HTML 內容,提取所需信息。
  3. 將提取的數據存儲在列表中。
  4. 將列表數據轉換為 DataFrame。
  5. 將 DataFrame 數據保存到 Excel 文件中。
import requestsfrom bs4 import BeautifulSoupimport pandas as pd# 收集單頁數據 xpanx.comdef fetch_data(page_number):url = f"https://sh.lianjia.com/ershoufang/pg{page_number}/"response = requests.get(url)if response.status_code != 200:print("請求失敗")return []soup = BeautifulSoup(response.text, 'html.parser')rows = []for house_info in soup.find_all("li", {"class": "clear LOGVIEWDATA LOGCLICKDATA"}):row = {}# 使用您提供的類名來獲取數據 xpanx.comrow['區域'] = house_info.find("div", {"class": "positionInfo"}).get_text() if house_info.find("div", {"class": "positionInfo"}) else Nonerow['房型'] = house_info.find("div", {"class": "houseInfo"}).get_text() if house_info.find("div", {"class": "houseInfo"}) else Nonerow['關注'] = house_info.find("div", {"class": "followInfo"}).get_text() if house_info.find("div", {"class": "followInfo"}) else Nonerow['單價'] = house_info.find("div", {"class": "unitPrice"}).get_text() if house_info.find("div", {"class": "unitPrice"}) else Nonerow['總價'] = house_info.find("div", {"class": "priceInfo"}).get_text() if house_info.find("div", {"class": "priceInfo"}) else Nonerows.append(row)return rows# 主函數def main():all_data = []for i in range(1, 11):  # 爬取前10頁數據作為示例print(f"正在爬取第{i}頁...")all_data += fetch_data(i)# 保存數據到Excel xpanx.comdf = pd.DataFrame(all_data)df.to_excel('lianjia_data.xlsx', index=False)print("數據已保存到 'lianjia_data.xlsx'")if __name__ == "__main__":main()

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/716123.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/716123.shtml
英文地址,請注明出處:http://en.pswp.cn/news/716123.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【JS】解構賦值注意點,解構賦值報錯

報錯代碼 const 小明 { email: 6, pwd: 66 } const 小剛 { email: 9, pwd: 99 }const { email } 小明 const { email } 小剛 報錯圖 原因 2個常量重復,重復在同一個作用域內是不能重復的,例如大括號內{const a 1; const a 2} 小伙伴A提問 問&…

Redis-基礎篇

Redis是一個開源、高性能、內存鍵值存儲數據庫,由 Salvatore Sanfilippo(網名antirez)創建,并在BSD許可下發布。它不僅可以用作緩存系統來加速數據訪問,還可以作為持久化的主數據存儲系統或消息中間件使用。Redis因其數…

leetcode:37.解數獨

題目理解:本題中棋盤的每一個位置都要放一個數字(而N皇后是一行只放一個皇后),并檢查數字是否合法,解數獨的樹形結構要比N皇后更寬更深。 代碼實現:

SpringBoot+Redis 解決海量重復提交問題,yyds!

在實際的開發項目中,一個對外暴露的接口往往會面臨很多次請求,我們來解釋一下冪等的概念:任意多次執行所產生的影響均與一次執行的影響相同。按照這個含義,最終的含義就是 對數據庫的影響只能是一次性的,不能重復處理。如何保證其…

?動類型轉換、強制類型轉換

為何short s1 1;是對的,而float f3.4;是錯的? 整數直接量,默認是int型。所以int a 4L; 會報錯,但是long l 4; 這樣不會,因為這樣會形成一個自動類型的轉換,int類型自動轉換為long類型 小數直接量&#…

JetBrains Gateway Github Copilot 客戶端插件和主機插件

JetBrains Gateway可以通過插件支持Github Copilot(需另行注冊)。 需要安裝插件 客戶端,而非插件 主機,如圖所示: 大概是因為代碼顯示在客戶端(運行在本地的IDE)?

NOC2023軟件創意編程(學而思賽道)python初中組復賽真題

目錄 下載打印原文檔做題: 軟件創意編程 一、參賽范圍 1.參賽組別:小學低年級組(1-3 年級)、小學高年級組(4-6 年級)、初中組。 2.參賽人數:1 人。 3.指導教師:1 人(可空缺)。 4.每人限參加 1 個賽項。 組別確定:以地方教育行政主管部門(教委、教育廳、教育局) 認…

Python 潮流周刊#40:白宮建議使用 Python 等內存安全的語言

△△請給“Python貓”加星標 ,以免錯過文章推送 你好,我是貓哥。這里每周分享優質的 Python、AI 及通用技術內容,大部分為英文。本周刊開源,歡迎投稿[1]。另有電報頻道[2]作為副刊,補充發布更加豐富的資訊,…

三層靶機靶場之環境搭建

下載: 鏈接:百度網盤 請輸入提取碼 提取碼:f4as 簡介 2019某CTF線下賽真題內網結合WEB攻防題庫,涉 及WEB攻擊,內網代理路由等技術,每臺服務器存在一個 Flag,獲取每一 個Flag對應一個積分&…

在docker中搭建selenium 爬蟲環境(3分鐘快速搭建)

1、安裝docker 省略 2、拉取鏡像 docker pull selenium/standalone-chrome-debug 3、運行容器 docker run -d -p 4444:4444 -p 5900:5900 -v C:\Users\Public\VNC_Donwnloads:/home/seluser/Downloads --memory6g --name selenium_chrome selenium/standalone-chrome-debu…

Vue中commit和dispatch區別及其用法辨析

在Vue中,commit和dispatch是兩個用于觸發 Vuex store 中的 mutations 和 actions 的方法。 區別 commit: 用于觸發 mutations,即直接修改 state 的同步操作。通過commit方法可以調用 store 中的 mutations,并且只能同步地執行。使用方式如下…

大數據核心技術概論

大數據核心技術概述 大數據基石三大論文:GFS(Hadoop HDFS)、BigTable(Apache HBase)、MapReduce(Hadoop MapReduce)。 搜索引擎的核心任務:一是數據采集,也就是網頁的爬…

matlab 感知器算法

1. 原理 兩類線性可分的模式類:,設判別函數為:。 對樣本進行規范化處理,即類樣本全部乘以(-1),則有: 感知器算法通過對已知類別的訓練樣本集的學習,尋找一個滿足上式的權向量。 2. 過程 2.1 …

力扣 分割回文串

輸出的是不同的分割方案 class Solution { public:vector<vector<bool>>flag;vector<string>ans;vector<vector<string>>nums;void dfs(string &s,int i){int ns.size();if(in){i表示s長度&#xff0c;等于即全部分割完畢nums.push_back(ans…

第十三篇【傳奇開心果系列】Python的文本和語音相互轉換庫技術點案例示例:Microsoft Azure的Face API開發人臉識別門禁系統經典案例

傳奇開心果博文系列 系列博文目錄Python的文本和語音相互轉換庫技術點案例示例系列 博文目錄前言一、實現步驟和雛形示例代碼二、擴展思路介紹三、活體檢測深度解讀和示例代碼四、人臉注冊和管理示例代碼五、實時監控和報警示例代碼六、多因素認證示例代碼七、訪客管理示例代碼…

mac m3安裝nvm安裝說明;mac安裝xbrew

安裝說明說明&#xff1a; 1.安裝brew /bin/zsh -c "$(curl -fsSL https://gitee.com/cunkai/HomebrewCN/raw/master/Homebrew.sh)"2.安裝nvm brew install nvm3.創建.nvm目錄 mkdir ~/.nvm4.編輯 ~/.zshrc 配置文件 vi ~/.zshrc5.在 ~/.zshrc 配置文件內添加內…

03-JNI 類型和數據結構

上一篇&#xff1a; 02-設計概述 本章討論 JNI 如何將 Java 類型映射為本地 C 類型。 3.1 原始類型 下表描述了 Java 原始類型及其與機器相關的本地等價類型。 為方便起見&#xff0c;定義如下&#xff1a; #define JNI_FALSE 0 #define JNI_TRUE 1 jsize 整數類型用于描述…

邏輯回歸與決策邊界解析

目錄 前言1 邏輯回歸基礎1.1 Sigmoid函數&#xff1a;打開分類之門1.2 決策函數&#xff1a;劃定分類界限1.3 邏輯回歸詳解 2 決策邊界2.1 線性決策邊界2.2 非線性決策邊界2.3 決策邊界的優化 3 應用與實例3.1 垃圾郵件分類&#xff1a;精準過濾3.2 金融欺詐檢測&#xff1a;保…

.idea文件詳解

.idea文件的作用&#xff1a; .idea文件夾是存儲IntelliJ IDEA項目的配置信息&#xff0c;主要內容有IntelliJ IDEA項目本身的一些編譯配置、文件編碼信息、jar包的數據源和相關的插件配置信息。一般用git做版本控制的時候會把.idea文件夾排除&#xff0c;因為這個文件下保存的…

Java實戰:Spring Boot中實現熱搜與不雅文字過濾功能

引言 在當今互聯網產品中&#xff0c;搜索引擎的熱搜功能和內容過濾機制是提升用戶體驗、維護社區秩序的關鍵要素。本文將探討如何在Spring Boot項目中實現熱搜詞追蹤與不雅文字過濾&#xff0c;并通過具體的代碼示例&#xff0c;帶領我們深入了解其實現原理與步驟。 一、實現…