文章目錄
- Python下載安裝
- 開發工具IDEA
- 包管理
- 安裝pip
- 基本用法
- 從 requirements.txt 安裝依賴
- 項目示例
- 部署
- 在 Linux 上安裝Python
- 在 Linux 上創建虛擬環境:
- 安裝依賴:
- 運行你的爬蟲
Python下載安裝
Python 安裝包下載地址:https://www.python.org/downloads/
- https://www.python.org/downloads/windows/
1.有兩個版本的 Python,分別是 Python 3.x 和 Python 2.x,選擇3.x
embeddable zip file
表示.zip
格式的綠色免安裝版本,可以直接嵌入(集成)到其它的應用程序中;executable installer
表示.exe
格式的可執行程序,這是完整的離線安裝包,一般選擇這個即可;
2.下載安裝,勾選ADD python to PATH,安裝即可
3.驗證
# 在控制臺輸入python
python
# 輸出
Python 3.7.9 (tags/v3.7.9:13c94747c7, Aug 17 2020, 18:58:18) [MSC v.1900 64 bit (AMD64)] on win32
Type "help", "copyright", "credits" or "license" for more information.
# 輸入exit()退出
exit()
開發工具IDEA
1.下載Python插件
2.新建項目
其中的環境類型為:選擇第一個虛擬環境【python-virtualenv】
虛擬環境為您的Python包提供了一個干凈的工作空間,以便您安裝的庫不會與為其他項目安裝的庫發生沖突。
包管理
類似java中的maven,python有很多優秀的管理工具pip、anaconda、poetry
這里我們使用自帶的pip
安裝pip
大多數情況下,Python 安裝時已經包含了 pip
。您可以通過以下命令檢查是否已安裝:
pip --version
如果沒有安裝,可以使用以下命令安裝:
python -m ensurepip --default-pip
基本用法
一般來說,第三方庫都會在Python官方的pypi.python.org網站注冊,要安裝一個第三方庫,必須先知道該庫的名稱,可以在官網或者pypi上搜索,比如Pillow的名稱叫Pillow,因此,安裝Pillow的命令就是:
pip install Pillow
# 查看已安裝的包
pip list
# 查找包
pip search package_name
# 安裝包
pip install package_name
# 安裝特定版本
pip install package_name==1.2.3
# 安裝大于或等于某版本的最新版
pip install "package_name>=1.2.3"
# 升級包 到最新版本
pip install --upgrade package_name
# 卸載包
pip uninstall package_name
# 查看包的信息
pip show package_name
#
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple requests
從 requirements.txt 安裝依賴
如果您有一個 requirements.txt
文件,其中列有項目依賴的包及其版本,可以使用以下命令一次性安裝它們:
pip install -r requirements.txt
requirements.txt示例
# 項目依賴列表
package1==1.2.3
package2>=2.0.0
package3<4.0.0
根據具體的包和版本要求來編輯這個文件。通常,在團隊協作或部署項目時,使用 requirements.txt
是一種標準的做法,以確保每個開發者或部署環境都使用相同的依賴版本。
導出依賴信息
在你的項目目錄下,運行以下命令,將當前虛擬環境的依賴導出到 requirements.txt
文件:
pip freeze > requirements.txt
這會生成一個包含項目依賴的文件,其中包括 requests
和 beautifulsoup4
。
項目示例
網絡爬蟲是一種自動化程序,用于抓取互聯網上的數據。網絡爬蟲可以自動訪問網頁、解析網頁內容、提取所需數據、存儲數據等。通過使用網絡爬蟲,我們可以獲取大量的數據,從而進行數據分析、數據挖掘等應用。
- 在抓取網站數據時,需要遵守網站的robots協議和使用條款等規定,不得未經授權地進行抓取。
- 在抓取網站數據時,需要考慮網絡性能和資源消耗,避免對網站造成不必要的負擔。
- 在抓取網站數據時,需要考慮數據質量和數據安全,避免抓取到惡意數據或錯誤數據。
網絡爬蟲常用庫如下:
- requests庫:用于發送HTTP請求和接收HTTP響應。例如,使用requests.get(url)來發送GET請求,使用requests.post(url, data)來發送POST請求。
- BeautifulSoup庫:用于解析HTML和XML文檔。例如,使用BeautifulSoup(html, ‘html.parser’)來解析HTML文檔,使用BeautifulSoup(xml, ‘xml’)來解析XML文檔。
以下是一個爬蟲示例:
首先安裝上面2個依賴庫
pip install requests
pip install beautifulsoup4
import requests
from bs4 import BeautifulSoupurl = 'https://www.python.org/'# 發送HTTP請求
response = requests.get(url)# 解析HTML文檔
soup = BeautifulSoup(response.text, 'html.parser')# 提取數據
title = soup.title.string
links = [link.get('href') for link in soup.find_all('a')]# 打印結果
print(title)
for link in links:print(link)
部署
在 Linux 上安裝Python
sudo yum install python3
# 顯示已安裝的版本號
python --version
# python3用這個
python3 --version
在 Linux 上創建虛擬環境:
在 Linux 服務器上,進入你的項目目錄,并創建一個新的虛擬環境:
python3 -m venv venv
激活虛擬環境:
source venv/bin/activate
安裝依賴:
使用 pip
安裝項目依賴:
pip install -r requirements.txt
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/
pip install --upgrade pip
# 或者手動安裝
pip install requestspip install beautifulsoup4
運行你的爬蟲
確保你的項目中有一個入口文件(例如,main.py
),然后在虛擬環境中運行你的爬蟲:
python3 main.py