Windows IDEA Python開發環境安裝+爬蟲示例

文章目錄

- Python下載安裝
- 開發工具IDEA
- 包管理
- - 安裝pip
  - 基本用法
  - 從 requirements.txt 安裝依賴
- 項目示例
- 部署
- - 在 Linux 上安裝Python
  - 在 Linux 上創建虛擬環境：
  - 安裝依賴：
  - 運行你的爬蟲

Python下載安裝

Python 安裝包下載地址：https://www.python.org/downloads/

https://www.python.org/downloads/windows/

1.有兩個版本的 Python，分別是 Python 3.x 和 Python 2.x，選擇3.x

embeddable zip file表示.zip格式的綠色免安裝版本，可以直接嵌入（集成）到其它的應用程序中；
executable installer表示.exe格式的可執行程序，這是完整的離線安裝包，一般選擇這個即可；

2.下載安裝，勾選ADD python to PATH，安裝即可

3.驗證

# 在控制臺輸入python
python
# 輸出
Python 3.7.9 (tags/v3.7.9:13c94747c7, Aug 17 2020, 18:58:18) [MSC v.1900 64 bit (AMD64)] on win32
Type "help", "copyright", "credits" or "license" for more information.
# 輸入exit()退出
exit()

開發工具IDEA

1.下載Python插件

2.新建項目

其中的環境類型為：選擇第一個虛擬環境【python-virtualenv】

虛擬環境為您的Python包提供了一個干凈的工作空間，以便您安裝的庫不會與為其他項目安裝的庫發生沖突。

包管理

類似java中的maven，python有很多優秀的管理工具pip、anaconda、poetry

這里我們使用自帶的pip

安裝pip

大多數情況下，Python 安裝時已經包含了 pip。您可以通過以下命令檢查是否已安裝：

pip --version

如果沒有安裝，可以使用以下命令安裝：

python -m ensurepip --default-pip

基本用法

一般來說，第三方庫都會在Python官方的pypi.python.org網站注冊，要安裝一個第三方庫，必須先知道該庫的名稱，可以在官網或者pypi上搜索，比如Pillow的名稱叫Pillow，因此，安裝Pillow的命令就是：

pip install Pillow
# 查看已安裝的包
pip list
# 查找包
pip search package_name
# 安裝包
pip install package_name
# 安裝特定版本
pip install package_name==1.2.3
# 安裝大于或等于某版本的最新版
pip install "package_name>=1.2.3"
# 升級包 到最新版本
pip install --upgrade package_name
# 卸載包
pip uninstall package_name
# 查看包的信息
pip show package_name
# 
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple requests

從 requirements.txt 安裝依賴

如果您有一個 requirements.txt 文件，其中列有項目依賴的包及其版本，可以使用以下命令一次性安裝它們：

pip install -r requirements.txt

requirements.txt示例

# 項目依賴列表
package1==1.2.3
package2>=2.0.0
package3<4.0.0

根據具體的包和版本要求來編輯這個文件。通常，在團隊協作或部署項目時，使用 requirements.txt 是一種標準的做法，以確保每個開發者或部署環境都使用相同的依賴版本。

導出依賴信息

在你的項目目錄下，運行以下命令，將當前虛擬環境的依賴導出到 requirements.txt 文件：

pip freeze > requirements.txt

這會生成一個包含項目依賴的文件，其中包括 requests 和 beautifulsoup4。

項目示例

網絡爬蟲是一種自動化程序，用于抓取互聯網上的數據。網絡爬蟲可以自動訪問網頁、解析網頁內容、提取所需數據、存儲數據等。通過使用網絡爬蟲，我們可以獲取大量的數據，從而進行數據分析、數據挖掘等應用。

在抓取網站數據時，需要遵守網站的robots協議和使用條款等規定，不得未經授權地進行抓取。
在抓取網站數據時，需要考慮網絡性能和資源消耗，避免對網站造成不必要的負擔。
在抓取網站數據時，需要考慮數據質量和數據安全，避免抓取到惡意數據或錯誤數據。

網絡爬蟲常用庫如下：

requests庫：用于發送HTTP請求和接收HTTP響應。例如，使用requests.get(url)來發送GET請求，使用requests.post(url, data)來發送POST請求。
BeautifulSoup庫：用于解析HTML和XML文檔。例如，使用BeautifulSoup(html, ‘html.parser’)來解析HTML文檔，使用BeautifulSoup(xml, ‘xml’)來解析XML文檔。

以下是一個爬蟲示例：

首先安裝上面2個依賴庫

pip install requests

pip install beautifulsoup4

import requests
from bs4 import BeautifulSoupurl = 'https://www.python.org/'# 發送HTTP請求
response = requests.get(url)# 解析HTML文檔
soup = BeautifulSoup(response.text, 'html.parser')# 提取數據
title = soup.title.string
links = [link.get('href') for link in soup.find_all('a')]# 打印結果
print(title)
for link in links:print(link)

部署

在 Linux 上安裝Python

sudo yum install python3
# 顯示已安裝的版本號
python --version
# python3用這個
python3 --version

在 Linux 上創建虛擬環境：

在 Linux 服務器上，進入你的項目目錄，并創建一個新的虛擬環境：

python3 -m venv venv

激活虛擬環境：

source venv/bin/activate

安裝依賴：

使用 pip 安裝項目依賴：

pip install -r requirements.txt
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/
pip install --upgrade pip
# 或者手動安裝
pip install requestspip install beautifulsoup4

運行你的爬蟲

確保你的項目中有一個入口文件（例如，main.py），然后在虛擬環境中運行你的爬蟲：

python3 main.py

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/168045.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/168045.shtml
英文地址，請注明出處：http://en.pswp.cn/news/168045.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！