Java爬蟲翻頁

編寫一個Java爬蟲以進行翻頁通常涉及到使用HTTP客戶端（如Apache HttpClient或OkHttp）來發送請求，解析HTML頁面（如使用Jsoup庫），以及處理分頁邏輯（如通過URL參數或頁面內的鏈接進行翻頁）。

1. 使用Jsoup和Apache HttpClient的Java爬蟲示例

以下是一個使用Jsoup和Apache HttpClient的Java爬蟲示例，該爬蟲從一個假設的博客網站抓取文章標題，該網站具有分頁功能（例如，通過URL中的page=參數控制）。

首先，請確保在項目的pom.xml文件中添加必要的依賴項（如果我們使用的是Maven）：

<dependencies> ?<dependency> ?<groupId>org.jsoup</groupId> ?<artifactId>jsoup</artifactId> ?<version>1.14.3</version> ?</dependency> ?<dependency> ?<groupId>org.apache.httpcomponents</groupId> ?<artifactId>httpclient</artifactId> ?<version>4.5.13</version> ?</dependency> ?
</dependencies>

接下來是爬蟲的實現代碼：

import org.apache.http.client.methods.CloseableHttpResponse; ?
import org.apache.http.client.methods.HttpGet; ?
import org.apache.http.impl.client.CloseableHttpClient; ?
import org.apache.http.impl.client.HttpClients; ?
import org.apache.http.util.EntityUtils; ?
import org.jsoup.Jsoup; ?
import org.jsoup.nodes.Document; ?
import org.jsoup.nodes.Element; ?
import org.jsoup.select.Elements; ?public class BlogSpider { ?private static final String BASE_URL = "http://example.com/blog?page="; ?public static void main(String[] args) { ?int maxPages = 5; // 假設我們只爬取前5頁 ?for (int i = 1; i <= maxPages; i++) { ?String url = BASE_URL + i; ?System.out.println("Fetching page: " + url); ?fetchAndParsePage(url); ?} ?} ?private static void fetchAndParsePage(String url) { ?try (CloseableHttpClient httpClient = HttpClients.createDefault()) { ?HttpGet request = new HttpGet(url); ?try (CloseableHttpResponse response = httpClient.execute(request)) { ?if (response.getStatusLine().getStatusCode() == 200) { ?String html = EntityUtils.toString(response.getEntity(), "UTF-8"); ?Document doc = Jsoup.parse(html); ?// 假設每個文章標題都在<h2>標簽內 ?Elements articleTitles = doc.select("h2.post-title"); // 可能需要根據實際情況調整選擇器 ?for (Element title : articleTitles) { ?System.out.println(title.text()); ?} ?} ?} ?} catch (Exception e) { ?e.printStackTrace(); ?} ?} ?
}

代碼解釋：

（1）依賴項：我們使用Jsoup來解析HTML，使用Apache HttpClient來發送HTTP請求。

（2）基礎URL：設置要爬取的網站的URL基礎部分，這里假設分頁通過URL中的page=參數控制。

（3）主函數：設置要爬取的最大頁數，并在循環中調用fetchAndParsePage方法。

（4）fetchAndParsePage：

使用HttpClient發送GET請求到指定的URL。
檢查響應狀態碼是否為200（成功）。
使用Jsoup解析HTML字符串。
選擇頁面上的文章標題元素（這里假設標題在<h2 class="post-title">中，我們可能需要根據實際情況調整選擇器）。
打印出每個找到的標題。

注意：

請確保我們遵守目標網站的robots.txt規則和版權政策。
本示例中的URL和選擇器是假設的，我們需要根據目標網站的實際結構進行調整。
在實際應用中，我們可能還需要處理異常（如網絡錯誤、HTML解析錯誤等）和進行性能優化（如設置合理的請求頭、連接超時時間等）。

2. 完整的代碼示例

下面是一個完整的Java代碼示例，它使用Apache HttpClient和Jsoup庫來從一個假設的博客網站抓取文章標題。這個示例包括了必要的異常處理和一些基本的HTTP請求配置。

首先，確保我們已經將Apache HttpClient和Jsoup作為依賴項添加到我們的項目中。如果我們使用的是Maven，可以在pom.xml中添加以下依賴：

<dependencies> ?<dependency> ?<groupId>org.jsoup</groupId> ?<artifactId>jsoup</artifactId> ?<version>1.14.3</version> ?</dependency> ?<dependency> ?<groupId>org.apache.httpcomponents</groupId> ?<artifactId>httpclient</artifactId> ?<version>4.5.13</version> ?</dependency> ?
</dependencies>

接下來是完整的Java代碼示例：

import org.apache.http.client.methods.CloseableHttpResponse;  
import org.apache.http.client.methods.HttpGet;  
import org.apache.http.impl.client.CloseableHttpClient;  
import org.apache.http.impl.client.HttpClients;  
import org.apache.http.util.EntityUtils;  
import org.jsoup.Jsoup;  
import org.jsoup.nodes.Document;  
import org.jsoup.nodes.Element;  
import org.jsoup.select.Elements;  public class BlogSpider {  private static final String BASE_URL = "http://example.com/blog?page=";  public static void main(String[] args) {  int maxPages = 5; // 假設我們只爬取前5頁  for (int i = 1; i <= maxPages; i++) {  String url = BASE_URL + i;  System.out.println("Fetching page: " + url);  try {  fetchAndParsePage(url);  } catch (Exception e) {  System.err.println("Error fetching and parsing page " + i + ": " + e.getMessage());  }  }  }  private static void fetchAndParsePage(String url) throws Exception {  try (CloseableHttpClient httpClient = HttpClients.createDefault()) {  HttpGet request = new HttpGet(url);  // 我們可以在這里設置請求頭，比如User-Agent  // request.setHeader("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36");  try (CloseableHttpResponse response = httpClient.execute(request)) {  if (response.getStatusLine().getStatusCode() == 200) {  String html = EntityUtils.toString(response.getEntity(), "UTF-8");  Document doc = Jsoup.parse(html);  // 假設每個文章標題都在<h2 class="post-title">標簽內  Elements articleTitles = doc.select("h2.post-title");  for (Element title : articleTitles) {  System.out.println(title.text());  }  } else {  System.err.println("Failed to fetch page: HTTP status code " + response.getStatusLine().getStatusCode());  }  }  } catch (Exception e) {  throw e; // 或者我們可以在這里處理特定的異常，比如IOException  }  }  
}

在這個示例中，我添加了一個try-catch塊來捕獲fetchAndParsePage方法中可能拋出的任何異常，并將其錯誤消息打印到標準錯誤輸出。同時，我添加了一個注釋掉的請求頭設置示例，我們可以根據需要取消注釋并修改它。

請注意，這個示例中的BASE_URL和選擇器h2.post-title是假設的，我們需要根據我們要爬取的實際網站的HTML結構來修改它們。

此外，這個示例使用了try-with-resources語句來自動關閉CloseableHttpClient和CloseableHttpResponse資源，這是一種更簡潔且安全的資源管理方式。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/42723.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/42723.shtml
英文地址，請注明出處：http://en.pswp.cn/web/42723.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！