newspaper公共庫獲取每個 URL 對應的新聞內容,并將提取的新聞正文保存到一個文件中

示例代碼:

from newspaper import Article
from newspaper import Config
import json
from tqdm import tqdm
import os
import requestswith open('datasource/api/news_api.json', 'r') as file:data = json.load(file)print(len(data))
save_path = 'datasource/source/news_data.json'
def wr_dict(filename,dic):if not os.path.isfile(filename):data = []data.append(dic)with open(filename, 'w') as f:json.dump(data, f)else:      with open(filename, 'r') as f:data = json.load(f)data.append(dic)with open(filename, 'w') as f:json.dump(data, f)def rm_file(file_path):if os.path.exists(file_path):os.remove(file_path)
# rm_file(save_path)with open(save_path, 'r') as file:have = json.load(file)USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.15; rv:78.0) Gecko/20100101 Firefox/78.0'config = Config()
config.headers = {'Cookie': "cookie1=xxx;cookie2=zzzz"}
config.browser_user_agent = USER_AGENT
config.request_timeout = 10RETRY_ATTEMPTS = 1
count = 0
def parse_article(url):for attempt in range(RETRY_ATTEMPTS):try:article = Article(url, config=config)article.download()article.parse()return article.textexcept:return None# print(f"Error retrieving article from URL '{url}'")return Nonefor idx, d in enumerate(tqdm(data)):if idx<len(have):continueurl = d['url']maintext = parse_article(url.strip())if maintext == None:continued['body'] = maintextwr_dict(save_path,d)count = count + 1
print(count+len(have))

這段代碼的功能是從一個包含新聞 URL 的數據集中獲取每個 URL 對應的新聞內容,并將提取的新聞正文保存到一個文件中。

1. 導入必要的庫

from newspaper import Article
from newspaper import Config
import json
from tqdm import tqdm
import os
import requests
  • newspaper:用于從新聞網站上提取文章內容,Article 用來獲取文章的正文,Config 用來配置請求頭和其他設置。
  • json:用于處理 JSON 格式的數據。
  • tqdm:用于顯示進度條。
  • os:用于操作文件。
  • requests:用于發送 HTTP 請求(雖然在這段代碼中沒有直接用到,但可能是為了配置 HTTP 請求的頭部)。

2. 加載新聞 URL 數據

with open('datasource/api/news_api.json', 'r') as file:data = json.load(file)print(len(data))
  • datasource/api/news_api.json 文件中讀取新聞 URL 數據,并加載到 data 變量中。
  • 輸出 data 的長度,顯示有多少條新聞 URL 數據。

3. 定義寫入 JSON 文件的函數 wr_dict

def wr_dict(filename,dic):if not os.path.isfile(filename):data = []data.append(dic)with open(filename, 'w') as f:json.dump(data, f)else:      with open(filename, 'r') as f:data = json.load(f)data.append(dic)with open(filename, 'w') as f:json.dump(data, f)
  • wr_dict 函數用于將新聞數據字典(dic)追加到指定的 JSON 文件中。如果文件不存在,它會先創建文件并寫入數據。如果文件已經存在,先讀取文件內容,追加新的數據,再寫回文件。

4. 刪除文件的函數 rm_file

def rm_file(file_path):if os.path.exists(file_path):os.remove(file_path)
  • rm_file 函數用于刪除指定路徑的文件。

5. 加載已有的新聞數據

with open(save_path, 'r') as file:have = json.load(file)
  • save_path 文件中讀取已經保存的新聞數據,保存到 have 變量中。這樣可以避免重復下載和保存相同的新聞。

6. 配置請求頭和重試次數

USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.15; rv:78.0) Gecko/20100101 Firefox/78.0'
config = Config()
config.headers = {'Cookie': "cookie1=xxx;cookie2=zzzz"}
config.browser_user_agent = USER_AGENT
config.request_timeout = 10
  • 設置請求的 User-Agent(模擬瀏覽器請求頭),以及一些其他配置。
  • 通過設置 config.headers 來模擬用戶登錄,避免因缺少 cookie 導致訪問失敗。

7. 定義文章解析函數 parse_article

def parse_article(url):for attempt in range(RETRY_ATTEMPTS):try:article = Article(url, config=config)article.download()article.parse()return article.textexcept:return Nonereturn None
  • parse_article 函數用于下載并解析指定 URL 的新聞文章。它會嘗試請求文章,下載并提取文本內容。如果成功則返回文章的正文。如果失敗(例如:網絡問題或者 URL 無效),則返回 None

8. 處理每條新聞 URL,下載并保存新聞正文

for idx, d in enumerate(tqdm(data)):if idx < len(have):continueurl = d['url']maintext = parse_article(url.strip())if maintext == None:continued['body'] = maintextwr_dict(save_path,d)count = count + 1
print(count + len(have))
  • 迭代 data 中的每一條新聞記錄,跳過已經處理過的(if idx < len(have): continue)。
  • 對每個新聞 URL 調用 parse_article 函數,獲取新聞正文。
  • 如果成功獲取正文,就將其添加到新聞字典(d)的 body 字段中。
  • 使用 wr_dict 函數將包含正文的新新聞字典追加到保存的文件中。
  • count 用于統計成功保存的新聞數量。
  • 最終輸出已處理新聞的總數(包括新保存的和之前已經存在的)。

總結:

  1. news_api.json 中獲取新聞 URL。
  2. 通過 newspaper 庫下載和解析每個 URL 對應的新聞正文。
  3. 如果成功獲取正文,就將其保存到 news_data.json 文件中。
  4. 使用進度條(tqdm)顯示處理過程的進度。
  5. 使用 wr_dict 函數確保數據正確保存到 JSON 文件中。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/76479.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/76479.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/76479.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

前端核心知識:Vue 3 編程的 10 個實用技巧

文章目錄 1. **使用 ref 和 reactive 管理響應式數據**原理解析代碼示例注意事項 2. **組合式 API&#xff08;Composition API&#xff09;**原理解析代碼示例優勢 3. **使用 watch 和 watchEffect 監聽數據變化**原理解析代碼示例注意事項 4. **使用 provide 和 inject 實現跨…

【Web API系列】XMLHttpRequest API和Fetch API深入理解與應用指南

前言 在現代Web開發中&#xff0c;客戶端與服務器之間的異步通信是構建動態應用的核心能力。無論是傳統的AJAX技術&#xff08;基于XMLHttpRequest&#xff09;還是現代的Fetch API&#xff0c;它們都為實現這一目標提供了關鍵支持。本文將從底層原理、核心功能、代碼實踐到實…

[特殊字符] Spring Boot 日志系統入門博客大綱(適合初學者)

一、前言 &#x1f4cc; 為什么日志在項目中如此重要&#xff1f; 在開發和維護一個后端系統時&#xff0c;日志就像程序運行時的“黑匣子”&#xff0c;幫我們記錄系統的各種行為和異常。一份良好的日志&#xff0c;不僅能幫助我們快速定位問題&#xff0c;還能在以下場景中…

IP協議之IP,ICMP協議

1.因特網中的主要協議是TCP/IP&#xff0c;Interneet協議也叫TCP/IP協議簇 2.ip地址用點分十進制表示&#xff0c;由32位的二進制表示&#xff0c;兩部分組成&#xff1a;網絡標識主機標識 3.IP地址分類; A:0.0.0.0-127.255.255.255 B&#xff1a;128.0.0.0-191.255.255.25…

GPIO_ReadInputData和GPIO_ReadInputDataBit區別

目錄 1、GPIO_ReadInputData: 2、GPIO_ReadInputDataBit: 總結 GPIO_ReadInputData 和 GPIO_ReadInputDataBit 是兩個函數&#xff0c;通常用于讀取微控制器GPIO&#xff08;通用輸入輸出&#xff09;引腳的輸入狀態&#xff0c;特別是在STM32系列微控制器中。它們之間的主要…

洛古B4158 [BCSP-X 2024 12 月小學高年級組] 質數補全(線性篩/dfs)

B4158 [BCSP-X 2024 12 月小學高年級組] 質數補全 - 洛谷 思路1:線性篩,字符串匹配,枚舉 質數篩選 要解決這個問題&#xff0c;首先得找出指定范圍內&#xff08;這里是 1 到 10000000&#xff09;的所有質數。常用的質數篩選算法有埃拉托斯特尼篩法&#xff08;埃氏篩&#…

一周學會Pandas2 Python數據處理與分析-Pandas2讀取Excel

鋒哥原創的Pandas2 Python數據處理與分析 視頻教程&#xff1a; 2025版 Pandas2 Python數據處理與分析 視頻教程(無廢話版) 玩命更新中~_嗶哩嗶哩_bilibili Excel格式文件是辦公使用和處理最多的文件格式之一&#xff0c;相比CSV文件&#xff0c;Excel是有樣式的。Pandas2提…

NVIDIA H100 vs A100:新一代GPU架構性能對比分析

一、核心架構演進對比 ?Ampere架構&#xff08;A100&#xff09;?采用臺積電7nm工藝&#xff0c;集成540億晶體管&#xff0c;配備6,912個CUDA核心和432個第三代Tensor Core&#xff0c;支持FP16、TF32和INT8精度計算。其顯存子系統采用HBM2e技術&#xff0c;80GB版本帶寬可…

保護PCBA的不同方法:噴三防漆 vs 鍍膜

PCBA&#xff08;印刷電路板組件&#xff09;的防護工藝中&#xff0c;噴三防漆和鍍膜&#xff08;如Parylene氣相沉積&#xff09;是兩種常見技 術。它們在防護目的上類似&#xff0c;但在具體實現方式和應用場景上有顯著差異。以下從外觀、工藝、性 能、物理性質和成本五個…

VitePress 項目部署 cloudflare page 提示 npm run build 錯誤

構建的錯誤信息如下&#xff1a; 09:52:57.975 ? YN0000: Done with warnings in 3s 120ms 09:52:58.072 Executing user command: npm run build 09:52:58.817 npm ERR! Missing script: "build" 09:52:58.818 npm ERR! 09:52:58.818 npm ERR! To see a list of …

C++學習之ORACLE③

1.集合運算符 查詢部門號是10和20的員工信息&#xff1a; &#xff1f;思考有幾種方式解決該問題 &#xff1f; SQL> select * from emp where deptno in(10, 20) SQL> select * from emp where deptno10 or deptno20 集合運算&#xff1a; Select * from emp …

人工智能之數學基礎:復矩陣

本文重點 復矩陣是線性代數中以復數為元素的矩陣,是實矩陣在復數域上的自然推廣。與實矩陣相比,復矩陣在數學性質、運算規則和應用場景上具有獨特性,尤其在量子力學、信號處理、控制理論等領域發揮關鍵作用。 復矩陣的定義與表示 定義:復矩陣指的是元素含有復數的矩陣。…

華清遠見成都中心嵌入式學習總結

一、Linux 基礎入門 課程首先介紹了 Linux 系統的六大特性&#xff0c;包括開源、免費、可裁剪等核心優勢。重點講解了文件系統結構&#xff0c;強調根目錄&#xff08;/&#xff09;作為唯一入口的樹狀結構。通過實操學習了 pwd、ls、cd 等基礎命令&#xff0c;掌握了絕對路徑…

linux安裝ollama

倆種方式都可 一、linux通過docker安裝ollama鏡像 1.下載安裝ollama鏡像 # 安裝 Docker sudo yum install docker sudo systemctl start docker#docker查看所有容器 docker ps -a # 查看所有容器# docker查看指定容器 docker ps -a |grep ollama# 創建模型存儲目錄&#xff…

Redis 學習目標

&#x1f3af; Redis 學習目標&#xff08;開發者視角&#xff09; ? 一、學習完成后能掌握的核心能力&#xff1a; 分類具體內容&#x1f4e6; 基礎能力熟練掌握 Redis 五大數據結構&#xff08;String、List、Hash、Set、ZSet&#xff09;&#xff0c;會用也會選對場景&am…

gerrit配置及使用git-lfs

gerrit服務器端配置 下載git-lfs插件 登錄Dashboard [Jenkins] (gerritforge.com)&#xff0c;下載對應版本的插件 配置gerrit 將下載的lfs.jar插件放到${GERRIT_SITE}/plugins/下面為所有倉庫啟用git-lfs 此步驟需要修改 All-projects 倉庫配置&#xff0c;步驟如下 1、克隆倉…

深入理解 Linux PATH 環境變量:配置與優化!!!

深入理解 Linux PATH 環境變量&#xff1a;配置與優化 &#x1f680; 歡迎來到 Linux 環境變量的奇妙世界&#xff01;今天我們來聊聊那個讓命令行如魚得水的幕后英雄——PATH 環境變量&#xff01;&#x1f60e; 通過這篇博客&#xff0c;你將學會如何配置它、優化它&#xff…

如何在AMD MI300X 服務器上部署 DeepSeek R1模型?

DeepSeek-R1憑借其深度推理能力備受關注&#xff0c;在語言模型性能基準測試中可與頂級閉源模型匹敵。 AMD Instinct MI300X GPU可在單節點上高效運行新發布的DeepSeek-R1和V3模型。 用戶通過SGLang優化&#xff0c;將MI300X的性能提升至初始版本的4倍&#xff0c;且更多優化將…

簡化DB操作:Golang 通用倉庫模式

介紹 本代碼包提供一個用于數據庫操作的通用倉庫 (GenericRepository)&#xff0c;利用 Golang 和 GORM (Go ORM) 實現。該倉庫設計用于簡化數據庫的 CRUD (創建、讀取、更新、刪除) 操作&#xff0c;支持批處理、沖突處理、分頁查詢等高級功能。 主要功能 創建記錄 (Create…

JavaWeb 課堂筆記 —— 08 請求響應

本系列為筆者學習JavaWeb的課堂筆記&#xff0c;視頻資源為B站黑馬程序員出品的《黑馬程序員JavaWeb開發教程&#xff0c;實現javaweb企業開發全流程&#xff08;涵蓋SpringMyBatisSpringMVCSpringBoot等&#xff09;》&#xff0c;章節分布參考視頻教程&#xff0c;為同樣學習…