知乎python練手的_Python—爬蟲之初級實戰項目:爬取知乎任一作者的文章練手

爬蟲之初級實戰項目:爬取知乎任一作者的文章練手

在正式上代碼之前,先過一遍之前所學知識的框架內容,溫故而知新!!!

接下來我們直接上代碼,一定要手敲代碼、手敲代碼、手敲代碼!!!

import requests,csv

csv_file = open('知乎-收錄.csv','w',newline = '',encoding = 'utf-8')

#加newline=' '參數的原因是,可以避免csv文件出現兩倍的行距(就是能避免表格的行與行之間出現空白行);

#加encoding='utf-8',可以避免編碼問題導致的報錯或亂碼。

writer = csv.writer(csv_file)

writer.writerow(['標題','摘要','鏈接'])

url ='https://www.zhihu.com/api/v4/members/zhang-jia-wei/included-articles?'

headers={'user-agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'}

offset = 0

while True:

params = {

'include': 'data[*].comment_count,suggest_edit,is_normal,thumbnail_extra_info,thumbnail,can_comment,comment_permission,admin_closed_comment,content,voteup_count,created,updated,upvoted_followees,voting,review_info,is_labeled,label_info;data[*].author.badge[?(type=best_answerer)].topics',

'offset': str(offset),

'limit': '10',

'sort_by': 'included'

}

res = requests.get(url,headers = headers)

js_zh = res.json()

zhihu = js_zh['data']

for i in zhihu:

list1 = [i['title'],i['excerpt'],i['url']]

writer.writerow(list1)

offset = offset + 10 #利用offset對循環進行控制

if offset > 50:

break

csv_file.close()

標簽:練手,comment,知乎,Python,代碼,writer,offset,csv

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/370423.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/370423.shtml
英文地址,請注明出處:http://en.pswp.cn/news/370423.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

java url幫助類_Spring居然還提供了這么好用的URL工具類

1. 前言開發中我們經常會操作 URL,比如提取端口、提取路徑以及最常用的提取參數等等。很多時候需要借助于一些第三方類庫或者自己編寫工具類來實現,今天胖哥給大家介紹一種方法,無需新的類庫引入,只要你使用了 Spring Web 模塊都可…

Java并發之CyclicBarria的使用(二)

Java并發之CyclicBarria的使用(二) 一.簡介 之前借助于其他大神寫過一篇關于CyclicBarria用法的博文,但是內心總是感覺絲絲的愧疚,因為筆者喜歡原創,而不喜歡去轉載一些其他的文章,為此筆者自己原創了一個C…

需加裝飾——裝飾模式

裝飾模式指的是在不必改變原類文件和使用繼承的情況下,動態地擴展一個對象的功能。它是通過創建一個包裝對象,也就是裝飾來包裹真實的對象。 類圖分析 我們先假設一個業務場景,有三種房子需要裝修,分別是公寓,木屋和別…

Java正則表達式教程及示例

當我開始使用Java時,正則表達式對我來說是一場噩夢。 本教程旨在幫助您掌握Java正則表達式,并讓我定期返回以刷新我的正則表達式學習。 什么是正則表達式? 正則表達式定義字符串的模式。 正則表達式可用于搜索,編輯或處理文本。…

Vue2.0 --- vue-cli腳手架中全局引入JQ

第一步:安裝jQuery npm/cmpn方式安裝(默認安裝1.7.X版本的JQ) npm/cnpm install jQuery 如果想安裝更高版本的JQ那么可以選擇在package.json文件下面這個位置添加代碼斷(當前圖片安裝的是2.2.3版本,如果想安裝更高或者其他可以更改版本號&…

python筆記全_Python筆記

一、數據結構和序列1.1、元組:有一種固定長度,不可修改的python對象序列tup 1,2,3 tup : (1,2,3)tup tuple([4,0,2]) tup : (4,0,2)tup[0] 4元組添加元素:tup (["foo",[1,2],True])tup[1].append(3)tup : ("foo",[1,…

java 分布式編譯_linux分布式編譯distcc和ccache的部署

unset LANGUAGEexport LANG"en"cd /home/kingsoftmkdir distcccd distccrpm包用:rpm -ivh ...bz2包用:tar -xvf ...進入distcc解壓后的目錄./configure && make && make installmkdir /usr/lib/distccmkdir /usr/lib/distcc/b…

Unity——用UnityEditor拷貝FBX中的AnimationClip

最近有個新需求,要用代碼添加動畫的事件,但是Unity不能直接修改FBX中的AnimationClip 在Animation窗口中可以看到,AnimationClip是Read-Only狀態,用代碼修改這個AnimationClip也是不會生效的,包括用代碼添加事件 解決方…

sql 分頁存儲過程

ALTER procedure [dbo].[fenye]pagesize int, --每頁顯示數量pageCurrent int, --當前頁tablename varchar(20), --表名field varchar(20), --顯示的列名(eg: id,name)where varchar(20), --篩選條件 (eg: name not null)orderBy varchar(20), --排序的列名(eg: id …

使用Hadoop計算共現矩陣

這篇文章繼續我們在MapReduce的數據密集型文本處理一書中實現MapReduce算法的系列。 這次,我們將從文本語料庫創建單詞共現矩陣。 本系列以前的文章是: 使用MapReduce進行數據密集型文本處理 使用MapReduce進行數據密集型文本處理-本地聚合第二部分 共…

HTML5 拖放、交換位置

設置元素為可拖放 draggable 屬性設置為 true: <img draggable"true" /> 拖動什么 - ondragstart 和 setData() dataTransfer.setData() 方法設置被拖數據的數據類型和值: function drag(e) { e.dataTransfer.setData("text/html", value); }注&…

java 工作6年 面試_為什么不想搞Java了,6年經驗去面試5分鐘結束,現在Java面試為何這么難...

3、Java并發什么是可重入鎖、樂觀鎖、悲觀鎖、公平鎖、非公平鎖、獨占鎖、共享鎖&#xff1f;講講ThreadLocal 的實現原理&#xff1f;ThreadLocal 作為變量的線程隔離方式&#xff0c;其內部是如何做的&#xff1f;說說InheritableThreadLocal 的實現原理&#xff1f;并發包中…

mvc如何嵌套第三方頁面_長文觀點丨為什么我不再使用MVC框架?

原創&#xff1a; 張衛濱 譯 Jean-Jacques Dubray是一名資深工程師&#xff0c;他最近引入了一個新的模式&#xff1a;狀態-行為-模(State-Action-Model&#xff0c;SAM)。SAM是一個函數式反應型的編程模式&#xff0c;它致力于簡化數據Model和View之間的交互。它究竟有何優點值…

JSON和XML的區別

轉載于:https://www.cnblogs.com/mr-wuxiansheng/p/6974239.html

屏幕適配

rem是什么&#xff1f; rem&#xff08;font size of the root element&#xff09;是指相對于根元素的字體大小的單位。簡單的說它就是一個相對單位。看到rem大家一定會想起em單位&#xff0c;em&#xff08;font size of the element&#xff09;是指相對于父元素的字體大小…

【存儲過程】MySQL存儲過程/存儲過程與自定義函數的區別

---------------------------存儲過程-------------------- 語法: 創建存儲過程: CREATE [definer {user|current_user}] PROCEDURE sp_name ([ proc_parameter [,proc_parameter ...]]) [ characteristics..] routime_body 其中: proc_parameter : [IN|OUT|INOUT] parameter_…

Java死鎖故障排除和解決

JavaOne年度會議的一大優點是&#xff0c;主題專家介紹了幾個技術和故障排除實驗室。 其中的一個實驗室今年特別吸引了我的注意力&#xff1a;“ HOL6500-查找和解決Java死鎖 ”&#xff0c;由Java冠軍Heinz Kabutz提出 。 這是我在該主題上看到的最好的演示之一。 我建議您自己…

java.util.scanner sc_關于Java的Scanner的問題,菜鳥求各大神解答

該樓層疑似違規已被系統折疊 隱藏此樓查看此樓package leetcode;import java.util.ArrayList;import java.util.Collections;import java.util.Comparator;import java.util.HashMap;import java.util.List;import java.util.Map;import java.util.Map.Entry;import java.util.…

3. HTML中的容器標簽

什么是容器標簽&#xff1f;在HTML開發中我們常常會使用一類標簽作為容器放置一些內容&#xff0c;我們把這類標簽稱之為容器標簽&#xff0c;可以作為容器標簽的包括列表標簽、表格標簽、框架標簽、布局標簽&#xff0c;在這里我們就來總結下這些內容。 列表標簽 1 <!-- 無…

python自帶sqlite庫_Python標準庫之sqlite3使用實例

Python自帶一個輕量級的關系型數據庫SQLite。這一數據庫使用SQL語言。SQLite作為后端數據庫&#xff0c;可以搭配Python建網站&#xff0c;或者制作有數據存儲需求的工具。SQLite還在其它領域有廣泛的應用&#xff0c;比如HTML5和移動端。Python標準庫中的sqlite3提供該數據庫的…