01.Python代碼Pandas是什么?pandas的簡介
提示:幫幫志會陸續更新非常多的IT技術知識,希望分享的內容對您有用。本章分享的是pandas的使用語法。前后每一小節的內容是存在的有:學習and理解的關聯性,希望對您有用~
python語法-pandas第一節 :pandas是什么?pandas的簡介
文章目錄
- 01.Python代碼Pandas是什么?pandas的簡介
- pandas是什么?
- pandas的簡介
- 安裝pandas
- 使用pandas(簡單驗證使用的環境 / 快速理解pandas使用語法)
- Series
- DataFrame
pandas是什么?
它是方便使用的數據結構和數據分析工具。
pandas的基礎底層是 Numpy( NumPy是什么?)。同時也是一個強大的分析結構化數據的工具集
數據結構和數據分析工具解釋(也是快速理解):
pandas方便存儲是因為:它數據結構內部去擴展了Numpy。基于Numpy之上還擴展了很多數據格式來存儲不同的數據
Numpy本身就已經有很多很多的函數來操作數組。pandas自己又提供了額外的很多數據分析的方法
既然它可以存,所以同時:
pandas也支持從各種文件導入數據,如:CSV、JSON、SQL、Microsoft Excel
這個功能在實際使用就非常的方便,就演變成了:
pandas又能存 又能算 又支持各種格式的文件導入數據
在這個基礎之上,pandas非常適合做數據分析(高效靈活的數據結構+數據操作和分析):
數據清洗:處理缺失數據、重復數據、刪除一些兀余數據等。
數據轉換:改變數據的形狀、結構、格式。
數據分析:進行統計分析、聚合、分組等。
數據可視化:通過整合 Matplotlib 和 Seaborn 等庫,可以進行數據可視化。
pandas的簡介
pandas 的主要數據結構是 Series (一維數據)與 DataFrame(二維數據)。
Series 是一種類似于一維數組的對象,它由一組數據(各種 Numpy 數據類型)以及一組與之相關的數據標簽(即索引)組成。
帶有索引的系列數據
DataFrame 是一個表格型的數據結構,它含有一組有序的列,每列可以是不同的值類型(數值、字符串、布爾型值)。DataFrame 既有行索引也有列索引
可以被看做由 Series 組成的字典(共同用一個索引) 多個 Series
兩種數據結構,作為數據的存儲框架.當數據以這兩種數據結構進行存儲后:我們就可以利用其提供的強大功能進行高效的數據處理。
所以在實際的開發項目中,pandas可以快速的處理分析數據。
···對于大數據的 spark和Flink?:它們專注于實時流處理和批處理,適用于需要低延遲和高吞吐率的應用場景。(且需要分布式的集群搭建和網絡通信環境,傳數據給它,還需要kafka、zookeeper)
···pandas:先把數據存放在某地,主要用于小到中等規模的數據分析,提供豐富的數據處理功能。能非常快速的得出簡單的結果。(單個電腦也能迅速完成)
安裝pandas
使用命令:
pip install pandas -i https://pypi.mirrors.ustc.edu.cn/simple/
使用pandas(簡單驗證使用的環境 / 快速理解pandas使用語法)
Series
#導入pandas的包,并取了一個別名是pd
#后面通常會頻繁使用pandas來調用功能,使用別名簡潔且可以區分關鍵字
import pandas as pd#定義一列表
data = [1, 2, 3, 4, 5]
#將列表傳遞給pd,生成一維數組 賦值給變量s
s = pd.Series(data)
print(s) #看輸出結果,這個列表數據沒變,但是已經具備pandas的功能了#輸出的數據都帶一個索引
DataFrame
import pandas as pd# 創建一個簡單的 DataFrame
data = {'Name': ['apple', 'bangbangzhi', 'python'], 'count': [10, 20, 30]}
df = pd.DataFrame(data)# 查看 DataFrame
print(df)#表格型的數據結構,它含有一組有序的列,每列可以是不同的值類型
(會陸續更新非常多的IT技術知識及泛IT的電商知識,可以點個關注,共同交流。比心)