文件格式
假如你有一份想分析的數據文件,獲得文件后下一步就是用代碼讀取它。不同的文件格式有不同的讀取方法。所以讀取前了解文件格式也很重要。你可能見過非常多的文件格式,例如TXT、MP3、PDF、JPEG等等。
一般可以通過文件的后綴來分辨文件的格式,例如TXT格式,一般保存為txt結尾的文件。但是文件名后綴只是文件名的一部分,更改后綴不影響實際的文件格式。例如你非要把一個TXT格式的文件名字改成以.mp3結尾也是可以的,操作系統會根據后綴匹配打開那個文件的程序,所以更改后電腦就會用音樂播放器去打開那個文件,導致文件無法被正常打開。也就是說后綴名會影響電腦選擇用什么軟件去打開它,但更改后綴并不改變文件里的內容,因此不影響實際的格式。
JSON數據格式
一種程序員非常喜歡的數據格式是JSON,全稱是JavaScript Object Notation,意思是JavaScript對象表示法,可見這種數據格式和JavaScript的語法是有些關聯的。JSON與Python的字典或列表有非常相似之處,而且被無數主流編程語言支持。JSON這種數據格式自然是用來存儲和交換信息。我們之前提到過的用API獲取數據這個方式,很多時候數據都是以JSON格式進行返回的,因為JSON占用體積小,還能非常容易被轉換成程序語言自己的結構。
JSON的數據結構
具體語法方面:JSON有兩種數據結構:JSON對象和JSON數組可以分別被轉成Python字典和列表。
//JSON對象{"id":"1","type":"article","title":"wor