摘要
時代在飛速進步,每個行業都在努力發展現在先進技術,通過這些先進的技術來提高自己的水平和優勢,汽車數據分析平臺當然不能排除在外。本次我所開發的心臟病患分類及可視化系統是在實際應用和軟件工程的開發原理之上,運用Python語言、數據可視化技術以及Spark框架進行開發,可以讓管理員實現對個人中心、心臟病數據管理、系統管理等功能的操作。在系統開發之前首先要進行需求分析,分析出心臟病患分類及可視化系統的主要功能,然后設計了系統結構。整體設計包括系統的功能、系統總體結構、系統數據結構和對系統安全性進行設計;最后要對系統進行測試,還要對測試的結果進行總結和分析,為以后系統的維護提供方便,也為以后類似系統的開發提供參考和幫助。這種個性化的網絡系統管理更重視相互協調和管理合作,能激發管理者的創造性和主動性,這對心臟病患分類及可視化系統來說非常有益。
緒 論
1.1 課題的研究背景 心臟病患分類及可視化系統主要通過計算機網絡,對所需的信息進行統一管理,方便管理員隨時隨地進行增添、修改、查詢、刪除各類信息。本系統極大的促進了系統與數據庫管理系統軟件之間的配合,滿足了絕大部分用戶的需求,給用戶帶來了很大的便利。以現在計算機的技術的應用,使計算機成為人們使用現代發達技術的橋梁。計算機可以有效的解決信息,十分方便的獲取信息,從而提高工作的效率。
1.2 課題研究目的 全球經濟在快速的發展,中國更是進步飛速,這使得國內的互聯網技術進入了發展的高峰時期,這讓中外資本不斷轉向互聯網這個大市場。在這個信息高度發達的現在,利用網絡進行信息管理改革已經成為了人們追捧的一種趨勢。“心臟病患分類及可視化系統”是運用Python語言、數據可視化技術和Spark框架,以MySQL數據庫為基礎而發出來的。可以實現管理員在線進行實現對個人中心、心臟病數據管理、系統管理等功能的管理。為保證我國經濟的持續性發展,必須要讓互聯網信息時代在我國日益壯大,蓬勃發展。伴隨著信息社會的飛速發展,汽車數據分析平臺所面臨的問題也一個接一個的出現,所以現在最該解決的問題就是信息的實時查詢和訪問需求的問題,以及如何利用快捷便利的方式讓訪問者在廣大信息系統中進行查詢、分享、儲存和管理。這對我們的現實生活中具有非常重要的意義,所以心臟病患分類及可視化系統誕生了。
1.3 課題的研究意義 ?基于spark的心臟病患分類及可視化系統是一個便于管理員添加、查看心臟病數據而進行管理的平臺。因此本文主要闡述了系統實現的功能和完整開發的過程,結合Web開發技術實現了一個 基于spark的心臟病患分類及可視化系統。本系統以軟件工程理論作為開發的理論基礎,[4]以專業的計算機旅游景點實現系統的功能與開發。 該選題原則上力求采用標簽模塊分類等方法,來完成登錄、個人信息管理、心臟病數據管理、管理員對頁面的設置和對后臺數據庫中數據的增刪查改等一系列的操作和運行等。在這一系列模塊分類的功能下,達到對 基于spark的心臟病患分類及可視化系統信息的高效執行和規范管理。
相關技術
本心臟病患分類及可視化系統的數據庫采用的是MySQL數據庫,并且選擇了Python語言、數據可視化技術和Flask框架進行開發項目,在項目開發過程中,實現了系統功能模塊的安全性、實用性、穩定性、易維護和頁面簡單等特點。
2.1 Python簡介 網絡爬蟲(又稱為網頁蜘蛛,網絡機器人,在FOAF社區中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本。Python 屬于一個高層次的腳本語言,以解釋性,編譯性,互動性和面向對象相結合。在設計上相比其他語言,它更具有特色語法結構,很強的可讀性。 Python語言之所以如此廣泛的被使用是由其自身的優勢所決定的,首先它的兼容性非常的好可以實現跨平臺的使用,互聯網絡的出現使人們進行信息傳遞有了更多的方法,使信息資源得到了最大限度的共享,人與人之間的交流變得更加方便,打破了地域對信息傳遞的束縛,為人們生活帶來了極大的便利。雖然Python語言在當今已經發展非常 成熟,但是它并不是完美無缺的,需要研發人員不懈的努力來使其更加完善。
2.2 ?Spark框架 Flask是一個輕量級的可定制框架,使用Python語言編寫,較其他同類型框架更為靈活、輕便、安全且容易上手。它可以很好地結合MVC模式進行開發,開發人員分工合作,小型團隊在短時間內就可以完成功能豐富的中小型網站或Web服務的實現。另外,Flask還有很強的定制性,用戶可以根據自己的需求來添加相應的功能,在保持核心功能簡單的同時實現功能的豐富與擴展,其強大的插件庫可以讓用戶實現個性化的網站定制,開發出功能強大的網站。 Flask是目前十分流行的web框架,采用Python編程語言來實現相關功能。它被稱為微框架(microframework),“微”并不是意味著把整個Web應用放入到一個Python文件,微框架中的“微”是指Flask旨在保持代碼簡潔且易于擴展,Flask框架的主要特征是核心構成比較簡單,但具有很強的擴展性和兼容性,程序員可以使用Python語言快速實現一個網站或Web服務。一般情況下,它不會指定數據庫和模板引擎等對象,用戶可以根據需要自己選擇各種數據庫。Flask自身不會提供表單驗證功能,在項目實施過程中可以自由配置,從而為應用程序開發提供數據庫抽象層基礎組件,支持進行表單數據合法性驗證、文件上傳處理、用戶身份認證和數據庫集成等功能。Flask主要包括Werkzeug和Jinja2兩個核心函數庫,它們分別負責業務處理和安全方面的功能,這些基礎函數為web項目開發過程提供了豐富的基礎組件。
2.3PyCharm簡介 ? ?PyCharm是JetBrains公司開發的一款Python集成開發環境,它提供了很多便利于開發者的功能,比如調試、語法高亮、代碼跳轉、智能提示、自動補全等。除此之外Pycharm還提供了一些支持Web框架的高級功能,適合此次心臟病患分類及可視化系統的開發。
2.4 MySQL簡介 作為當下比較流行的MySQL數據庫管理系統,它有較高的安全性和可靠性,儲存空間大,可以對系統中所有用戶 的數據進行儲存更新。MySQL數據庫存儲功能強大,穩定性好,安全系數高,受到了越來越多的軟件開發者的青睞。 數據庫極大的便利了數據的存儲,MySQL數據庫能夠實現數據庫被多個用戶端同時使用,實現數據交互,為用戶提供 便利,是一個非常有利的方面。 所以,對于整個系統的設計與實現來說,確定一個優秀的數據庫管理系統具有非常重大的意義。因為數據庫它 不僅僅是用于對數據的儲存,它還有關于約束條件和觸發器等功能的設計,因此,本次程序開發的首要選擇就是一 個擁有簡潔明了的數據庫界面和簡單易上手、有多線程交互的數據庫管理系統。
2.5數據可視化技術簡介 可視化是一個認知的過程,目的在于對事物的洞悉觀察,而不是繪制的可視化結果本身。數據顯示是數據分析后發送結果和請求的過程,是一個報警過程。大數據分析結果之間的相關性更為復雜。傳統的展示方式已經不能滿足當今社會的需要。大數據的出現帶來了更直觀、更清晰的表現形式。可視化技術的參考是其中的一個重要部分。他的作用也體現在很多方面,揭示很多想法和對應關系,形成論點或者意見,觀察事物的演變趨勢,探索性的分析數據。 以對于中央電化教育館教育信息技術研究2018年度立項課題清單的分析為例,進行需求分析以及可視化表達。首先要對清單內數據進行一系列處理,我們可以大概從課題內容分析、按學段進行分析、或者對同一地區課題方向進行分析。那么我將針對課題內容進行分析,目的為得到當前年度熱門課題的關鍵詞都有哪些,明確當下教育熱點,以便為下一步教育的發展做鋪墊。既然要從課題內容進行分析,那么第一步就是對整個清單內的數據進行處理,對課題進行一個分詞處理,也就是對關鍵詞進行提煉,有效關鍵詞的獲取是分析的最重要的基礎,在這一部分,由于是教育方面的課題研究,因此我將引用專業領域詞庫,并設定一些停用詞,在使關鍵詞的劃分更加準確的同時,能夠減少關鍵詞的數量,讓提取出來的關鍵詞在質量上得到保證。其次就是對關鍵詞進行統計,最終以可視化圖表的形式呈現出想要的結果。 從宏觀的角度來講,可視化的三大功能之一就是信息記錄,將浩瀚煙云的信息記錄成文,最有效的方法之一就是信息成像,因此,為了達到最終的分析目的,使雜亂無章的占比數據以一種更加直觀、簡明清晰的視圖效果展現出來,對數據進行系統的分析之后,將最終結果進行可視化處理,便能夠顯而易見的看出當前的熱點話題。
系統整體功能圖
管理員登錄界面圖
管理員功能界面圖
心臟病數據管理界面圖
看板界面圖
部分數據庫表
字段名稱 | 類型 | 長度 | 字段說明 | 主鍵 | 默認值 |
id | bigint | 主鍵 | 主鍵 | ||
addtime | timestamp | 創建時間 | CURRENT_TIMESTAMP | ||
age | varchar | 200 | age | ||
sex | varchar | 200 | sex | ||
cp | varchar | 200 | cp | ||
trtbps | varchar | 200 | trtbps | ||
chol | varchar | 200 | chol | ||
fbs | varchar | 200 | fbs | ||
restecg | varchar | 200 | restecg | ||
thalachh | int | thalachh | |||
exng | varchar | 200 | exng | ||
oldpeak | varchar | 200 | oldpeak | ||
slp | varchar | 200 | slp | ||
caa | varchar | 200 | caa | ||
thall | varchar | 200 | thall | ||
output | varchar | 200 | output |
結論
本系統是采用Python語言,數據可視化及Spark框架構建的一個操作管理系統,選擇的數據庫是MySQL。整個過程先是通過整體的系統分析,來確定本系統的可行性是否達標。為了滿足管理員的需求以及提高管理員的工作效率,通過系統所要實現的功能分析,決定了管理員要實現的功能。之后就是精細各個模塊的具體功能,定義管理員們的權限,分割個人中心、心臟病數據管理、系統管理等模塊。之后通過系統測試來確保數據的準確性和操作的準確性,發現錯誤并立即做出了改正。 系統本身提供一個關于心臟病數據管理的平臺,管理員可以通過平臺清晰、直觀了解心臟病數據及患病分類等。 關于心臟病患分類及可視化系統的設計還是有很多不足的地方,缺少用戶的模塊功能,可以設置用戶功能模塊,讓用戶登錄后也可以查看心臟病數據詳情。 在本次項目設計中,完成了大大小小的模塊,系統設計的調查,數據的分析,在安裝軟件方面,選擇版本問題困擾了我很久,后來找相關的網站介紹,了解了各個版本的利與弊,最后完善了本次設計。心臟病患分類及可視化系統的系統設計選擇了Python開發工具,和MySQL數據庫對前后臺的數據交互進行分析保存,使用MySQL數據庫可以是程序運行更加的安全且穩定,從而實現并完善系統的開發。