原文:http://blog.csdn.net/guxch/article/details/12157151
------------------------------------------------------------------------------------
一、概述
? ? ? ? Thrift是Apache下的一個子項目,最早是Facebook的項目,后來Facebook提供給Apache作為開源項目,在官網上,Thrift被描述為“Scalable Cross-Language Services Implementation”,說的通俗一些,Thrift具有以下特征:- 它有自己的跨機器的通信框架,并提供一套庫。
- 它是一個代碼生成器,按照它的規則,可以生成多種編程語言的通訊過程代碼。
??????? 與Thrift相類似的開源項目是Google的Protocol Buffer(Protobuf),Protobuf目前提供了 C++、Java、Python 三種語言的 API,比Thrift簡單一些,應用也不如Thrift廣泛,有評論說Protobuf寫復雜的應用比較困難。
?? ? ?? 目前thrift的版本是0.9.1,以下的討論均以該版為基準,代碼語言以C++為基準。
二、Thrift應用場景
??????? Thrift其實應分成三個部分,一個叫做Thrift代碼生成器,一個叫做Thrift應用框架(庫),最后一個是它生成的代碼。Thrift應用的基本流程如下圖所示。
從上圖,要生成一個Thrift應用,需用以下文件:
- 一個.thrift文件:該文件是通信接口的定義,最主要的是信息流的格式。
- 編程語言:這個無需解釋。
- Thrift代碼生成器(Thrift compiler,翻譯成代碼生成器似乎更合適):這個東西是安裝thrift過程中生成的,它可以產生若干符合你約定通信格式的代碼。
- Thrift應用框架庫:這個東西也是在安裝過程中產生的。
- 其他第三方支撐庫:對C++來說,最主要是boost.thread、libevent,log4cxx等,按照運行的模式,生成的代碼中可能需用調用這些庫。
三、Linux下安裝
??????? Thrift的安裝包括上面提到生成代碼生成器和應用框架庫,網頁(http://thrift.apache.org/docs/install/)描述了安裝依賴項,除了gcc及其編譯工具本身外,編譯Thrift最大的依賴就是boost。安裝過程并不復雜,請參閱相關網上文章。
四、Windows下Thrift的使用
??????? 將Windows環境單獨拿出來討論是因為以前的Thrift版本(0.8以前)是不支持Windows的,雖然有些人做了補丁,但看其文檔,相當麻煩。0.8開始支持windows,目前官方文檔的描述中還是需要Cygwin這樣的東西。其實0.9.1已經能很好的支持windows了。
??????? Thrift compiler的編譯:在\compiler\cpp下有一個compiler.sln的VS2010的解決方案,它有一個叫做compiler的VC項目。可惜的是,要編譯compiler,必須flex和bison的支持,這個可以到http://sourceforge.net/projects/winflexbison/?source=dlp下載,在VC的項目屬性中,修改“生成事件->預先生成事件”中的命令行為(注意win_flex和win_bison的路徑):
再將inttypes.h(網上下載)和thrifty.h(在上級目錄)拷到src目錄下,編譯即可。上面的步驟也可手工完成,這樣更保險些(可以參考compiler\cpp\README_Windows.txt,但其中有點小錯誤)。??????? Thrift庫的編譯:在“\lib\cpp”目錄,有一個叫thrift.sln的VS2010的解決方案文件,它包含兩個VC項目:libthriftnb和libthrift,libthrift依賴于boost,libthriftnb依賴于boost和libevent,在正確設置好引用庫后(先要編譯生成boost和libevent),可以編譯這兩個工程,得到兩個dll,即thrift的應用框架庫,在thrift應用中,需要使用這個框架庫。
五、Thrift基本概念與應用
這一部分很多文章已經涉及,本文只是從Thrift的White Paper角度加一些個人理解與注釋。
1.Thrift有以下幾個概念:
類型系統(typesystem)
Thrift定義了一套數據傳輸描述語言(有點類似IDL),它是“語言中性”的,這個就是它的類型系統。它分為五種類型(數據類型表達3種,預定義類/結構1種,接口表達1種):
基本類型(basictype),也就是bool、byte、i16、i32、i64、double、string,任何語言都有這些基本類型,比較有意思的是string,它即表達text,也表達binary bytes。另一個特點是整型沒有unsigned,原因比較簡單,因為有些語言不支持。
- 結構類型(struct):就是C語言中的struct,將基本類型組合起來。
- 容器類型(container):就是集合類型(list/set/map),其中的元素是任何Thrift可識別的基本、結構、容器類型。【不知道是否有不支持list/set/map的語言,那么Thrift如何處理呢?】
- 異常類型(exception):從數據結構講就是結構類型,可以認為是便于異常的處理而單獨拿出來的、預定義的、有特殊意義的結構類型。
- 服務定義類型(service):這個類型實際是用來定義接口的,Thrift代碼生成器會根據這個定義,生成代碼框架。
傳輸(transport)
也就是信息的傳輸渠道以及讀寫方式,例如,介質可以是socket、shared memory或file,Thrift規定了一些基本的操作(open/close/isOpen/read/write/flush,對server,再加上listen/accept)。特別的,針對Socket方式,有TScoket類,對file方式,有TFileTransport類,上面類比較底層,還有幾個實用的類:TBufferedTransport,TFramedTransport,TMemoryBuffer等。
?
協議(protocol)
是對傳輸協議的封裝,也就是傳輸采用二進制、XML或者text來表示信息,它的功能有兩個:1.雙向的消息隊列;2.信息的編碼和解碼(也就是對上面類型的讀/寫)。關于流式格式,thrift數據類型是自我分割的,意思是說,thrift會自己在數據域的分割處插入標志,在解碼的時候,即使沒有數據域定義,thrift也能成功分割出各數據域。在若干篇文章中,都提到thrift的二進制流式編碼有相當的效率(可以配合壓縮),因此首選的協議應該是binary協議。
?
版本(versioning)
如果一個程序分開來開發,那版本問題就是繞不過去的問題。Thrift的版本是通過“field identifiers”來實現的,每個結構由其標識,結構中的每個域有其標識,這兩個標識唯一決定了一個數據域。在解碼的時候,數據域的標識被檢查,如果不能識別,則該數據域被拋棄。Thrift也可以通過”Isset”機制來明確某些域的設置與否(發送端用來指明是否設置,接收端用來檢測是否設置)。
四種情況:
- 添加了數據域, 舊客戶端,新服務器端:客戶端發送的數據中沒有該域,服務器端能檢測出來,可按缺省值處理。
- 刪除了數據域, 舊客戶端,新服務器端:客戶端發送的數據中有該域,服務器端忽略該域。
- 添加了數據域, 新客戶端,舊服務器端:客戶端發送的數據中有該域,服務器端忽略該域。
- 刪除了數據域, 新客戶端,舊服務器端:客戶端發送的數據中沒有該域,服務器端可能不知道如何處理這種情況。
?處理器(processor)
就是如何將各部分協調起來,形成代碼(或用戶代碼的框架)。它有兩個重要的類:TProcessor和TServer。TProcessor用來實現RPC調用,TServer是所有Server類的基類,TServer類主要處理連接和線程,而不管諸如傳輸、編碼等。用戶代碼主要關注的一是.thrift文件,二就是這個接口。Thrift為此實現了TSimpleServer(單線程), TThreadedServer(每連接一個線程)和 TThreadPoolServer(線程池)等類。
下圖是thrift生成代碼的基本結構(C++)。
圖中,ServiceIf是根據接口文件(.thrift)生成的虛接口類,用戶的具體實現在ServiceHandler中。各種調用方式在TServer中實現。【詳細的描述見實例】
?
2.Thrift實現上的幾個考慮
目標語言
雖然有多種選擇,但最常用的(可能也是支持最好的)是C++, Java, and Python。
生成的結構體
數據域成員都是公有的,沒有set,get之類的東西,雖然建議采用isset,但也可以不用,系統足夠強健來處理類似“FieldNotSetException”之類的問題,因而也沒有涉及該異常。Read和write方面也是公有的,這樣用戶可以在固有的RPC之外來使用它們。
RPC方法標識:實現RPC時,建立函數名與函數指針之間的映射,大致如下(不同的語言表達方式不同,C++,map):
std::map<std::string,函數指針> processMap_;
這樣加快函數調用。
多線程
對C++實現,在開發過程中,thrift開發人員研究過boost,ACE中與thread,timer相關的東西,開發人員不想引入過多的第三方依賴,因此thrift中只有對boost::shared_ptr的引用是必須的,但為了跨平臺或獲得更多的功能,一般情況下,boost中thread,timer及其依賴庫也是需要的。
ThreadManager和TimerManager
線程管理類用來管理線程池,定時器管理類可以定時觸發Runnable的對象,開啟一件事情(可以放到或不放到一個單獨線程)。
NonblockingOperation
這個東西需要libevent的支持。
Compiler(代碼生成器)
這個東西是用C++寫的,依賴于lex/yacc。代碼生成分兩步:第一,檢查包含的文件和類型定義文件,生成“解析樹”(the parse tree);第二,將各類型放到解析樹中,根據解析樹生成代碼。
TFileTransport
這個類(及其繼承類)可以將request消息記入文件,為提高性能,它先緩存記錄,并存入磁盤。記錄文件是分塊的(文件固定大小),采用padding,記錄不能跨塊。
(未完)