集算器協助Java處理結構化文本之條件過濾

直接用Java實現文本文件中數據按條件過濾會有如下的麻煩:

1、文件不是數據庫，不能用SQL訪問。當過濾條件變化時需要改寫代碼。如果要實現象SQL那樣靈活的條件過濾，則需要自己實現動態表達式解析和求值，編程工作量非常大。

2、文件太大時不能一次性裝入內存處理，而采用逐步讀入方式在考慮到性能時又會涉及到文件緩沖區管理、拆行計算等復雜編程。

使用集算器來輔助Java編程，這些問題都不需要自己寫代碼解決。下面我們通過例子來看一下具體作法。

文本文件employee.txt中保存了員工數據。我們要讀取員工信息，從中找出1981年1月1日（含）之后出生的女員工。

文本文件empolyee.txt的格式如下：

????EID NAME SURNAME GENDER STATE BIRTHDAY HIREDATE DEPT SALARY
????1 Rebecca Moore F California 1974-11-20 2005-03-11 R&D 7000
????2 Ashley Wilson F New York 1980-07-19 2008-03-16 Finance 11000
????3 Rachel Johnson F New Mexico 1970-12-17 2010-12-01 Sales 9000
????4 Emily Smith F Texas 1985-03-07 2006-08-15 HR 7000
????5 Ashley Smith F Texas 1975-05-13 2004-07-30 R&D 16000
????6 Matthew Johnson M California 1984-07-07 2005-07-07 Sales 11000
????7 Alexis Smith F Illinois 1972-08-16 2002-08-16 Sales 9000
????8 Megan Wilson F California 1979-04-19 1984-04-19 Marketing 11000
????9 Victoria Davis F Texas 1983-12-07 2009-12-07 HR 3000
????10 Ryan Johnson M Pennsylvania 1976-03-12 2006-03-12 R&D 13000
????11 Jacob Moore M Texas 1974-12-16 2004-12-16 Sales 12000
????12 Jessica Davis F New York 1980-09-11 2008-09-11 Sales 7000
????13 Daniel Davis M Florida 1982-05-14 2010-05-14 Finance 10000
????…

實現的思路是：用Java程序調用集算器腳本，讀取和計算數據，之后將結果以ResultSet的方式返回給Java程序。由于集算器支持動態表達式解析和求值，使得Java程序可以像使用sql那樣，靈活的過濾文本文件中的數據。

例如，我們需要查詢1981年1月1日（含）之后出生的女員工，esProc程序可以從外部獲得一個輸入參數“where”作為條件，如下圖：

where是個字串，取值是：BIRTHDAY>=date(1981,1,1) && GENDER==”F”。

esProc代碼如下：

A1：定義一個file對象，讀入數據，第一行是標題，字段分隔符默認是tab。esProc的集成開發環境可以直觀的顯示出導入的數據，如上圖右邊部分。

A2：按照條件過濾。這里使用宏來實現動態解析表達式，其中的where就是傳入參數。集算器先計算${…}里的表達式，將計算結果作為宏字符串值替換${…}之后解釋執行。這個例子中最終執行的是：=A1.select(BIRTHDAY>=date(1981,1,1) && GENDER==”F”)。

A3：向外部程序返回符合條件的結果集。

過濾條件發生變化時不用改變代碼，只需改變where參數即可。例如，條件變為：查詢1981年1月1日（含）之后出生的女員工，或者NAME+SURNAME等于”RebeccaMoore”的員工。Where的參數值可以寫為：BIRTHDAY>=date(1981,1,1) && GENDER==”F” || NAME+SURNAME==”RebeccaMoore”。執行之后，A2中的結果集如下圖：

在Java程序中使用esProc JDBC調用這段程序獲得結果的代碼如下：（將上述esProc程序保存為test.dfx）：

????//建立esProc jdbc連接
????Class.forName(“com.esproc.jdbc.InternalDriver”);
????con= DriverManager.getConnection(“jdbc:esproc:local://”);
????//調用esProc 程序（存儲過程），其中test是dfx的文件名
????st =(com.esproc.jdbc.InternalCStatement)con.prepareCall(“call test(?)”);
????//設置參數
????st.setObject(1,” BIRTHDAY>=date(1981,1,1) && GENDER==\”F\” ||NAME+SURNAME==\”RebeccaMoore\”");//參數就是動態的過濾條件
????//執行esProc存儲過程
????st.execute();
????//獲取結果集：符合條件的員工集合
????ResultSet set = st.getResultSet();

對于代碼較簡單的腳本，還可以把代碼直接寫在調用集算器JDBC的Java程序中，而不必專門編寫腳本文件（test.dfx）：
????st=(com. esproc.jdbc.InternalCStatement)con.createStatement();
????ResultSet set= st.executeQuery(“=file(\”D:/employee.txt\”).import@t().select(BIRTHDAY>=date(1981,1,1)&&GENDER==\”F\” || NAME+SURNAME==\”RebeccaMoore\”)”);

這段Java代碼直接調用了集算器的一句腳本：從文本文件中取得數據，并按照指定的條件過濾。結果集返回給ResultSet對象set。

上面方法中假定文件較小，可以全部讀入內存。但實際上可能發生文件較大無法讀入內容的情況，而且即使可以讀入也沒必要占太多內存，這時可以使用文件游標的方式來處理。集算器程序調整如下：

A1：定義一個file對象游標，第一行是標題，字段分隔符默認是tab。

A2：按照條件過濾游標。這里使用宏來實現動態解析表達式，其中的where就是傳入參數。集算器將先計算${…}里的表達式，將計算結果作為宏字符串值替換${…}之后解釋執行。這個例子中最終執行的是：=A1.select(BIRTHDAY>=date(1981,1,1) && GENDER==”F”)。

A3：返回游標。

雖然集算器給Java返回的是游標，但是Java調用的程序不用修改。在Java使用ResultSet遍歷數據的時候集算器會自動取出游標對應的內容。

如果需要將過濾后的數據寫入另一個文件而不是返回給主程序，只要將A3格的表達式改成：=file(“D:/employee_group.txt”).export@t(A2)即可，集算器將把游標數據寫出成文件。

轉載于:https://www.cnblogs.com/raqsoft/p/5056057.html

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/397066.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/397066.shtml
英文地址，請注明出處：http://en.pswp.cn/news/397066.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！