充分利用昂貴的分析

By Noor Malik

努爾·馬利克(Noor Malik)

Let’s say you write a query in Deephaven which performs a lengthy and expensive analysis, resulting in a live table. For example, in a previous project, I wrote a query which pulled data from an RSS feed to create a live table of earnings call transcripts, and an expensive Sentiment Analysis machine learning model was used to predict overall sentiments.

假設您在Deephaven中編寫了一個查詢,該查詢執行了冗長且昂貴的分析,從而產生了活動表。 例如,在上一個項目中 ,我編寫了一個查詢,該查詢從RSS提要中提取數據以創建實時收入通話記錄表,并使用了昂貴的Sentiment Analysis機器學習模型來預測總體情緒。

After performing the analysis, you want to use the resulting live table in several other queries. For example, I wanted to use my live table of sentiment predictions in another query which verified whether the sentiment predictions matched the direction of the companies’ stocks. Luckily, Deephaven provides the ability to share tables between queries with Preemptive Tables.

執行分析之后,您想在其他幾個查詢中使用生成的活動表。 例如,我想在另一個查詢中使用我的情緒預測實時表,該查詢驗證了情緒預測是否與公司股票的方向一致。 幸運的是,Deephaven提供了使用搶先表在查詢之間共享表的功能。

With Preemptive Tables, the query processor automatically pushes a consistent snapshot of all data from a table on the server to subscribed clients at regular intervals. The publisher specifies the refresh rate of the Preemptive Table, the frequency at which the table is sent over the network to subscribers, and client queries set a timeout threshold, the maximum amount of time to wait for a connection to the publisher query to be established before the connection times out.

使用搶占式表,查詢處理器會自動將所有數據的一致快照從服務器上的表定期推送到訂閱的客戶端。 發布者指定搶占表的刷新率,該表通過網絡發送給訂戶的頻率以及客戶端查詢設置超時閾值,等待與發布者查詢建立連接的最大時間在連接超時之前。

Any table on the Deephaven server can easily be published as a Preemptive table. In my “EarningsCallSentimentAnalysis” query, I produced a table called callPredictions that I wanted to share as a Preemptive Table with a 2-minute refresh rate. I did so as follows:

Deephaven服務器上的任何表都可以輕松地發布為搶先表。 在我的“ EarningsCallSentimentAnalysis”查詢中,我生成了一個名為callPredictions的表,我希望將其共享為2分鐘刷新率的搶占式表。 我這樣做如下:

callPredictionsPre = callPredictions.preemptiveUpdatesTable(2*60*1000)
Image for post
My callPredictions table
我的callPredictions表

My other query, which needed to use my callPredictions table, created a client connection with a timeout threshold of 3 minutes and subscribed to the table as follows:

我的另一個查詢(需要使用我的callPredictions表)創建了一個超時閾值為3分鐘的客戶端連接,并按以下方式訂閱了該表:

With Preemptive Tables, I was able to use the Sym column of the callPredictions table to look up past and present stock prices and join the directions of movement onto callPredictions in a column called Direction. I then created a boolean column called CorrectPrediction, which would show true if a company’s predicted earnings call sentiment matched their stock direction, and false otherwise.

借助Preemptive Tables,我可以使用callPredictions表的Sym列查詢過去和現在的股價,并將移動方向加入到Direction列中的callPredictions上。 然后,我創建了一個名為CorrectPrediction的布爾列,如果公司的預期收益電話情緒與他們的股票方向匹配,它將顯示true,否則顯示false。

Note that companies without values in the Direction and CorrectPrediction columns did not have stock data available.

請注意,“方向”和“正確預測”列中沒有值的公司沒有可用的庫存數據。

Image for post
My callPredictions table after updates in my other query
我的其他查詢更新后的我的callPredictions表

This simple and easy-to-use method of table sharing helped me add another dimension to my Earnings Call Sentiment Analysis project, and allowed me to take my analyses further without having to perform the same lengthy computations again to re-use them for another purpose.

這種簡單易用的表格共享方法幫助我在“收入呼吁情緒分析”項目中添加了新的維度,使我可以進一步進行分析,而不必再次執行相同的冗長計算即可將其重新用于其他目的。

翻譯自: https://medium.com/swlh/get-the-most-out-of-expensive-analyses-fa95f0193d18

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/389532.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/389532.shtml
英文地址,請注明出處:http://en.pswp.cn/news/389532.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【java并發編程藝術學習】(一)初衷、感想與筆記目錄

不忘初心,方得始終。 學習java編程這么長時間,自認為在項目功能需求開發中沒啥問題,但是之前的幾次面試和跟一些勤奮的或者小牛、大牛級別的人的接觸中,才發現自己的無知與淺薄。 學習總得有個方向吧,現階段就想把并發…

層次聚類和密度聚類思想及實現

層次聚類 層次聚類的概念: 層次聚類是一種很直觀的算法。顧名思義就是要一層一層地進行聚類。 層次法(Hierarchicalmethods)先計算樣本之間的距離。每次將距離最近的點合并到同一個類。然后,再 計算類與類之間的距離&#xff0…

通配符 或 怎么濃_濃咖啡的咖啡渣新鮮度

通配符 或 怎么濃How long could you wait to brew espresso after grinding? Ask a barista, any barista, and I suspect their answer is immediately or within a few minutes. The common knowledge on coffee grounds freshness is that after 30 minutes or so, coffee…

保留

看見 你在我眼前 不去猜想我們隔多遠 當我 夜幕中準備 只想讓沉默的能開解 在不同的遭遇里 我發現你的瞬間 有種不可言說的溫柔直覺 在有限的深夜消失之前 觸摸你的臉 我情愿這是幻覺 也不愿是種告別 已經忘了 你的名字 就在這座 寂靜星石 怎么還有 你的樣子 被保留 給我 一整個…

《netty入門與實戰》筆記-02:服務端啟動流程

為什么80%的碼農都做不了架構師?>>> 1.服務端啟動流程 這一小節,我們來學習一下如何使用 Netty 來啟動一個服務端應用程序,以下是服務端啟動的一個非常精簡的 Demo: NettyServer.java public class NettyServer {public static v…

譜聚類思想及實現

(這個我也沒有怎么懂,為了防止以后能用上,還是記錄下來) 譜聚類 注意:譜聚類核心聚類算法還是K-means 算法進行聚類~ 譜聚類的實現過程: 1.根據數據構造一個 圖結構(Graph) &…

Tengine HTTPS原理解析、實踐與調試【轉】

本文邀請阿里云CDN HTTPS技術專家金九,分享Tengine的一些HTTPS實踐經驗。內容主要有四個方面:HTTPS趨勢、HTTPS基礎、HTTPS實踐、HTTPS調試。 一、HTTPS趨勢 這一章節主要介紹近幾年和未來HTTPS的趨勢,包括兩大瀏覽器chrome和firefox對HTTPS的…

Linux 指定運行時動態庫路徑【轉】

轉自:http://www.cnblogs.com/cute/archive/2011/02/24/1963957.html 眾所周知, Linux 動態庫的默認搜索路徑是 /lib 和 /usr/lib 。動態庫被創建后,一般都復制到這兩個目錄中。當程序執行時需要某動態庫, 并且該動態庫還未加載到…

opencv:SIFT——尺度不變特征變換

SIFT概念: Sift(尺度不變特征變換),全稱是Scale Invariant Feature Transform Sift提取圖像的局部特征,在尺度空間尋找極值點,并提取出其位置、尺度、方向信息。 Sfit的應用范圍包括 物體辨別、機器人地圖…

pca(主成分分析技術)_主成分分析技巧

pca(主成分分析技術)介紹 (Introduction) Principal Component Analysis (PCA) is an unsupervised technique for dimensionality reduction.主成分分析(PCA)是一種無監督的降維技術。 What is dimensionality reduction?什么是降維? Let us start with an exam…

npm link run npm script

npm link & run npm script https://blog.csdn.net/juhaotian/article/details/78672390 npm link命令可以將一個任意位置的npm包鏈接到全局執行環境,從而在任意位置使用命令行都可以直接運行該npm包。 app-cmd.cmd #!/usr/bin/env nodeecho "666" &a…

一文詳解java中對JVM的深度解析、調優工具、垃圾回收

2019獨角獸企業重金招聘Python工程師標準>>> jvm監控分析工具一般分為兩類,一種是jdk自帶的工具,一種是第三方的分析工具。jdk自帶工具一般在jdk bin目錄下面,以exe的形式直接點擊就可以使用,其中包含分析工具已經很強…

借用繼承_博物館正在數字化,并在此過程中從數據中借用

借用繼承Data visualization is a great way to celebrate our favorite pieces of art as well as reveal connections and ideas that were previously invisible. More importantly, it’s a fun way to connect things we love — visualizing data and kicking up our fee…

高斯噪聲,椒鹽噪聲的思想及多種噪聲的實現

圖像噪聲: 概念: ? 圖像噪聲是圖像在獲取或是傳輸過程中受到隨機信號干擾,妨礙人們對圖像理解及分析處理 的信號。 ? 很多時候將圖像噪聲看做多維隨機過程,因而描述噪聲的方法完全可以借用隨機過程的描述, 也就是使…

bzoj1095 [ZJOI2007]Hide 捉迷藏

據說是道很厲害的題。。。。黃學長的安利啊。。。。 然而我卻用它學分治。。。。 一個坑就擺在這里了。。。。 轉載于:https://www.cnblogs.com/LLppdd/p/9124394.html

如何識別媒體偏見_描述性語言理解,以識別文本中的潛在偏見

如何識別媒體偏見TGumGum can do to bring change by utilizing our Natural Language Processing technology to shed light on potential bias that websites may have in their content. The ideas and techniques shared in this blog are a result of the GumGum Hackatho…

分享 : 警惕MySQL運維陷阱:基于MyCat的偽分布式架構

分布式數據庫已經進入了全面快速發展階段。這種發展是與時俱進的,與人的需求分不開,因為現在信息時代的高速發展,導致數據量和交易量越來越大。這種現象首先導致的就是存儲瓶頸,因為MySQL數據庫實質上還是一個單機版本的數據庫&am…

opencv:圖像讀取BGR變成RGB

opencv大坑之BGR opencv對于讀進來的圖片的通道排列是BGR,而不是主流的RGB!謹記! #opencv讀入的矩陣是BGR,如果想轉為RGB,可以這么轉 img cv2.imread(1.jpg) img cv2.cvtColor(img4,cv2.COLOR_BGR2RGB)

數據不平衡處理_如何處理多類不平衡數據說不可以

數據不平衡處理重點 (Top highlight)One of the common problems in Machine Learning is handling the imbalanced data, in which there is a highly disproportionate in the target classes.機器學習中的常見問題之一是處理不平衡的數據,其中目標類別的比例非常…

最小二乘法以及RANSAC(隨機采樣一致性)思想及實現

線性回歸–最小二乘法(Least Square Method) 線性回歸: 什么是線性回歸? 舉個例子,某商品的利潤在售價為2元、5元、10元時分別為4元、10元、20元, 我們很容易得出商品的利潤與售價的關系符合直線&#xf…