2023 龍蜥操作系統大會演講實錄:《兼容龍蜥的云原生大模型數據計算系統——πDataCS》

image.png

本文主要分三部分內容:第一部分介紹拓數派公司,第二部分介紹 πDataCS 產品,最后介紹 πDataCS 與龍蜥在生態上的合作。

杭州拓數派科技發展有限公司(簡稱“拓數派”,英文名稱“OpenPie”)是國內基礎數據計算領域的高科技創新企業。作為國內云上數據庫和數據計算領域的引領者,以“Data Computing for New Discoveries”「數據計算,只為新發現」為使命,致力于在數字原生時代,運用突破性計算理論、獨創的云原生數據庫旗艦產品以及之上的算法和數學模型,建立下一代云原生數據平臺的前沿標準,驅動企業實現從“軟件公司”到“數據公司”再到“數學公司”的持續進階,加速數字化轉型升級。

拓數派自成立以來專注于數據計算領域,旗下大模型數據計算系統(PieDataComputingSystem, 縮寫:πDataCS),以云原生技術重構數據存儲和計算,一份存儲,多引擎數據計算,讓 AI 模型更大更快,全面升級大數據系統至大模型時代。πDataCS 旨在助力企業優化計算瓶頸、充分利用和發揮數據規模優勢,構建核心技術壁壘,更好地賦能業務發展,使得自主可控的大模型數據計算系統保持全球領先,讓大模型技術全面賦能各行各業。 目前大模型數據計算系統,面向國內市場提供公有云版、社區版、企業版及一體機多個版本,滿足企業不同業務場景需求,并已為金融、制造、醫療及教育等行業用戶構建了 AI 數據底座。

image.png

拓數派擁有強悍的研發核心團隊和有成功上市經驗的管理團隊。其核心團隊成員主要來自 Pivotal、IBM、騰訊、字節跳動、快手、Oracle 等世界 500 強以及國內頭部互聯網公司。拓數派創始人兼 CEO 馮雷(Ray Von)是數據云和人工智能領域的連續創業者和技術引領者。馮雷于 2010 年從美國硅谷歸國,曾在 500 強公司 EMC 旗下創建 Greenplum 中國研發部門工作。2013 年隨著全球 Pivotal 組建,馮雷先生在中國 Greenplum 大數據和 VMWare 的 PaaS 云的基礎上組建了 Pivotal 中國研發中心,推動了 Greenplum 大數據庫、CloudFoundry PaaS 云等知名開源產品的領域領先地位。

image.png

拓數派 2021 年創立,迅速進入快速發展階段,引領數據計算時代的到來。成立當天即獲得頭部產業基金天使輪投資,成為 DAY-1 準獨角獸。2022 年拓數派發布了云原生虛擬數倉 PieCloudDB 社區版與商業版。2023 年拓數派大模型數據計算系統 πDataCS 正式亮相,讓 AI 模型更大更快。

image.png

下面介紹 πDataCS。數據分析的目的最終是為了發現解釋世界規則的模型。有了數據和計算,最終用來描述世界規律,構建一個模型系統。構建模型系統的關鍵是要有足夠多的數據,數據是核心競爭力。有了數據后要構造出解釋世界的模型。拓數派團隊既具備大數據分析的豐富經驗,也具備云計算方面的實戰經驗。

image.png

一提到模型可能首先想到有幾千億參數的大模型數據系統,其實日常生活中的模型無處不在。例如自由落體模型,由物理實驗推導而來。最早的物理規律并不是理論推導而成,而是由數據分析得出,例如開普勒行星運動三定律,就是通過分析天文學家幾十年的觀測數據總結得出。以自由落體模型為例,可以考慮物體的自由落體運動以時間和變量為參數。構造這樣簡單的一套模擬系統,通過觀測收集到數據,再經過計算發現 p0、p1 參數都是 0,只有 p3 是5 。經過分析后得出,只有當 p0、p1 值為該值時才符合客觀規律,這就是簡單的模型訓練過程。進行數據分析時,不僅要構造像大模型這種復雜系統,生活中也有很多像自由落體這種模型等待我們發現。

下面是 πDataCS 產品的架構圖。

image.png

πDataCS 打造了全新的云原生架構,支持一份數據,多引擎計算。πDataCS 支持多種云平臺,包括公有云和私有云。πDataCS 以云原生技術重構數據存儲和計算,先將數據計算系統中的計算和數據分離,增強系統的彈性。接著,考慮到未來數據治理和交易,拓數派把元數據和用戶數據再次分離,實現了全新的 eMPP 架構。元數據被映射到塊存儲,由元數據管理系統「木牘」進行管理;用戶數據被映射到對象存儲,由「簡墨」存儲系統來管理;計算被映射到容器或者虛擬機,由計算系統來管理。元數據可以在系統中描述數據的結構,找到數據位置。將元數據單獨處理后簡化了數據交換。例如進行黃金交易時不一定一手交錢一手交貨,可以將存儲黃金的保險柜鑰匙交出,此處的保險柜鑰匙就相當于元數據管理系統,避免了數據遺漏等風險。此外 πDataCS 還利用 FPGA 硬件加速技術來提高對數據文件的訪問。

目前,πDataCS支持三種計算引擎:

  • PieCloudDB: 作為拓數派首款云原生數倉計算引擎,支持 SQL 語言模型,兼容 HTAP
  • PieCloudVector: 為支持和大模型配合的向量計算而建立的云原生向量計算引擎
  • PieCloudML: 為支持 Python 和 R 等機器學習語言而建立的云原生機器學習引擎

πDataCS 的第一個優勢是全面升級 Hadoop 大數據和 Greenplum 數倉至云原生數據平臺。打造 πDataCS 是為了全面升級用戶的數據平臺。曾經談到大數據時一定會提到 Hadoop,隨著時間發展,人們發現 Hadoop 的很多問題,但很多用戶的大數據系統還是基于 Hadoop 實現。自從 Hadoop 之后出現很多大數據技術,但只能解決一部分數據問題。例如 MPP 數據庫,主要為了處理關系型數據,還有 MySQL 數據庫只能處理某一個類型的數據。只有 Hadoop 平臺可以使用它的若干個模塊來處理所有的數據,包括結構化的、非結構化的、文本、圖像等等。同 Hadoop 一樣,πDataCS 和也可以通過一個平臺多種計算引擎來為客戶處理所有數據,包括結構化的、非結構化的、文本、圖像等。

image.png

πDataCS 的第二優勢是可以全面支持大語言基礎模型和私域數據結合做垂直應用。拓數派第二款計算引擎 PieCloudVector,是一款可以用于存儲、查詢和分析向量數據(比如特征向量)的向量數據庫。

image.png

某知名金融客戶積累了很多金融方面的數據,包括各種各業的行業和所投資的各個公司的一些財務數據等,這些是他的核心競爭力。他希望打造一個他私有的大模型系統,使用問答的方式來使用他收集的這些金融方面數據,但是考慮到數據的隱私和安全等,不可能使用公開的大模型。上圖是以 PieCloudVector 為核心,幫助客戶找到了這樣一套私有的金融方面的大模型系統。首先這些文檔使用模型進行提取,將特征存入向量計算 Vector 數據中,再通過架構和他的應用程序進行交互,然后可以使用問答的方式來使用金融數據,也可以使用像大語言模型系統。

πDataCS 的第三個優勢是云原生 eMPP 計算引擎全面顛覆 MPP 技術,打造大模型數據計算新范式。這一優勢是通過第一款計算引擎 PieCloudDB Database 來實現的。

image.png

虛擬機技術可以把一臺物理服務器切換成若干臺小的服務器,把它一臺物理服務器的資源切換虛擬機,給不同的用戶來用。同樣我們希望把數倉資源切算成若干的虛擬數倉,然后交給各個部門來使用,提高硬件的使用效率。以上解釋了為什么拓數派團隊要對 PieCloudDB 打造基于云原生的 eMPP 架構。

PieCloudDB 是基于 eMPP 架構的數倉系統,實現了把元數據收集到元數據服務木牘當中,把用戶數據存儲到了簡墨系統中,然后實現了存儲分離的虛擬數倉,實現了元數據、用戶數據和虛擬數倉數據計算之間獨立的擴縮容。使用基于 PC 架構的傳統數倉系統,數據和計算緊緊綁定在一起。可以對它進行橫向的擴展,但是同時必須要擴展存儲,也需要擴展計算,計算和存儲不能進行獨立的擴展。這種架構下需要縮容時操作很困難。通過 PieCloudDB 虛擬數倉,將一個個數倉打造成不包含任何數據而且無狀態的計算平臺。可以根據需要對數倉的計算能力進行擴縮容。

image.png

在實際的應用場景中,簡墨系統可以構建在 S3 對象存儲中或者 HDFS 和 NAS 中。

image.png

PieCloudDB 通過映射,讓每一個業務部門自己擁有獨立的一套數倉系統,使用起來與傳統 MPP 數據庫沒有太大區別。但各個部門進行數據交換時,不需要再進行 ETL 操作,通過數據授權對元數據進行操作,將不同部門之間的數據映射給其他部門。在存儲系統中,所有數據只存儲了一份。類似前文交換保險柜鑰匙來獲得黃金,而不是真正進行黃金交換。通過虛擬數倉系統,可以降低硬件和管理成本。虛擬化可以提高硬件的使用率,提升數據資源的應用效率,再通過一些技術提高數據安全性。

image.png

為了實現虛擬數倉系統,PieCloudDB 完成了四大技術突破。

image.png

首先,PieCloudDB 實現了云原生存算分離架構:用戶數據,元數據和計算三層分離,可進行獨立擴縮容。第二根據云原生特點打造優化器達奇。云原生優化器負責根據部署 PieCloudDB 架構的特點來生成更優的執行計劃,提高數據分析效率。第三是全新的數據存儲引擎簡墨,還有相關緩存架構設計,提高虛擬數倉訪問數據輸出的效率。第四是 eMPP 分布式技術,為傳統 MPP 架構增加彈性,使虛擬數倉進行橫向的擴容和縮容變得非常方便。

πDataCS 第二款計算引擎PieCloudVector,針對一些像金融、保險這方面用戶,對數據的安全性要求比較高,需要打造一個自己私有的大模型系統。

image.png

把用戶收集的數據或者是公有的數據,通過特征提取,創建一系列 embeddings,存儲到向量數組中,再通過其他一些開源框架和大模型進行一個交互。相當于 PieCloudVector 為客戶自己構建自有大模型提供存儲底座。相對于其他的向量數據庫,包括一些專用的數據庫,還有傳統的關鍵數據庫有這些向量的插件。

image.png

相比這兩種方案,我們這套系統有哪些優勢呢?第一,使用專用的向量數據庫,其他一些相關數據,例如存儲在數據庫中的關鍵型數據等,需要進行若干數據移動。傳統的數據庫在高可用或者擴展方面有缺陷。所以 PieCloudVector 集中了兩方面優勢,比較方便進行水平的擴縮容,第二個同時具有這兩方面的優點,既可以存儲普通的關系型數據,也可以存儲向量數據。

第三款計算引擎是正在開發的新一代(大模型)機器學習 PieCloudML,在現有這些架構的基礎上,通過新一代 PieCloudML,增加機器學習、圖像數據處理等大模型系統提供更深一步的支持。

image.png

大模型數據計算系統,面向國內市場提供云上云版、社區版、企業版、一體機四個版本,滿足企業不同業務場景需求。πDataCS 有三種部署方式。第一種直接部署在云上,第二種部署在客戶現有的云平臺,第三種是一體機系統,用戶接上網線,插上電源可以直接使用。

image.png

拓數派一直秉持著“開放互信、合作共贏”的理念,致力于構建蓬勃的數據生態。πDataCS 也非常注重軟件生態打造,注重與社區方面的合作。πDataCS 需要適配各種各樣的云環境,所以需要打造強大的軟件生態系統。拓數派團隊針對不同的部署方式與龍蜥平臺進行了全方位的測試,測試結果顯示,龍晰平臺安全穩定、性能優異。因此,我們確信,龍蜥平臺可以支持 πDataCS 良好運行。 除了龍蜥外,πDataCS 也完成了與其他主流軟硬件平臺的適配工作。拓數派將繼續努力,打造完善的產品生態,為用戶提供更安全穩定、高性能、易用的大模型數據計算平臺。

image.png

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/697231.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/697231.shtml
英文地址,請注明出處:http://en.pswp.cn/news/697231.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

論文發表 | 頂會頂刊的實驗是如何煉成的

前言:Hello大家好,我是小哥談。在計算機科學研究領域,尤其是當你追求頂級會議和期刊的發表時,沒有什么?實驗設計更關鍵了。為什么這么說?理由很簡單。實驗不僅僅是你?來 檢驗假設的?段,它更是審稿?會重點關注和閱讀的部分,也是你驗證??研究多么創新、多么重要的內…

0221 解決萬得導出數據excel無法python讀入的問題

報錯如下&#xff1a; TypeError: <class openpyxl.styles.named_styles._NamedCellStyle>.name should be <class str> but value is <class NoneType> 原因分析&#xff1a; 萬得導出的xlsx帶有某些格式&#xff0c;比如首行加粗&#xff0c;excel桌面端工…

Linux之用戶和用戶組

目錄 一、簡介 1.1 用戶賬號分類 二、用戶 2.1 useradd 2.2 userdel 2.3 usermod 2.4 passwd 2.5 su 2.6 登出 三、用戶組 3.1 groupadd 3.2 groupdel 3.3 groupmod 3.4 newgrp 四、用戶賬號系統 4.1 /ect/passwd 4.2 常見的偽用戶如下所示 五、思維導圖 …

自動駕駛---Motion Planning之LaneChange

1 背景 在Apollo中,有比較多的Decider(決策器),上篇博客《自動駕駛---Motion Planning之Decider》中筆者也大概介紹了每個Deicder的作用。 本篇博客筆者主要介紹換道的決策內容,因為在自動駕駛中(嚴格意義上來講,目前還屬于輔助駕駛),變道的靈活性是用戶評價該功能是否…

安裝和配置awscli

1、 安裝awscli curl "https://awscli.amazonaws.com/awscli-exe-linux-x86_64.zip" -o "awscliv2.zip" unzip awscliv2.zip ./aws/install ln -s /usr/local/bin/aws /usr/bin/aws安裝完成&#xff0c;檢查awscli版本號 aws --version輸出內容 aws-cli…

igolang學習3,golang 項目中配置gin的web框架

1.go 初始化 mod文件 go mod init gin-ranking 2.gin的crm框架 go get -u github.com/gin-gonic/gin 3.go.mod爆紅解決

Odoo17 不再支持視圖中的attrs和states

在最新的視圖設計中&#xff0c;屬性寫法發生了改變。以前我們使用的attrs和states屬性不再被支持&#xff0c;因此在現有模塊的視圖中&#xff0c;之前寫在attrs屬性中的invisiable、readonly、required等屬性需要全部拆分成獨立的屬性表達式。 odoo17之前的寫法 <field …

回調函數(Language C)

#源于指針的深入學習 對于回調函數&#xff0c;其實我們只需要了解一下函數指針即可使用回調函數了 什么是回調函數&#xff1f; 通俗的來講&#xff0c;它是一個函數指針變量&#xff08;注意&#xff1a;它不是指針函數&#xff0c;它們是不同的一個概念&#xff09; 函數…

靡語IT:JavaScript_概述、基礎

一、JavaScript 概述 javaScript 語言主要是完成頁面的數據驗證&#xff0c;因此它運行在客戶端&#xff0c; 需要運行瀏覽器來解析執行 JavaScript 代碼。js 是網景公司 &#xff08;Netscape&#xff09;的產品&#xff0c;最早取名為 LiveScript 最后借 java 的熱度 改為 j…

C++多線程同步(上)

多線程同步 引言總述詳情互斥鎖示例運行結果分析條件變量示例一實現分析優化運行結果示例二實現代碼運行結果示例三實現代碼運行結果讀寫鎖示例實現代碼注意分析運行結果附言實現運行結果運行結果個人心得引言 項目中使用多線程,會遇到兩種問題,一種是對共享資源的訪問時需要…

關于運行flutter app 運行到模擬器出現異常提示

Exception: Gradle task assembleDebug failed with exit code 1 解決方案&#xff1a; 1.講當前文件的distributionUrl值改為 https://mirrors.cloud.tencent.com/gradle/gradle-7.4-all.zip

Redis 學習筆記 3:黑馬點評

Redis 學習筆記 3&#xff1a;黑馬點評 準備工作 需要先導入項目相關資源&#xff1a; 數據庫文件 hmdp.sql后端代碼 hm-dianping.zip包括前端代碼的 Nginx 啟動后端代碼和 Nginx。 短信登錄 發送驗證碼 PostMapping("code") public Result sendCode(RequestP…

超市售貨|超市售貨管理小程序|基于微信小程序的超市售貨管理系統設計與實現(源碼+數據庫+文檔)

超市售貨管理小程序目錄 目錄 基于微信小程序的超市售貨管理系統設計與實現 一、前言 二、系統功能設計 三、系統實現 1、微信小程序前臺 2、管理員后臺 &#xff08;1&#xff09;商品管理 &#xff08;2&#xff09;出入庫管理 &#xff08;3&#xff09;公告管理 …

CrossOver2024虛擬機軟件的優缺點分別是什么?

CrossOver虛擬機軟件的優缺點分別如下&#xff1a; 優點&#xff1a; 無需雙系統&#xff1a;用戶可以在Mac或Linux系統上直接運行Windows應用程序&#xff0c;無需安裝雙系統&#xff0c;從而節省了硬盤空間并避免了系統切換的麻煩。易于安裝和使用&#xff1a;CrossOver具有…

文件上傳---->生僻字解析漏洞

現在的現實生活中&#xff0c;存在文件上傳的點&#xff0c;基本上都是白名單判斷&#xff08;很少黑名單了&#xff09; 對于白名單&#xff0c;我們有截斷&#xff0c;圖片馬&#xff0c;二次渲染&#xff0c;服務器解析漏洞這些&#xff0c;于是今天我就來補充一種在upload…

RAW 編程接口 TCP 簡介

一、LWIP 中 中 RAW API 編程接口中與 TCP 相關的函數 二、LWIP TCP RAW API 函數 三、LwIP_Periodic_Handle函數 LwIP_Periodic_Handle 函數是一個必須被無限循環調用的 LwIP支持函數&#xff0c;一般在 main函數的無限循環中調用&#xff0c;主要功能是為 LwIP各個模塊提供…

web前端安全性——JSONP劫持

1、JSONP概念 JSONP(JSON with Padding)是JSON的一種“使用模式”&#xff0c;可用于解決主流瀏覽器的跨域數據訪問的問題。由于同源策略&#xff0c;協議IP端口有任意不同都會導致請求跨域&#xff0c;而HTML的script元素是一個例外。利用script元素的這個開放策略&#xff0…

vscode【報錯】yarn : 無法將“yarn”項識別為 cmdlet

問題 CMD下載完yarn可以查看到yarn版本&#xff0c;但是進入到vscode控制臺報錯無法識別&#xff0c;報錯內容如下&#xff1a; vscode【報錯】yarn : 無法將“yarn”項識別為 cmdlet、函數、腳本文件或可運行程序的名稱。請檢查名稱的拼寫&#xff0c;如果包括路徑&#xff…

@ 代碼隨想錄算法訓練營第8周(C語言)|Day57(動態規劃)

代碼隨想錄算法訓練營第8周&#xff08;C語言&#xff09;|Day57&#xff08;動態規劃&#xff09; Day53、動態規劃&#xff08;● 1143.最長公共子序列 ● 1035.不相交的線 ● 53. 最大子序和 動態規劃 &#xff09; 1143.最長公共子序列 題目描述 給定兩個字符串 text1 …

C#面:i++ 和 ++i 的區別

i 先參與左邊的運算&#xff0c;之后 i 自增&#xff1b; int i 5; int result i; // result的值為5&#xff0c;i的值變為6 i i 先自增&#xff0c;之后的值&#xff0c;參與左邊的運算&#xff1b; int i 5; int result i; // result的值為6&#xff0c;i的值也為6…