機器學習項目工作流程
以Echo/Alexa(語音識別AI)作為例子解釋:
1. collect data 收集數據——人為找很多人說 Alexa,并錄制音頻;并且還會讓一群人說其他詞語,比如hello
2. train model 訓練模型——用機器學習算法來訓練A-B的映射
3. deploy model 實際部署模型——把這個AI模型放入智能音箱,然后把它交給一小群測試用戶/一大群用戶
**在以上三個步驟中,通常會有很多迭代,這意味著在實際操作中,你需要微調或調整模型(根據你的實際目的)**
數據科學項目工作流程
與機器學習不同,數據科學項目的輸出通常是一組可執行的洞察,一組可能讓你以不同方式做事的洞察。(可以用到實際的制造業的生產線中,比如燒制陶瓷的咖啡杯)
例子:優化一個銷售漏斗
假設你運營一個銷售咖啡杯的電子商務或在線購物網站
客戶購買的流程:
visit website(瀏覽網頁) ——product page(查看詳細內容) —— shopping cart(加入購物車) —— checkout(下單)
數據科學項目的工作流程:
1. collect data 收集數據——你可能有一個數據集存儲不同用戶何時訪問不同網頁(IP地址,國家,盡可能多的獲取數據)
2. analyze data 分析數據——比如,海外客戶被國際運費嚇跑了(進入付費頁面卻沒有下單)?在某些國家,集中時間波動(午休等)?
3. suggest hypotheses/actions 提出假設和行動【根據這些數據,數據科學團隊會有很多想法,或者多次迭代得到好的洞察,最終將這些洞察提煉為少量的假設】—— 關于什么可能進展順利,什么可能進展不佳,少量的建議行動
一套循環體系,采取建議行動后,數據發生變化,重新收集數據,分析數據,得到建議,采取行動——優化生產線
名職能部門的數據應用建設
精準農業、制造業、營銷、廣告等
如何選擇人工智能項目
三個原則(項目頭腦風暴)
1. 考慮自動化任務而不是自動化工作崗位要有用的多
2. 商業價值等主要驅動因素是什么——有時找到AI解決方案或數據科學解決方案來增強這一點可能非常有價值
3. 您的業務中主要的痛點是什么——其中一些可以用Ai解決,有些則無法通過AI解決
也許你有很多可能的AI項目想法要做,但在承諾其中之一前,如何確保這真的是一個值得做的項目呢?
1. 為了確保項目可行,需要進行**技術盡職調查**——確保你希望構建的AI系統真的可行,可實現
1. can AI system meet desired performance 可能咨詢Ai專家/閱讀行業文獻,關于AI系統是否真的能達到期待的性能水平
2. How much data is needed 需要多少數據才能達到這個期望的性能水平,你有辦法獲得那些數據嘛
3. Engineering timeline 工程時間線,試圖弄清楚需要多長時間,以及需要多少人來構建你想要建立的系統
2. 為了確保項目有價值,需要進行**商業盡職調查**——確保你設想的項目對業務真的有價值【1、2現有的商業;3新的商業】可以構建電子表格財務模型定量估計價值
1. lower costs 降低成本創造價值——通過自動化一些任務,或者通過從系統中擠出更多效率
2. increase revenue 很多AI系統也能增加收入——比如,推動更多人在你的購物車中結賬
3. Launch new product or business 構建一個AI系統幫助你推出新產品或新業務線
3. 倫理盡職調查(盡可能考慮這個)
AI項目啟動:自建or購買——外包/內部(數據科學項目在內部完成的比機器學習項目更多)
建議:當有一個正在構建的行業標準解決方案的巨大力量時,你可能最好只是擁抱行業標準或擁抱別人的平臺,而不是試圖在內部完成所有事情。
我們都生活在一個資源有限、時間有限、數據有限、工程資源有限的世界中,所以我希望你能專注于這些資源在那些最獨特并且對你的公司產生最大影響的項目上。
**識別那些有前景的AI項目,做好準備工作,然后放手去做**
人工智能團隊協作機制
AI團隊有兩種數據:
1. 訓練集——數據量更大
2. 測試集
人工智能團隊技術工具
開源的機器學習工具/框架
- PyTorch
- TensorFlow
- Hugging Face
- PaddlePaddle
- Scikit-learn
- R
開源社區
- Arxiv
免費公開資源代碼
- GItHub
比如搜索人臉識別軟件:face recognition software on GitHub