【機器學習】Datawhale-AI夏令營分子性質AI預測挑戰賽

參賽鏈接:零基礎入門 Ai 數據挖掘競賽-速通 Baseline - 飛槳AI Studio星河社區

一、賽事背景

在當今科技日新月異的時代,人工智能(AI)技術正以前所未有的深度和廣度滲透到科研領域,特別是在化學及藥物研發中展現出了巨大潛力。精準預測分子性質有助于高效篩選出具有優異性能的候選藥物。以PROTACs為例,它是一種三元復合物由目標蛋白配體、linker、E3連接酶配體組成,靶向降解目標蛋白質。本次大賽聚焦于運用先進的人工智能算法預測其降解效能,旨在激發參賽者創新思維,推動AI技術與化學生物學的深度融合,進一步提升藥物研發效率與成功率,為人類健康事業貢獻智慧力量。通過此次大賽,我們期待見證并孵化出更多精準、高效的分子性質預測模型,共同開啟藥物發現的新紀元。

二、賽事任務

  • 選手根據提供的demo數據集,可以基于demo數據集進行數據增強、自行搜集數據等方式擴充數據集,并自行劃分數據。運用深度學習、強化學習或更加優秀人工智能的方法預測PROTACs的降解能力,若DC50>100nM且Dmax<80% ,則視為降解能力較差(demo數據集中Label=0);若DC50<=100nM或Dmax>=80%,則視為降解能力好(demo數據集中Label=1)。

三、跑通baseline

1.安裝庫

pip install lightgbm openpyxl

2.跑baseline

# 1. 導入需要用到的相關庫
# 導入 pandas 庫,用于數據處理和分析
import pandas as pd
# 導入 numpy 庫,用于科學計算和多維數組操作
import numpy as np
# 從 lightgbm 模塊中導入 LGBMClassifier 類
from lightgbm import LGBMClassifier# 2. 讀取訓練集和測試集
# 使用 read_excel() 函數從文件中讀取訓練集數據,文件名為 'traindata-new.xlsx'
train = pd.read_excel('./data/data280993/traindata-new.xlsx')
# 使用 read_excel() 函數從文件中讀取測試集數據,文件名為 'testdata-new.xlsx'
test = pd.read_excel('./data/data280993/testdata-new.xlsx')# 3 特征工程
# 3.1 test數據不包含 DC50 (nM) 和 Dmax (%),將train數據中的DC50 (nM) 和 Dmax (%)刪除
train = train.drop(['DC50 (nM)', 'Dmax (%)'], axis=1)# 3.2 將object類型的數據進行目標編碼處理
for col in train.columns[2:]:if train[col].dtype == object or test[col].dtype == object:train[col] = train[col].isnull()test[col] = test[col].isnull()# 4. 加載決策樹模型進行訓練
model = LGBMClassifier(verbosity=-1)
model.fit(train.iloc[:, 2:].values, train['Label'])
pred = model.predict(test.iloc[:, 1:].values, )# 5. 保存結果文件到本地
pd.DataFrame({'uuid': test['uuid'],'Label': pred}
).to_csv('submit.csv', index=None)

3.提交submit.csv

四、進階代碼

CatBoost學習

CatBoost是一個開源的梯度提升庫,由俄羅斯的搜索引擎公司Yandex開發。它專為處理分類和回歸任務而設計,尤其擅長處理具有大量類別特征(categorical features)的數據集。CatBoost的名稱來源于“Categorical Boosting”,即對類別特征進行增強的算法。

為了提升catboost的效果,嘗試了多種參數組合,以獲得最優的參數效果。

# 5. 定義模型并進行參數優化
param_grid = {'iterations': [100, 500],'depth': [6, 8],'learning_rate': [0.01, 0.05],
}model = CatBoostClassifier(loss_function='Logloss', verbose=0)

提交submit.csv

提高了不少。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/38917.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/38917.shtml
英文地址,請注明出處:http://en.pswp.cn/web/38917.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

SpringBoot+Vue集成AOP系統日志

新建logs表 添加aop依賴 <!-- aop依賴--> <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-aop</artifactId> </dependency> 新建獲取ip地址工具類 import javax.servlet.http.H…

React 函數式組件里面有生命周期嗎?沒有怎么辦?

React 函數式組件沒有像類組件那樣傳統的生命周期方法&#xff0c;但是通過 React Hooks&#xff0c;可以在函數式組件中實現類似的生命周期行為。 useEffect: 可以看作是類組件里的 componentDidMount, componentDidUpdate 和 componentWillUnmount 的結合體。它允許你在函數組…

在Linux環境下使用sqlite3時,如果嘗試對一個空表進行操作(例如插入數據),可能會遇到表被鎖定的問題。

在Linux環境下使用sqlite3時&#xff0c;如果嘗試對一個空表進行操作&#xff08;例如插入數據&#xff09;&#xff0c;可能會遇到表被鎖定的問題。這通常是因為sqlite3在默認情況下會對空表進行“延遲創建”&#xff0c;即在實際需要寫入數據之前&#xff0c;表不會被真正創建…

React Native V0.74 — 穩定版已發布

嗨,React Native開發者們, React Native 世界中令人興奮的消息是,V0.74剛剛在幾天前發布,有超過 1600 次提交。亮點如下: Yoga 3.0New Architecture: Bridgeless by DefaultNew Architecture: Batched onLayout UpdatesYarn 3 for New Projects讓我們深入了解每一個新亮點…

java 利用 gdal 生成遙感tif的縮略圖

簡要說明 在java&#xff0c;簡單使用gdal生成tif文件的縮略圖 maven依賴 <!--需要安裝完gdal后&#xff0c;本地install gdal包才能使用 --><!--gdal安裝可參考 https://blog.csdn.net/qq_41613913/article/details/135743562 --><dependency><groupI…

Docker精華篇 - 常用命令大全,入門到精通!

大家好,我是CodeQi! 我們都知道 Docker 的重要性,以及 Docker 如何在軟件開發生命周期中發揮重要作用 。 說實話,學習 Docker 很有趣,至少在我看來是這樣。 一旦掌握了基礎知識,這并不難。 困難的是記住所有這些命令。 因此,在這篇文章中,我收集了所有命令,或者更…

Patch embed 的映射矩陣多大?

假設我們有一個圖像&#xff0c;其大小為 (H \times W \times C)&#xff0c;其中 (H) 是圖像的高度&#xff0c;(W) 是圖像的寬度&#xff0c;(C) 是圖像的通道數&#xff08;例如&#xff0c;RGB 圖像的通道數為 3&#xff09;。 將圖像劃分成 patches: 假設我們將圖像劃分成…

命令可以不通過數據綁定進行配置

命令可以不通過數據綁定進行配置。在某些情況下&#xff0c;可能希望直接在代碼隱藏文件中處理命令邏輯&#xff0c;而不是通過數據綁定。以下是一個完整的例子&#xff0c;展示了如何在不使用數據綁定的情況下實現命令。 ### 1. 定義命令 首先&#xff0c;我們定義一個簡單的…

四十篇:內存巨擘對決:Redis與Memcached的深度剖析與多維對比

內存巨擘對決&#xff1a;Redis與Memcached的深度剖析與多維對比 1. 引言 在現代的系統架構中&#xff0c;內存數據庫已經成為了信息處理的核心技術之一。這類數據庫系統的高效性主要來源于其對數據的即時訪問能力&#xff0c;這是因為數據直接存儲在RAM中&#xff0c;而非傳統…

js學習--制作選項卡

選項卡制作 <!DOCTYPE html> <html lang"zh"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><style>.text_one {width: 11.4%;height: 200px…

海致科技實施實習生面試

一、面試內容 注&#xff1a;此次是電話面試 1.是XX先生嗎 2.你是有考慮轉實施的嗎&#xff1f; 3.請講一下你對項目部署實施的理解和掌握 4.用過數據庫&#xff0c;會編寫SQL語句嗎&#xff1f; 5.講一下SQL的常用關鍵字 6.了解SQL中的函數嗎&#xff1f;談談函數 7.多…

Hutool 獲取中文日期

在開發過程中&#xff0c;有時會需要獲取全中文格式的日期&#xff0c;比如&#xff1a;二〇二四年七月三日。 此時就需要將日期轉換成該格式&#xff0c;Hutool 封裝了該工具&#xff1a; /*** 格式化為中文日期格式&#xff0c;如果isUppercase為false&#xff0c;則返回類似…

身邊的故事(十三):阿文的故事:出現

如果他知道一件事情如果違背正常的市場規律就是騙局或者存在巨大的風險&#xff0c;比如市場正常投資回報率在5-6%已經算高回報&#xff0c;像股神巴菲特的投資回報率應該不會超過10%吧。那些說20-30%甚至更高回報率肯定是騙局。如果...哪有那么多如果&#xff0c;人生每一秒都…

前端面試題,說說iframe的優點和缺點 ?

iframe的優點&#xff1a; 內容隔離&#xff1a;iframe 可以將外部內容嵌入到頁面中&#xff0c;實現內容的隔離和獨立性&#xff0c;避免外部內容對頁面的影響。 模塊化&#xff1a;通過 iframe&#xff0c;可以將頁面拆分成多個模塊&#xff0c;每個模塊可以…

在Linux操作環境下搭建內網源

在修改配置文件之前都應該有備份。 比如在/目錄下專門創建一個目錄用來儲存文件的備份。 1.安裝vsftpd軟件 首先使用命令yum search ftpd 來查看當前Linux操作系統下是否有ftpd軟件。 隨后使用yum install vsftpd&#xff0c;來安裝vsftpd軟件 2.修改vsftpd的配置文件&…

H5漂流瓶交友源碼_社交漂流瓶H5源碼

簡介&#xff1a; 一種流行的娛樂性社交新潮流&#xff0c;年輕人玩得比較多。和盲盒有點類似 社交漂流瓶搭建教程 環境&#xff1a;Nginx 1.20.1-MySQL 5.6.50-PHP-7.3 上傳源碼至網站根目錄&#xff0c;創建并導入數據庫 數據庫信息修改&#xff1a;/config/database.ph…

Zabbix 配置WEB監控

Zabbix WEB監控介紹 在Zabbix中配置Web監控&#xff0c;可以監控網站的可用性和響應時間。Zabbix提供了內置的Web監控功能&#xff0c;通過配置Web場景&#xff08;Web Scenario&#xff09;&#xff0c;可以監控HTTP/HTTPS協議下的Web服務。 通過Zabbix的WEB監控可以監控網站…

Java多線程編程最佳實踐與常見問題解析

Java多線程編程最佳實踐與常見問題解析 大家好&#xff0c;我是微賺淘客系統3.0的小編&#xff0c;也是冬天不穿秋褲&#xff0c;天冷也要風度的程序猿&#xff01; 多線程編程概述 1. 什么是多線程&#xff1f; 多線程是指在同一時間內執行多個線程&#xff08;線程是程序…

TI電池電量計應用指導

前言&#xff1a; 電池電量計應用指導,來源:TI,因PDF有200頁&#xff0c;在文尾附有目錄&#xff1b;上傳提示資源重復&#xff0c;請自行下載&#xff0c;找不到的可私信。 電池充電曲線&#xff0c;紅色為電壓&#xff0c;藍色為電流 圖2.10 匹配化學 ID 所需要的電壓電流曲…

html + css 快速實現訂單詳情的布局demo

突然安排讓速寫這樣的一個布局&#xff0c;重點就是CSS畫一條虛線,并且還要靈活設置虛線的寬度和虛線之間的間隔和虛線的顏色。 注&#xff1a;訂單里面的金額都是隨意寫的 <!DOCTYPE html> <html lang"zh-CN"><head><meta charset"UTF-8&…