Nvidia CUDA初級教程2 并行程序設計概述

news/2025/8/16 15:04:26/文章來源:https://blog.csdn.net/weixin_44966641/article/details/122645510

Nvidia CUDA初級教程2 并行程序設計概述

視頻：https://www.bilibili.com/video/BV1kx411m7Fk?p=3
講師：周斌

本節內容：

為什么需要？
怎么做？
一些技術和概念

串并行計算模式

串行計算模式

常規軟件時串行的
- 設計運行于一個中央處理器（CPU）上
- 通過離散的指令序列完成一個問題的解決
- 一條一條指令地執行
- 同時只有一條指令在執行

邏輯上定義的串行計算是這樣，實際上前面我們也介紹過，在CPU中也有很多的指令級并行優化。

并行計算模式

并行計算是同時應用多個計算資源解決一個計算問題
- 涉及多個計算資源或處理器
- 問題被分解為多個離散的部分，可以同時處理（并行）
- 每個部分可以由一些列指令完成
每個部分的指令在不同的處理器上執行

并行計算——概念和名詞簡介

Flynn矩陣

SISD (Single Instruction Single Data)
SIMD (Single Instruction Multiple Data)
MISD
MIMD

常見名詞

Task 任務
Parallel Task 并行任務
Serial Execution 串行執行
Parallel Execution 并行執行
Shared Memory 共享存儲
Distributed Memory 分布式存儲
Communication 通信
Synchronization 同步
Granularity 粒度
Observed Speedup 加速比
Parallel Overhead 并行開銷
Scalability 可擴展性

存儲器架構

Shared Memory
Distributed Memeory
Hybird Distributed-Shared Memory

存儲系統的編址

并行編程模型

共享存儲模型
線程模型
消息傳遞模型
數據并行模型

具體實例

OpenMP
MPI
Single Program Multiple Data SPMD
Multiple Program Multiple Data MPMD

設計并行處理程序和系統

自動和手動并行
理解問題和程序

理解問題、程序、算法，是我們設計并行處理系統的基礎
分塊分割

根據具體的任務，數據分塊、任務分割
通信

broadcast、scatter、gather、reduction
同步

barrer、lock/semaphore、synchronous communica
數據依賴
負載均衡
粒度
I/O
成本
性能分析和優化

加速比：

Amdahl’s Law $speedupmax=11?Pspeedup_{max}=\frac{1}{1-P}$ $speedup=1PN+Sspeedup=\frac{1}{\frac{P}{N}+S}$

$P$ ：并行部分， $S$ ：串行部分

程序可能的最高加速比取決于可以被并行化的部分（的占比）。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/532532.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/532532.shtml
英文地址，請注明出處：http://en.pswp.cn/news/532532.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

Nvidia CUDA初級教程4 GPU體系架構概述

Nvidia CUDA初級教程4 GPU體系架構概述

Nvidia CUDA初級教程4 GPU體系架構概述視頻：https://www.bilibili.com/video/BV1kx411m7Fk?p5 講師：周斌本節內容： 為什么需要GPU三種方法提升GPU的處理速度實際GPU的設計舉例： NVDIA GTX 480: FermiNVDIA GTX 680: Kepler GP…

閱讀更多...

Nvidia CUDA初級教程5 CUDA/GPU編程模型

Nvidia CUDA初級教程5 CUDA/GPU編程模型

Nvidia CUDA初級教程5 CUDA/GPU編程模型視頻：https://www.bilibili.com/video/BV1kx411m7Fk?p6 講師：周斌本節內容： CPU和GPU互動模式GPU線程組織模型（需要不停強化）GPU存儲模型基本的編程問題 CPU與GPU交互各自…

閱讀更多...

Nvidia CUDA初級教程6 CUDA編程一

Nvidia CUDA初級教程6 CUDA編程一

Nvidia CUDA初級教程6 CUDA編程一視頻：https://www.bilibili.com/video/BV1kx411m7Fk?p7 講師：周斌 GPU架構概覽 GPU特別使用于： 密集計算，高度可并行計算圖形學晶體管主要被用于： 執行計算而不是緩存數據控制指令…

閱讀更多...

由前中后遍歷序列構建二叉樹

由前中后遍歷序列構建二叉樹

由前/中/后遍歷序列構建二叉樹基礎首先，我們需要知道前中后序三種深度優先遍歷二叉樹的方式的具體順序： 前序：中左右中序：左中右后序：左右中另外，要知道只有中序前/后序可以唯一確定一棵二叉樹&…

閱讀更多...

手寫nms

手寫nms

手寫nms 計算寬高的時候加1是為什么？ 本文總結自互聯網的多種nms實現，供參考，非博主原創，各原文鏈接如下，也建議大家動手寫一寫。 Ref： 淺談NMS的多種實現目標窗口檢測算法-NMS非極大值抑制一、fas…

閱讀更多...

目標檢測綜述

目標檢測綜述

目標檢測綜述轉自：https://zhuanlan.zhihu.com/p/383616728 論文參考：[Object Detection in 20 Years: A Survey][https://arxiv.org/abs/1905.05055] 引言目標檢測領域發展至今已有二十余載，從早期的傳統方法到如今的深度學習方法&#x…

閱讀更多...

Nvidia CUDA初級教程7 CUDA編程二

Nvidia CUDA初級教程7 CUDA編程二

Nvidia CUDA初級教程7 CUDA編程二視頻：https://www.bilibili.com/video/BV1kx411m7Fk?p8 講師：周斌本節內容： 內置類型和函數 Built-ins and functions線程同步 Synchronizing線程調度 Scheduling threads存儲模型 Memory model重訪 Matr…

閱讀更多...

詳解優酷視頻質量評價體系

詳解優酷視頻質量評價體系

萬字長文 | 詳解優酷視頻質量評價體系分享嘉賓｜李靜博士，阿里巴巴文娛集團資深算法專家，阿里巴巴大文娛摩酷實驗室視頻體驗與質量團隊負責人整理出品｜AICUG人工智能社區本文地址：https://www.6aiq.com/article/1617…

閱讀更多...

視頻質量評價：挑戰與機遇

視頻質量評價：挑戰與機遇

視頻質量評價：挑戰與機遇轉自：https://zhuanlan.zhihu.com/p/384603663 本文整理自鵬城實驗室助理研究員王海強在LiveVideoStack線上分享上的演講。他通過自身的實踐經驗，詳細講解了視頻質量評價的挑戰與機遇。文 / 王海強整理 / LiveVi…

閱讀更多...

關于二分法的邊界問題及兩種寫法

關于二分法的邊界問題及兩種寫法

關于二分法的邊界問題及兩種寫法二分查找法大家很熟悉了，對于一個有序序列，我們可以通過二分查找法在 O(logN)O(logN)O(logN) 的時間內找到想要的元素。但是，在代碼實現的過程中，如果沒有仔細理解清楚，二分法的邊界條…

閱讀更多...

LeetCode上的各種股票最大收益

LeetCode上的各種股票最大收益

LeetCode上的各種股票最大收益對于力扣平臺上的股票類型的題目： 121 買賣股票的最佳時機 122 買賣股票的最佳時機 II 123 買賣股票的最佳時機 III 124 買賣股票的最佳時機 IV 309 最佳買賣股票時機含冷凍期 714 買賣股票的最佳時機含手續費劍指 Offer 63. …

閱讀更多...

建設專業化運維服務團隊必要性

建設專業化運維服務團隊必要性

信息系統的生命周期涵蓋：設計、開發、測試、部署上線、運行維護。其中，運行維護階段是信息系統生命周期中的關鍵環節，其執行效果直接影響系統是否能達到預期的運行目標。為了實現這個目標，我們必須建立一個以業務服務為導向的專業…

閱讀更多...

docker初探

docker初探

docker初探本文旨在介紹 docker 基本的安裝、常用命令和常見概念的辨析，方便新手入門和筆者日后查閱，大部分內容整理自互聯網，原出處在文中注明。文章目錄docker初探docker安裝（mac）版本、信息相關命令version/info…

閱讀更多...

ubuntu安裝zsh、oh-my-zsh及常用配置

ubuntu安裝zsh、oh-my-zsh及常用配置

ubuntu安裝zsh、oh-my-zsh及常用配置目前，ubuntu默認的shell是bash，但還有一種shell，叫做zsh它比bash更加強大，功能也更加完善，zsh雖說功能強大，但是配置比較復雜導致流行度不是很高但是好東西終究是好…

閱讀更多...

Segmentaion標簽的三種表示：poly、mask、rle

Segmentaion標簽的三種表示：poly、mask、rle

Segmentaion標簽的三種表示：poly、mask、rle 不同于圖像分類這樣比較簡單直接的計算機視覺任務，圖像分割任務（又分為語義分割、實例分割、全景分割）的標簽形式稍為復雜。在分割任務中，我們需要在像素級上表達的是一張…

閱讀更多...

tensorboard報錯：ValueError Duplicate plugins for name projector 問題的出現及解決過程

tensorboard報錯：ValueError Duplicate plugins for name projector 問題的出現及解決過程

tensorboard報錯：ValueError: Duplicate plugins for name projector 問題的出現及解決過程記錄如題問題的出現及解決過程。報錯命令及信息筆者在終端調用 tensorboard 時： tensorboard --logdirruns/ --bind_all報錯： raise ValueEr…

閱讀更多...

發布自己的Python包(Pypi)

發布自己的Python包(Pypi)

發布自己的Python包(Pypi) 我們經常使用 Pypi 來安裝包，但是有時候我們也想要發布自己的 Pypi 包，有可能我們寫了一個特別牛的包，也有可能我們只是想使用自己常用的一些輪子，可能這是我們日常編碼中很常用的一些輪子，…

閱讀更多...

Ubuntu PPA 使用指南

Ubuntu PPA 使用指南

Ubuntu PPA 使用指南轉自：https://zhuanlan.zhihu.com/p/55250294 一篇涵蓋了在 Ubuntu 和其他 Linux 發行版中使用 PPA 的幾乎所有問題的深入的文章。如果你一直在使用 Ubuntu 或基于 Ubuntu 的其他 Linux 發行版，例如 Linux Mint、Linux Lite、Zorin…

閱讀更多...

如何在 Linux 中快速地通過 HTTP 提供文件訪問服務

如何在 Linux 中快速地通過 HTTP 提供文件訪問服務

如何在 Linux 中快速地通過 HTTP 提供文件訪問服務轉自：https://linux.cn/article-10205-1.html 如今，我有很多方法來通過 Web 瀏覽器為局域網中的其他系統提供單個文件或整個目錄的訪問。我在我的 Ubuntu 測試機上測試了這些方法，它們如下面…

閱讀更多...

Linux apt命令

Linux apt命令

Linux apt命令及其與apt-get的關系轉自：https://blog.csdn.net/taotongning/article/details/82320472、https://www.runoob.com/linux/linux-comm-apt.html apt（Advanced Packaging Tool）是一個在 Debian 和 Ubuntu 中的 Shell 前端軟件包管…

閱讀更多...

最新文章