深入理解計算機系統 CSAPP 家庭作業6.45

?CS:APP3e, Bryant and O'Hallaron?可以參考這里

void bijk(array A, array B, array C, int n, int bsize) {int i, j, k, kk, jj;double sum;int en = bsize*(n/bsize);for (i = 0; i < n; i++)for (j = 0; j < n; j++)C[i][j] = 0.0;for (kk = 0; kk < en; kk += bsize) {for (jj = 0; jj < en; jj += bsize) {for (i = 0; i < n; i++) {for (j = jj; j < jj + bsize; j++) {sum = C[i][j];for (k = kk; k < kk + bsize; k++) {sum += A[i][k] * B[k][j];}C[i][j] = sum;}}}}
}

先來談一下參考資料內bijk函數中的blocking技術吧,和題目的兩層嵌套循環不同, bijk函數是五層的嵌套作為人類似乎很難去理解為啥我就處理個矩陣,要整它五層嵌套,完了它還對性能有好處.

你想象一下transpose函數中如果dim=9999999999999...時,這世界不會存在一個cache能存下這個數組,假設此時cache就只有bsize*bsize(bsize<dim)大小,寫完一列bsize個dst后就開始寫下一列dst這樣只有第一列是不命中的,其他bsize-1列都是命中的.

for (k = kk; k < kk + bsize; k++)

bijk函數中 k<kk+bsize就是控制程序寫完一個bsize 后就開始寫下一列.

這就是blocking技術的核心了.

我們現在開始改transpose函數:

#include <stdio.h>void transpose(int *dst, int *src, int n, int bsize) {  // n為數組大小（假設是方陣的邊長）, bsize為塊大小, bsize宜接近高速緩存大小  int i, j, kk, jj;  // 處理能夠完整被塊大小分割的部分  for (kk = 0; kk < n; kk += bsize) { // 注意這里應該使用n而不是en  for (jj = 0; jj < n; jj += bsize) { // 同上  for (i = kk; i < kk + (kk + bsize < n ? bsize : n - kk); i++) { // 確保不越界  for (j = jj; j < jj + (jj + bsize < n ? bsize : n - jj); j++) { // 確保不越界  // 計算一維數組中的索引  int src_index = i * n + j;  int dst_index = j * n + i;  dst[dst_index] = src[src_index]; // 復制元素}  }  }  }  
}int main() {int dim=500;int src[dim][dim];int dst[dim][dim];int i, j;
//給數組賦值for (i = 0; i < dim; i++)for (j = 0; j < dim; j++)src[i][j] = i+j;
//轉置transpose(dst,src,dim,500);
//檢查轉置后的結果for (i = 0; i < dim; i++)for (j = 0; j < dim; j++){if(src[i][j]!=dst[j][i])printf("轉置出錯\n");}return 0;
}

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/35125.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/35125.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/35125.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！