小白速通:Verilog流水線實現及時序分析

目錄

  • 題目:
  • 時序分析:時鐘頻率為50MHz
    • 數據1: a=10, b=20, c=30, d=40, e=2
    • 數據2: a=5, b=15, c=25, d=35, e=3
    • 數據3: a=8, b=12, c=16, d=24, e=4
  • 流水線效率分析

題目:

??????verilog中,y=(a+b+c+d)*e,時鐘頻率為50Mhz,用流水線的形式表示,并說明運算完需要多少ns?

圖片幫助理解:T1-T4只能做1輛車,但是T4后,每個時鐘周期就能做一輛車(如果沒有流水線,就每做1輛車都需要4個T的時間)
在這里插入圖片描述

??????在Verilog中,將表達式 y=(a+b+c+d)*e 用流水線形式實現,可以分為多個階段,每個階段對應一個時鐘周期。
??????流水線設計可以提高電路的吞吐量,但會增加延遲(latency)。下面是具體實現及時序分析。

流水線實現:
??????將該表達式分為3個流水線階段:

  1. 第一階段:計算 a+b 和 c+d
  2. 第二階段:計算 (a+b)+(c+d)
  3. 第三階段:計算 ((a+b)+(c+d))*e

代碼實現:

module pipeline_mult (input wire clk,         // 時鐘信號,50MHzinput wire rst_n,       // 復位信號,低電平有效input wire [7:0] a,     // 假設都是8位輸入input wire [7:0] b,input wire [7:0] c, input wire [7:0] d,input wire [7:0] e,output reg [15:0] y     // 輸出可能需要更寬的位寬
);// 第一級流水線寄存器reg [8:0] sum_ab;      // a+b的結果,需要多一位防止溢出reg [8:0] sum_cd;      // c+d的結果reg [7:0] e_reg1;      // 保存e的值傳遞到下一級// 第二級流水線寄存器reg [9:0] sum_abcd;    // (a+b)+(c+d)的結果reg [7:0] e_reg2;      // 保存e的值傳遞到下一級// 第一級流水線always @(posedge clk or negedge rst_n) beginif (!rst_n) beginsum_ab <= 9'b0;sum_cd <= 9'b0;e_reg1 <= 8'b0;end else beginsum_ab <= a + b;sum_cd <= c + d;e_reg1 <= e;    // 將e傳遞到下一級endend// 第二級流水線always @(posedge clk or negedge rst_n) beginif (!rst_n) beginsum_abcd <= 10'b0;e_reg2 <= 8'b0;end else beginsum_abcd <= sum_ab + sum_cd;e_reg2 <= e_reg1;  // 將e傳遞到下一級endend// 第三級流水線 - 最終結果always @(posedge clk or negedge rst_n) beginif (!rst_n) beginy <= 16'b0;end else beginy <= sum_abcd * e_reg2;  // 最終的乘法計算endendendmodule

時序分析:時鐘頻率為50MHz

意味著時鐘周期為:
??????T = 1/f = 1/(50*10^6) = 20 ns
在這個流水線設計中:
??????第一個輸入需要經過3個時鐘周期(3級流水線)才能產生有效輸出;單次計算的延遲(latency)為:3 * 20 ns = 60 ns ;但一旦流水線填滿,之后每個時鐘周期都會產生一個新的結果(吞吐量為每20ns一個結果) 。因此,對于單個計算實例,從輸入到計算完成需要60 ns的時間。但是流水線的優勢在于可以同時處理多個計算實例,每20 ns就能輸出一個結果。
給小白,解釋一下這個疑問:

Clock       : |ˉ|_|ˉ|_|ˉ|_|ˉ|_|ˉ|_|ˉ|_|ˉ|_|ˉ|_|ˉ|_|ˉ|_|ˉ|_|ˉ|_|ˉ|_|ˉ|_|ˉ|_|
Time (ns)   :  0  20  40  60  80 100 120 140 160 180 200 220輸入數據:
a           : |10 |  5|  8|   |   |   |   |   |   |   |   |   |   |   |   |
b           : |20 | 15| 12|   |   |   |   |   |   |   |   |   |   |   |   |
c           : |30 | 25| 16|   |   |   |   |   |   |   |   |   |   |   |   |
d           : |40 | 35| 24|   |   |   |   |   |   |   |   |   |   |   |   |
e           : | 2 |  3|  4|   |   |   |   |   |   |   |   |   |   |   |   |第一級流水線:
sum_ab      : |   | 30| 20| 20|   |   |   |   |   |   |   |   |   |   |   |
sum_cd      : |   | 70| 60| 40|   |   |   |   |   |   |   |   |   |   |   |
e_reg1      : |   |  2|  3|  4|   |   |   |   |   |   |   |   |   |   |   |第二級流水線:
sum_abcd    : |   |   |100| 80| 60|   |   |   |   |   |   |   |   |   |   |
e_reg2      : |   |   |  2|  3|  4|   |   |   |   |   |   |   |   |   |   |輸出結果:
y           : |   |   |   |200|240|240|   |   |   |   |   |   |   |   |   |↑   ↑   ↑數據1 數據2 數據3

看完這2個圖,你應該大致明白了,不明白的話,繼續看下面這個分析:
詳細時序分析:

數據1: a=10, b=20, c=30, d=40, e=2

  1. 時鐘周期1 (0-20ns):
  • 輸入數據: a=10, b=20, c=30, d=40, e=2
  • 寄存器尚未更新
  1. 時鐘周期2 (20-40ns):
  • 第一級流水線:
    • sum_ab = 10 + 20 = 30
    • sum_cd = 30 + 40 = 70
    • e_reg1 = 2
    • 其他級別未更新
  1. 時鐘周期3 (40-60ns):
  • 第二級流水線:
    • sum_abcd = 30 + 70 = 100
    • e_reg2 = 2
    • 第三級流水線尚未更新
  1. 時鐘周期4 (60-80ns):
  • 輸出結果:
    • y = 100 * 2 = 200 (實例1的最終結果)

數據2: a=5, b=15, c=25, d=35, e=3

  1. 時鐘周期2 (20-40ns):
    • 輸入數據: a=5, b=15, c=25, d=35, e=3
    • 寄存器尚未更新
  2. 時鐘周期3 (40-60ns):
    • 第一級流水線:
    • sum_ab = 5 + 15 = 20
    • sum_cd = 25 + 35 = 60
    • e_reg1 = 3
    • 其他級別未更新
  3. 時鐘周期4 (60-80ns):
    • 第二級流水線:
    • sum_abcd = 20 + 60 = 80
    • e_reg2 = 3
    • 第三級流水線尚未更新
  4. 時鐘周期5 (80-100ns):
    • 輸出結果:
    • y = 80 * 3 = 240 (數據2的最終結果)

數據3: a=8, b=12, c=16, d=24, e=4

  1. 時鐘周期3 (40-60ns):
    • 輸入數據: a=8, b=12, c=16, d=24, e=4
    • 寄存器尚未更新
  2. 時鐘周期4 (60-80ns):
    • 第一級流水線:
    • sum_ab = 8 + 12 = 20
    • sum_cd = 16 + 24 = 40
    • e_reg1 = 4
    • 其他級別未更新
  3. 時鐘周期5 (80-100ns):
    • 第二級流水線:
    • sum_abcd = 20 + 40 = 60
    • e_reg2 = 4
    • 第三級流水線尚未更新
  4. 時鐘周期6 (100-120ns):
    • 輸出結果:
    • y = 60 * 4 = 240 (數據3的最終結果)

流水線效率分析

  1. 延遲 (Latency):
  • 每個計算實例從輸入到輸出需要3個時鐘周期 = 60 ns
  1. 吞吐量 (Throughput):
  • 流水線滿載后,每20 ns產生一個結果
  • 3個計算實例總共需要時間 = 60 ns (首個結果) + 40 ns (接下來2個結果) = 100 ns
  • 如果是沒有流水線的設計,需要 3 * 60 ns = 180 ns
  1. 性能提升:
  • 流水線設計對于處理大量連續數據時,性能提升明顯
  • 在這個例子中,處理3個連續實例的時間從180 ns減少到了100 ns,提升約44%
    這種波形圖清晰地展示了流水線的工作原理,顯示了每個計算實例如何逐級推進,最終產生結果,以及多個實例如何在流水線中重疊執行,提高總體處理效率。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/74733.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/74733.shtml
英文地址,請注明出處:http://en.pswp.cn/web/74733.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【RK3588 嵌入式圖形編程】-SDL2-掃雷游戲-創建網格

創建網格 文章目錄 創建網格1、概述2、更新Globals.h文件3、創建單元4、創建網格5、傳遞事件6、清空單元7、反饋單元格已清除8、測試9、完整代碼10、總結在本文中,將詳細介紹如何構建一個二維的交互式掃雷單元格網格。 1、概述 在本文中,我們將專注于構建掃雷游戲的基礎結構…

高精度矢量內積計算方法 (單精度浮點, 超長矢量)

高精度矢量內積計算方法 (單精度浮點, 超長矢量) 對于單精度浮點類型的超長矢量(超過1億元素)內積計算&#xff0c;累加誤差確實是一個重要問題。以下是幾種減少誤差的方法&#xff1a; 1. Kahan求和算法 這是最常用的補償求和算法&#xff0c;可以有效減少累加誤差&#xf…

Java基礎:Logback日志框架

什么是日志 日志技術 可以將系統執行信息&#xff0c;方便的記錄到指定位置&#xff08;控制臺&#xff0c;文件中&#xff0c;數據庫中&#xff09; 可以隨時可以開關的形式控制日志的啟停&#xff0c;無需侵入到源代碼中去進行修改 LogBack日志框架 LogBack快速入門 logb…

MessageQueue --- RabbitMQ WorkQueue and Prefetch

MessageQueue --- RabbitMQ WorkQueue and Prefetch 什么是WorkQueue分發機制 --- RoundRobin分發機制 --- PrefetchSpring example use prefetch --- Fair Dispatch 什么是WorkQueue Work queues&#xff0c;任務模型。簡單來說就是讓多個消費者綁定到一個隊列&#xff0c;共同…

RNN模型與NLP應用——(9/9)Self-Attention(自注意力機制)

聲明&#xff1a; 本文基于嗶站博主【Shusenwang】的視頻課程【RNN模型及NLP應用】&#xff0c;結合自身的理解所作&#xff0c;旨在幫助大家了解學習NLP自然語言處理基礎知識。配合著視頻課程學習效果更佳。 材料來源&#xff1a;【Shusenwang】的視頻課程【RNN模型及NLP應用…

詳解AI采集框架Crawl4AI,打造智能網絡爬蟲

大家好&#xff0c;Crawl4AI作為開源Python庫&#xff0c;專門用來簡化網頁爬取和數據提取的工作。它不僅功能強大、靈活&#xff0c;而且全異步的設計讓處理速度更快&#xff0c;穩定性更好。無論是構建AI項目還是提升語言模型的性能&#xff0c;Crawl4AI都能幫您簡化工作流程…

從零開始玩python--python版植物大戰僵尸來襲

大家好呀&#xff0c;小伙伴們&#xff01;今天要給大家介紹一個超有趣的Python項目 - 用pygame制作植物大戰僵尸游戲的進階版本。相信不少小伙伴都玩過這款經典游戲&#xff0c;今天我們就用Python來實現它&#xff0c;讓編程學習變得更加有趣&#xff01;&#x1f31f; 一、…

圖解AUTOSAR_SWS_FlashTest

AUTOSAR Flash Test模塊詳解 基于AUTOSAR 4.4.0規范的Flash測試模塊分析與圖解 目錄 概述 1.1 Flash Test模塊的作用 1.2 工作原理架構設計 2.1 整體架構 2.2 依賴關系狀態管理 3.1 狀態轉換圖 3.2 前臺與后臺測試模式配置結構 4.1 配置類圖 4.2 關鍵配置參數交互流程 5.1 序列…

【mongodb】mongodb的字段類型

目錄 1. 基本數據類型1.1 String1.2 Number1.3 Boolean1.4 Date1.5 Null1.6 ObjectId1.7 Array1.8 Binary Data1.9 Object 2. 特殊數據類型2.1 Regular Expression2.2 JavaScript2.3 Symbol2.4 Decimal1282.5 Timestamp2.6 MinKey/MaxKey2.7 DBPointer 3. 常用字段類型示例4. 注…

MySQL篇(五)MySQL主從同步原理深度剖析

MySQL篇&#xff08;五&#xff09;MySQL主從同步原理深度剖析 MySQL篇&#xff08;五&#xff09;MySQL主從同步原理深度剖析一、引言二、MySQL主從同步基礎概念主庫&#xff08;Master&#xff09;從庫&#xff08;Slave&#xff09;二進制日志&#xff08;Binary Log&#x…

論文學習16:Learning Transferable Visual Models From Natural Language Supervision

代碼來源 Learning Transferable Visual Models From Natural Language Supervisionhttps://arxiv.org/pdf/2103.00020 模塊作用 當前最先進的計算機視覺系統被訓練用于預測一組固定的、預先定義的目標類別。這種受限的監督方式限制了它們的通用性和可用性&#xff0c;因為要…

[MySQL初階]MySQL(9)事務機制

標題&#xff1a;[MySQL初階]MySQL&#xff08;9&#xff09;事物機制 水墨不寫bug 文章目錄 一、認識事務1、多線程訪問數據庫出現的問題2、對CURD的限制是通過事務機制實現的3、事務的四個屬性4、哪些引擎支持事務 二、事務的提交與autocommit設置三、事務的隔離性和隔離級別…

spring-cloud-alibaba-nacos-config使用說明

一、核心功能與定位 Spring Cloud Alibaba Nacos Config 是 Spring Cloud Alibaba 生態中的核心組件之一&#xff0c;專為微服務架構提供動態配置管理能力。它通過整合 Nacos 的配置中心功能&#xff0c;替代傳統的 Spring Cloud Config&#xff0c;提供更高效的配置集中化管理…

SonarQube數據庫配置

SonarQube部署完成后&#xff0c;在瀏覽器地址欄輸入http://IP:9000可以進入登錄頁面&#xff0c;以本機運行為例&#xff0c;地址為http://127.0.0.1:9000/&#xff0c;默認登錄名&#xff1a;admin&#xff0c;登錄密碼也是admin。登錄后會要求設置密碼&#xff1a; 按要求設…

醫藥檔案區塊鏈系統

1. 醫生用戶模塊?? ??目標用戶??&#xff1a;醫護人員 ??核心功能??&#xff1a; ??檢索檔案??&#xff1a;通過關鍵詞或篩選條件快速定位患者健康檔案。??請求授權??&#xff1a;向個人用戶發起檔案訪問權限申請&#xff0c;需經對方確認。??查看檔案?…

CSS3學習教程,從入門到精通, 化妝品網站 HTML5 + CSS3 完整項目(26)

化妝品網站 HTML5 CSS3 完整項目 下面是一個完整的化妝品網站項目&#xff0c;包含主頁、登錄頁面和注冊頁面。我將按照您的要求提供詳細的代碼和注釋。 1. 網站規劃與需求分析 需求分析 展示化妝品產品信息提供用戶注冊和登錄功能響應式設計&#xff0c;適配不同設備美觀…

ROS2 多機時間同步(Chrony配置簡明指南)

適用場景&#xff1a; 主機運行 ROS2 Humble&#xff08;發布 /scan 等&#xff09;&#xff0c;板子運行 ROS2 Foxy&#xff08;發布 /tf 等&#xff09;&#xff0c;兩邊通過 ROS_DOMAIN_ID 跨平臺通訊。需要保證系統時間對齊&#xff0c;避免 TF 插值失敗、建圖抖動等問題。…

Nginx配置偽靜態,URL重寫

Nginx配置偽靜態&#xff0c;URL重寫 [ Nginx ] 在Nginx低版本中&#xff0c;是不支持PATHINFO的&#xff0c;但是可以通過在Nginx.conf中配置轉發規則實現&#xff1a; location / { // …..省略部分代碼if (!-e $request_filename) {rewrite ^(.*)$ /index.php?s/$1 l…

電路筆記(元器件):ADC LTC系列模數轉換器的輸出范圍+滿量程和偏移調整

LTC1740(LTC1740官方文檔)是Analog Devices&#xff08;原Linear Technology&#xff09;公司生產的一款高性能、低功耗的14位模數轉換器(ADC)。它通常用于需要高精度和快速采樣率的應用中&#xff0c;如通信系統、數據采集設備等。同類產品 LTC1746&#xff1a;一款14位、40Ms…

續-算法-數學知識

3、歐拉函數 1、定義&#xff1a; 1~n 中與 n 互質的數的個數 例如&#xff1a;6 的有 1 2 3 4 5 6 其中&#xff0c;與 n 互質 的 數的個數為 2個分別是&#xff1a;1、5 2、計算&#xff1a; $ N p_1^{a1} p_2^{a2} p_3^{a3} … p_k^{ak} $&#xff08;例如&#x…