CppCon 2016 學習:I Just Wanted a Random Integer

你想要一個隨機整數，用于模擬隨機大小的DNA讀取片段（reads），希望覆蓋不同長度范圍，也能測試邊界情況。
代碼部分是：

#include <cstdlib>
auto r = std::rand() % 100;

它生成一個0到99之間的隨機整數，表示隨機讀取的長度。
簡單來說：

你用 std::rand() 生成偽隨機數。
% 100 限制范圍在0~99。
這樣就得到了一個隨機的DNA片段大小。
如果你想更好的隨機數（比如更均勻、更現代的C++隨機），可以用 <random>：

#include <random>
std::random_device rd;
std::mt19937 gen(rd());
std::uniform_int_distribution<> dist(0, 99);
int r = dist(gen);

`rand()` 和 `srand()` 在 Linux C 庫里的實現細節和注意事項：

Linux 中的 rand() 和 srand() 實際上是用跟 random() 和 srandom() 相同的隨機數生成器。
因此，低位比高位隨機性差的說法在 Linux 上不適用，低位和高位都一樣隨機。
但是，在舊版 rand() 實現或其他系統中，rand() 的低位隨機性可能很差。
因此，如果你的應用需要良好的跨平臺隨機性，不建議用 rand()，而是應該用 random()（或更現代的隨機數生成器，比如 C++11 的 <random>）。
總結就是：
rand() 低位不隨機的問題主要是舊系統和非 Linux 的實現。
在 Linux 上，rand() 表現好一些，但為可移植和更好隨機性，還是推薦用 random() 或 <random>。
如果你想要更穩定、好用的隨機數生成方式，尤其是在 C++，推薦用 <random> 庫。

在寫單元測試時，想要一個“隨便的隨機整數”，看似用 `std::rand()` 和 `%` 操作就夠了，但其實這樣做很容易出問題，尤其是你想要“均勻覆蓋所有邊界條件”的時候。

std::rand() + % 其實不夠隨機，會導致隨機數分布不均勻，某些數字出現概率偏低或偏高。
<random> 庫（C++11及以后）雖然看起來復雜，但其實是更科學、更可靠的隨機數生成方式。
推薦使用 Mersenne Twister (std::mt19937) + std::uniform_int_distribution + std::random_device 作為種子，這樣既有高質量的偽隨機數，又能基于真實熵來初始化。
std::random_device 提供真隨機的熵，但它的熵資源是有限的，有時會阻塞等待更多熵。
要注意，生成高質量隨機數時，熵是關鍵，但計算機本質上是偽隨機，需要熵源來“真隨機”初始化。
總結就是：
你單元測試要用“隨機數”，不能隨便用rand()%N，而要用更嚴謹的 <random> 方案，才能更好地覆蓋邊界和確保隨機性。

用 C++ `<random>` 生成隨機整數時的細節和性能考量：

核心內容總結：

std::random_device
- 用于獲取真隨機熵，作為偽隨機數引擎的種子。
- 可能很慢，有時甚至會阻塞（因為熵資源有限）。
- 可能會拋異常，且多線程環境行為不明。
- 具體實現依賴硬件和操作系統，比如Linux上常用/dev/urandom。
std::mt19937（Mersenne Twister）
- 偽隨機數生成器，速度快且質量較高。
- 是確定性引擎，給定種子后輸出固定序列。
- 體積大（約5000字節棧空間），初始化較慢（百萬次初始化需要十幾秒）。
- 每次函數調用時重新創建會很慢！
性能測試對比
- 生成10億隨機數：
  - std::random_device 用時約44秒（慢且可能阻塞）。
  - std::mt19937 用時約3.6秒（快得多）。
最佳實踐建議
- 不要每次用std::mt19937時都重新初始化引擎，建議將其作為靜態變量或者線程局部變量來重用，比如：
```
static std::mt19937 g(std::random_device{}());
auto rn = g();
```
- 這樣既避免了重復初始化開銷，也保證了偽隨機數生成速度。

C++生成隨機整數的正確做法和背后的算法進行講解，重點如下：

1. 隨機整數生成的常見準則（Guidelines）

用 std::random_device 來做種子（seed）：確保偽隨機數生成器有較好的隨機種子。
不要把 std::mt19937（Mersenne Twister）放在棧上頻繁構造：構造開銷大，最好是靜態變量或線程局部變量（thread_local）。
如果一定放在棧上，要小心構造開銷。
std::minstd_rand 比較快，但周期更短。

2. 常用隨機數生成器性能對比

std::random_device 速度很慢（約44秒）。
std::mt19937 中等速度（約3.6秒），周期極長。
std::minstd_rand 更快（約4.7秒），周期短。

3. Mersenne Twister 背景和定義

命名來自 Marin Mersenne（1588-1648），梅森素數的形式是 $M_n = 2^n - 1$ ，其中 $n$ 是素數。
例如： $M_3 = 7$ , $M_7 = 127$ , 最大有名的是 $M_{74,207,281}$ 。
std::mt19937 的周期就是一個梅森素數 $M_{19937}$ 。
這是一個維度為623的偽隨機數生成器，詳細參數在源碼里定義（比如狀態大小、位移操作等）。

4. 結論

使用 std::mt19937 是因為它周期非常長且質量很好。
但在性能敏感的場景，可以考慮 std::minstd_rand 作為替代。
生成器的使用要注意對象生命周期管理，避免重復構造帶來的開銷。

這段內容主要講了C++隨機數生成的一些進階話題，尤其是關于性能優化和替代生成器的討論。幫你整理重點：

1. PCG 隨機數生成器介紹

PCG (Permuted Congruential Generator) 是 Melissa O’Neill 設計的隨機數生成器。
優點：
- 體積更小（16字節），比 std::mt19937 省空間。
- 和 C++ <random> 庫兼容，可以無縫替代。
- 性能比 std::mt19937 快很多（示例中1.5秒 vs 3.6秒）。
缺點：
- 目前不在標準庫中，社區使用經驗較少。
參考資源：
- PCG 官網
- GitHub 地址：https://github.com/imneme/pcg-cpp

2. std::uniform_int_distribution 的構造成本

std::uniform_int_distribution 是用于生成均勻整數分布的模板類。
在循環內部構造和在循環外部構造性能差異極大：
- 外部構造（只構造一次）：生成1,000,000,000個數大約 23.4秒。
- 內部構造（每次調用都構造）：生成同樣數量大約 5.1秒（這里好像反了，推測是復制時的編譯優化影響）。
- 具體性能依賴于編譯器和優化級別，但通常建議避免在循環內重復構造分布對象。

3. 隨機數生成性能總結

通過靜態變量（static std::random_device 和 static std::mt19937）維護生成器實例，減少構造開銷。
如果需要高性能，考慮用PCG替代MT19937。
std::uniform_int_distribution構造開銷也不能忽視，盡量循環外構造。

4. 代碼示例總結

static std::random_device entropySource;
static std::mt19937 randGenerator(entropySource());
std::uniform_int_distribution<int> theIntDist(0, 99);
for (auto i = 0; i < 1'000'000'000; i++) {volatile auto r = theIntDist(randGenerator);
}

這是一個推薦的模式：生成器和分布都靜態，只生成隨機數時調用operator()。
你這段內容講的是 C++ 標準庫 <random> 中 std::uniform_int_distribution 生成均勻隨機整數時，內部是如何“縮放”原始隨機數到目標范圍的細節，和對隨機數生成器及分布器使用的建議總結。

代碼片段說明（縮放機制）

const __uctype __urange = __uctype(__param.b()) - __uctype(__param.a());
__uctype __ret;
if (__urngrange > __urange) {// downscalingconst __uctype __uerange = __urange + 1; // 目標范圍大小（包括邊界）const __uctype __scaling = __urngrange / __uerange; // 源隨機數范圍除以目標范圍大小，算出縮放系數const __uctype __past = __uerange * __scaling; // 縮放后實際范圍do__ret = __uctype(__urng()) - __urngmin; // 從源隨機數生成器拿數，減去最小值while (__ret >= __past); // 如果隨機數超過縮放范圍則重新取數，保證均勻__ret /= __scaling; // 縮放回目標范圍
}