《MATLAB 批量把振動 CSV（含中文“序號/采樣頻率”）穩健轉成 .mat：自動解析+統一換算+按 H/I/O/F-rpm-fs-load 命名》

一文搞定：批量把中文頭信息的 CSV（含“序號/采樣頻率”等）穩健轉成 .mat，并按規則重命名（H/I/O/F-rpm-fs-load）

1. 項目背景

在振動/故障診斷采集里，我們經常得到一批 CSV 文件，文件名形如：

jiankang-100rpm-2kHz-0%Load_all.csv
neiquan-1300rpm-2kHz-0%Load_all.csv
waiquan-500rpm-8kHz-10%Load_all.csv

每個文件前面是若干中文元信息（比如“采樣頻率,2.000kHz”），接著是表頭行（通常包含**“序號”），再往下是多列數據**。但是這些 CSV 在編碼、分隔符、列類型上并不統一（GBK/UTF-8、英文/中文逗號、文本列混入等），直接 readtable 往往會報錯或讀亂。

本文給出一套魯棒的 MATLAB 腳本，把這類 CSV 批量轉換為 .mat，并把關鍵信息（采樣頻率、轉速、負載、列名、時間軸等）保存到結構體里，最后按規則重命名輸出文件。

2. 明確需求（已全部實現）

批量讀取目錄下的 CSV/XLSX（含中文頭信息、表頭“序號”、多列數據）。
采樣頻率以文件內部為準（優先讀取“采樣頻率,2.000kHz”），找不到再回退文件名中的 2kHz/8kHz。
僅保留數值數據列；遇到文本列自動嘗試轉數字，全 NaN 的列丟棄；若存在“序號”列，從數據中自動剔除。
按固定換算對每列做統一變換：/1000 *100 *60 /4（即 ×0.15）。
輸出 .mat 頂層變量名為 data（結構體），字段：
- signal (N×C) 換算后的信號矩陣
- varNames (C×1 string) 列名
- N,C 樣本數/通道數
- fs 采樣頻率(Hz)
- rpm 轉速(r/min)
- load_pct 負載(%)（若只有 HP 也會嘗試轉讀；缺失時置 0）
- t 時間軸（秒），按 fs 自動生成
重命名規則（來自實際需求）：
- 條件碼（來自文件名中第一段）：
  - jiankang/健康 → H
  - guzhang/故障 → F
  - neiqian/neiquan/內圈/內環 → I
  - waiquan/外圈/外環 → O
  - 未識別 → X
- 文件名格式：<條件碼>-<rpm>-<fs_kHz>-<load>.mat
  - 例如：jiankang-100rpm-2kHz-0%Load → H-100-2-0.mat
強魯棒性：自動嘗試編碼（UTF-8/GB18030/ISO-8859-1）、自動識別分隔符（英文/中文逗號、分號、Tab）、保留原始列名（消除“列名被修改”警告）、兼容舊版 WhitespaceRule 選項。

3. 解析思路

定位數據起始：優先尋找包含“序號”的表頭行；若找不到，按“第一行像數據（數字+分隔符+數字）”來定位，上一行視為表頭。
讀表策略：detectImportOptions + readtable，強制 VariableNamingRule='preserve'，保留中文列名；遇到老版本不支持的選項自動跳過。
列類型清洗：對每列做統一轉換：數字列直取，文本/元胞/類別列轉字符串后 str2double；全 NaN 的列剔除。
剔除“序號”列：只把它用作定位，不進入最終 signal。
元信息解析：把表頭之前的“Key,Value”行轉成 KV 表；優先從中解析“采樣頻率”（kHz/Hz 均兼容）。
文件名解析：提取條件/轉速/采樣率/負載（HP 或 %Load）。
統一換算：signal = data * 0.15。
時間軸：若 fs 有效，t = (0:N-1)/fs。

4. 完整代碼（保存為 `batch_csv2mat.m`）

直接把下面整段保存為 batch_csv2mat.m。MATLAB 路徑切到該文件所在目錄后調用即可。

function batch_csv2mat(inDir, outDir)
% 批量把類似
%   jiankang-100rpm-2kHz-0%Load_all.csv
%   neiquan-1300rpm-2kHz-0%Load_all.csv
%   jiankang-variable-speed-2kHz-0%Load_all.csv
%   waiquan-variable-speed-2kHz-0%Load_all-1.csv   <-- 重復測試1
% 轉為 .mat
%
% 命名：
%   定速： <code>-<rpm>-<fs_kHz>-<load>[_RPT_<n>].mat
%   變速： <code>-VS-<fs_kHz>-<load>[_RPT_<n>].mat
%   例： H-100-2-0.mat, H-VS-2-0_RPT_1.mat
%
% 頂層變量名：data（struct），僅包含：
%   data.signal   [N x C]  （已做統一換算 ×0.15）
%   data.varNames [C x 1]  列名（保留中文）
%   data.N, data.C
%   data.fs  (Hz), data.rpm (r/min), data.load_pct (%)
%   data.t   [N x 1] 時間（秒；fs 有效時生成）if nargin < 2 || isempty(outDir), outDir = fullfile(inDir,'mat'); endif ~exist(inDir,'dir'), error('輸入目錄不存在：%s', inDir); endif ~exist(outDir,'dir'), mkdir(outDir); endfiles = [dir(fullfile(inDir,'*.csv'));  dir(fullfile(inDir,'*.CSV')); ...dir(fullfile(inDir,'*.txt'));  dir(fullfile(inDir,'*.TXT')); ...dir(fullfile(inDir,'*.xlsx')); dir(fullfile(inDir,'*.XLSX'))];if isempty(files)warning('目錄中未發現 CSV/TXT/XLSX：%s', inDir);return;endwarning('off','MATLAB:table:ModifiedVarnames');warning('off','MATLAB:table:ModifiedAndSavedVarnames');for k = 1:numel(files)fpath = fullfile(files(k).folder, files(k).name);tryrecFull = parse_one_file(fpath);                 % 解析（含 is_vs / rpt_idx）outname = make_outname(recFull, files(k).name);  % 生成目標 .mat 名data    = prune_and_convert(recFull);            % 僅保留 + 換算 + 生成 tsave(fullfile(outDir,outname), 'data', '-v7.3'); % 頂層變量名為 datafprintf('OK  -> %s\n', outname);catch MEfprintf(2,'FAIL -> %s\n  %s\n', files(k).name, ME.message);endend
end%% =================== 僅保留字段并做換算（并生成 t） ===================
function data = prune_and_convert(R)scale  = (10*60)/(4*1000);       % /1000 * 10 * 60 / 4 = 0.15signal = R.data * scale;data = struct();data.signal    = signal;         % [N x C]data.varNames  = R.varNames;     % 列名data.N         = size(signal,1);data.C         = size(signal,2);data.fs        = R.fs;data.rpm       = R.rpm;data.load_pct  = R.load_pct;if ~isnan(R.fs) && R.fs > 0data.t = (0:data.N-1).' / R.fs;elsedata.t = [];end
end%% =================== 單文件解析（魯棒：支持 VS / RPT，僅提數值列） ===================
function rec = parse_one_file(fpath)[~, base, ext] = fileparts(fpath);isCSV = ismember(lower(ext), {'.csv','.txt'});% ---------- 0) 提取重復測試編號，并得到用于解析的 baseCore ----------% 支持：xxx_all-1, xxx-1（結尾為 -數字）rpt_idx = NaN;tok = regexp(base, '(?:_all)?-(\d+)$', 'tokens', 'once');if ~isempty(tok), rpt_idx = str2double(tok{1}); endbaseCore = regexprep(base, '(?:_all)?-(\d+)$', '');   % 去掉尾部編號% ---------- 1) 多編碼讀取并清洗（僅 CSV/TXT） ----------lines = strings(0,1); encList = {'UTF-8','GB18030','ISO-8859-1'};if isCSVfor e = 1:numel(encList)trylines = readlines(fpath, "Encoding", encList{e});if ~isempty(lines); break; endcatch, endendif isempty(lines), error('無法按常見編碼讀取此文件'); endlines = normalize_lines(lines);end% ---------- 2) 表頭行定位 ----------headerLineIdx = [];if isCSVheaderLineIdx = find(contains(lines, "序號"), 1, 'first');if isempty(headerLineIdx)pat = "^\s*\d+\s*[,;\t]\s*[-\d\.]+";isData = ~cellfun('isempty', regexp(cellstr(lines), pat, 'once'));dataStart = find(isData, 1, 'first');if ~isempty(dataStart) && dataStart > 1headerLineIdx = dataStart - 1;elseerror('未找到“序號”表頭且無法定位數據起始行。');endendend% ---------- 3) detectImportOptions + readtable ----------if isCSVopts = detectImportOptions(fpath, 'NumHeaderLines', headerLineIdx-1);if isempty(opts.Delimiter) || isequal(opts.Delimiter,' ')opts.Delimiter = {',',';','\t','，'};endtry, opts.VariableNamingRule = 'preserve'; catch, endtry, opts.PreserveVariableNames = true;  catch, endtrytxtVars = opts.VariableNames( ismember(opts.VariableTypes, {'char','string','categorical'}) );if ~isempty(txtVars)try, opts = setvaropts(opts, txtVars, 'WhitespaceRule','preserve'); catch, endtry, opts = setvaropts(opts, txtVars, 'EmptyFieldRule','auto');      catch, endendcatch, endtryT = readtable(fpath, opts);catchtry, T = readtable(fpath, 'VariableNamingRule','preserve'); catchT = readtable(fpath, 'PreserveVariableNames', true);endendelsetry, T = readtable(fpath, 'VariableNamingRule','preserve'); catchT = readtable(fpath, 'PreserveVariableNames', true);endendif isempty(T), error('表格為空：%s', fpath); end% ---------- 4) 僅提取數值列（自動數值化，剔除全 NaN / 不齊列） ----------[A, vnames] = table_to_numeric(T);if isempty(A) || size(A,2) == 0error('未能從表格中提取到任何數值列：%s', fpath);end% 若存在“序號”，從數據中移除idxCol = find(contains(vnames, "序號"), 1, 'first');if ~isempty(idxCol)data = A(:, setdiff(1:size(A,2), idxCol));varNames = vnames(setdiff(1:numel(vnames), idxCol));elsedata = A;varNames = vnames;end% ---------- 5) 元信息 & 采樣頻率（內部優先） ----------meta = struct(); meta.raw = strings(0,1);if isCSV && headerLineIdx>1, meta.raw = lines(1:headerLineIdx-1); endmeta.kv = table(string.empty, string.empty,'VariableNames',{'Key','Value'});if ~isempty(meta.raw)K = strings(0,1); V = strings(0,1);for i = 1:numel(meta.raw)s = char(meta.raw(i)); if isempty(s), continue; ends = strrep(s,'，',','); s = strrep(s,'；',';');parts = split(string(s), ",");if numel(parts)>=2K(end+1,1) = strtrim(parts(1));V(end+1,1) = strtrim(strjoin(parts(2:end), ",")); %#ok<AGROW>endendmeta.kv = table(K, V, 'VariableNames', {'Key','Value'});endfs = NaN;if ~isempty(meta.kv.Key)hit = contains(meta.kv.Key, "采樣頻率");if any(hit)val = meta.kv.Value(find(hit,1,'first'));tok = regexp(val, '([\d\.]+)\s*([kK]?[Hh]z)?', 'tokens', 'once');if ~isempty(tok)v = str2double(tok{1}); unit = lower(strtrim(tok{2}));if isempty(unit)||strcmp(unit,'hz'), fs=v;elseif strcmp(unit,'khz'), fs=v*1000;else, fs=v;endendendend% ---------- 6) 文件名解析：定速 or 變速 VS ----------cond=""; rpm=NaN; fs_name=NaN; load_pct=NaN; load_hp=NaN; is_vs=false;% 定速：xxx-1000rpm-2kHz-0%Load / xxx-1000rpm-2kHz-10HPm1 = regexp(baseCore,'^(?<cond>[^-]+)-(?<rpm>\d+)rpm-(?<fs>[\d\.]+)[kK]Hz-(?<hp>\d+)HP','names');m2 = regexp(baseCore,'^(?<cond>[^-]+)-(?<rpm>\d+)rpm-(?<fs>[\d\.]+)[kK]Hz-(?<pct>\d+)\%Load','names');% 變速：xxx-variable-speed-2kHz-0%Load / xxx-vs-2kHz-...vsToken = '(?:variable[-_ ]?speed|variablespeed|vs|bianzhuansu|bian_su|bian_zs|變轉速|變速|變轉)';mVS1 = regexp(baseCore, ['^(?<cond>[^-]+)-' vsToken '-(?<fs>[\d\.]+)[kK]Hz-(?<hp>\d+)HP'], 'names');mVS2 = regexp(baseCore, ['^(?<cond>[^-]+)-' vsToken '-(?<fs>[\d\.]+)[kK]Hz-(?<pct>\d+)\%Load'], 'names');if ~isempty(m1)cond=string(m1.cond); rpm=str2double(m1.rpm);fs_name=str2double(m1.fs)*1000; load_hp=str2double(m1.hp);elseif ~isempty(m2)cond=string(m2.cond); rpm=str2double(m2.rpm);fs_name=str2double(m2.fs)*1000; load_pct=str2double(m2.pct);elseif ~isempty(mVS1)cond=string(mVS1.cond); is_vs=true;fs_name=str2double(mVS1.fs)*1000; load_hp=str2double(mVS1.hp);elseif ~isempty(mVS2)cond=string(mVS2.cond); is_vs=true;fs_name=str2double(mVS2.fs)*1000; load_pct=str2double(mVS2.pct);endif isnan(fs), fs = fs_name; end% ---------- 7) 輸出（供命名與裁剪使用） ----------rec = struct();rec.data      = data;rec.varNames  = varNames;rec.fs        = fs;rec.rpm       = rpm;rec.load_pct  = load_pct;rec.load_hp   = load_hp;rec.condition = cond;rec.is_vs     = is_vs;    % 是否變速rec.rpt_idx   = rpt_idx;  % 重復測試編號（NaN 表示無編號）
end%% =================== 把 table 列轉成純數值 ===================
function [A, vnames] = table_to_numeric(T)V = T.Properties.VariableNames;n = height(T);cols = []; vnames = strings(0,1);for i = 1:numel(V)x = T.(V{i});if isrow(x), x = x.'; endif isnumeric(x)num = double(x);elseif islogical(x)num = double(x);elseif iscell(x) || isstring(x) || ischar(x) || iscategorical(x)if iscategorical(x), x = cellstr(x); endif iscell(x)trys = string(x);catchs = string(cellfun(@(z)string(z), x, 'UniformOutput', false));endelses = string(x);ends = strrep(s, " ", "");s = strrep(s, ",", "");    % 千分位逗號num = str2double(s);elsecontinue;  % 其它類型不處理endif ~isnumeric(num) || all(isnan(num)) || numel(num)~=ncontinue;  % 丟掉全 NaN 或長度不匹配的列endcols = [cols, num];                 %#ok<AGROW>vnames(end+1,1) = string(V{i});     %#ok<AGROW>endA = cols;
end%% =================== 命名：定速/變速 + 重復測試后綴 ===================
function outname = make_outname(rec, origName)% 條件碼映射：H(健康) F(故障) I(內圈) O(外圈)condMap = containers.Map( ...{ 'jiankang','healthy','health','jk','normal','健康', ...'guzhang','fault','gz','faulty','故障', ...'neiqian','neiquan','inner','nei','內圈','內環','內', ...'waiquan','outer','wai','外圈','外環','外' }, ...{ 'H','H','H','H','H','H', ...'F','F','F','F','F', ...'I','I','I','I','I','I','I', ...'O','O','O','O','O','O' } );key = lower(string(rec.condition));if condMap.isKey(key)code = condMap(key);elseif strlength(key)>0code = upper(extractBefore(key + " ", 2));elsecode = "X";endfs_khz = rec.fs/1000; if isnan(fs_khz), fs_khz = 0; endfs_khz = round(fs_khz);if ~isnan(rec.load_hp)loadVal = rec.load_hp;elseif ~isnan(rec.load_pct)loadVal = rec.load_pct;elseloadVal = 0;endloadVal = round(loadVal);if isfield(rec,'is_vs') && rec.is_vsbaseName = sprintf('%s-VS-%d-%d', code, fs_khz, loadVal);elserpm = rec.rpm; if isnan(rpm), rpm = 0; endbaseName = sprintf('%s-%d-%d-%d', code, round(rpm), fs_khz, loadVal);end% 重復測試編號后綴if isfield(rec,'rpt_idx') && ~isnan(rec.rpt_idx)baseName = sprintf('%s_RPT_%d', baseName, rec.rpt_idx);endoutname = [baseName '.mat'];if code=="X"warning('無法從條件解析出代碼：%s -> 用 X 代替（文件：%s）', string(rec.condition), origName);end
end%% =================== 工具：規范行文本 ===================
function lines = normalize_lines(lines)lines = replace(lines, char(65279), "");   % BOMlines = replace(lines, "，", ",");lines = replace(lines, "；", ";");
end

5. 使用方法

% 1) 放置
% 將 batch_csv2mat.m 放到 MATLAB 當前工作目錄% 2) 執行（輸出目錄可省略，默認在輸入目錄下新建 mat/）
batch_csv2mat('F:\input', ...'F:\mat_out');% 3) 查看一個轉換結果
S = load('F:\2025.9.6-歐瑞-6305-軸承\mat_out\H-100-2-0.mat');  % 舉例
data = S.data;
plot(data.t, data.signal(:,1)); grid on
xlabel('Time (s)'); ylabel(data.varNames(1));
title('Channel 1');

6. 輸出內容說明

MAT 文件名：H/I/O/F-<rpm>-<fs_kHz>-<load>.mat
MAT 內部變量：頂層變量 data（struct）
- signal：N×C，已統一換算（×0.15）
- t：N×1 秒
- fs/rpm/load_pct：數值信息
- varNames：列名（中文保留）
- N/C：樣本數/通道數

7. 常見問題與已處理

“變量名被修改”警告 → 已強制保留原始列名（VariableNamingRule='preserve'），并靜默相關警告。
WhitespaceRule 未知 → 僅在文本列存在且當前版本支持時才設置，不支持自動跳過。
“無法串聯 double 和 cell” → 讀取后對每列做數值化，全 NaN 列剔除，徹底避免此類報錯。
找不到“序號”表頭 → 啟用“數據模式”兜底：定位第一行“像數據”的行，自動確定表頭。
編碼/分隔符混亂 → 自動嘗試 UTF-8/GB18030/ISO-8859-1，分隔符支持英文/中文逗號、分號、Tab。

8. 一致性校驗（可選）

想確認換算與數據無丟失，可做如下對比（把 CSV 原始數值×0.15 后與 .mat 比較）：

csvf = '...原CSV路徑...';
S = load('...對應的.mat');
data = S.data;T = readtable(csvf,'VariableNamingRule','preserve');
A = table2array(T);             % [序號, 數據...]
X = A(:,2:end) * 0.15;          % 同步換算fprintf('max abs diff = %.3g\n', max(abs(X(:)-data.signal(:))));

max abs diff 應該接近 0（浮點微小誤差內）。

9. 可擴展方向

并行加速：外層 for 可改 parfor（需要 Parallel Toolbox）。
統一合并：把所有 MAT 聚合成一個大矩陣 + 索引表（condition/rpm/fs/load）。
自定義換算：把 scale = 0.15 改成配置項，或為不同列設置不同系數。
更豐富的命名映射：在 condMap 內繼續擴展你的條件類別。

10. 結語

這套腳本針對“中文頭信息 + 序號表頭 + 多源編碼/分隔符 + 列類型不一致”的工業 CSV 做了較強的兼容性處理，并把研究中常用的關鍵信息全部沉淀進 .mat（變量名、采樣率、時間軸等），開箱即用。歡迎在此基礎上繼續定制：比如統一單位、自動頻譜、批量可視化、或者和后續深度學習數據管線打通等。