一个时间序列多特征提取工具介绍 - 52matlab技术网站，matlab教程，matlab安装教程，matlab下载

step4:计算原始数据(TimeSeries)特征,生成的值对特征值矩阵(TS_DataMat)、计算每个特征需要的时间(TS_Calc-Time)以及每个特征质量标签进行覆盖, TS_compute(doParallel,ts_id_range,op_id_range,computeWhat,customFile,beVocal)

doParallel: 1开启并行运算，0不开启，默认为0；

ts_id_range: 时间序列范围，如[2:100],默认为所有序列;

op_id_range: 操作序列范围，默认为所有操作（示例为7873个）

computeWhat: 对应质量标签的取值；

customFile: 输出文件名，默认为HCTSA.mat;

beVocal: 逻辑变量，是否显示脚本运行的进度信息,默认显示;

step5:质量标签统计分析，TS_InspectQuality(inspectWhat,customFile)

inspectWhat: 显示质量标签输出，选择分类的有效性特征；

customFile: 输出文件名，默认为HCTSA.mat;

[attach]212[/attach]

图2 生成特征的有效性图示

step6:滤除和归一化数据，outputFileName =TS_normalize(normFunction,filterOptions, fileName_HCTSA,classVarFilter,subs)，

normFunction: 归一化函数；

filterOptions: 好值的比例，长度为2的行向量，分别为行列的比例阈值，默认[0.7,1]；

fileName_HCTSA: 导入数据的文件，默认HCTSA.mat;

classVarFilter: 是否滤除方差为0的类（即常量序列）；

subs: 需要处理的某个子序列；

outputFileName: 处理后保存数据的文件名；

step7:使用指定的关键字标记时间序列的组，[groupLabels,newFileName] =TS_LabelGroups(whatData,keywordGroups,saveBack,filterMissing)

whatData:取出并且重新覆盖标签的数据文件，默认为HCTSA.mat；

keywordGroups:标签元胞数组；

saveBack: 可以设置为false以停止将分组保存回输入文件;

filterMissing: 设置为true可删除与任何关键字不匹配的数据;

groupLabels: 与关键字组中的每个关键字对应的索引;

newFileName:保存修改的数据名；

step8: 使用所有特征对数据进行分类，

TS_classify(whatData,whatClassifier,doPCs,doNull,seedReset)

whatData:加载数据的文件名，默认为HCTSA_N.mat；

whatClassifier: 分类器，默认为svm_linear，这个需要注意；

doPCs: 逻辑变量；

doNull: 逻辑变量；

seedReset: 随机种子；

[attach]213[/attach]

图3 分类的混淆矩阵

[attach]214[/attach]

图4 2-折交叉验证svm分类效果

step9:显示分类效果好的特征及特征分类函数，[ifeat,testStat,testStat_rand]= TS_TopFeatures(whatData,whatTestStat,varargin)；

whatData: 使用的数据文件名；

whatTestStat: 测试统计量来量化每个特征的优点；

varargin: 额外选项，参看文件；

ifeat: 特征计算的性能排序；

testStat: 特征计算的统计；

testStat_rand: 测试统计数据组成的空分布。

运行过程显示所有操作的平均线性分类准确性，以及具有最佳性能的操作列表（按其测试统计排序，其ID显示在方括号中，关键字显示在圆括号中）。

Using overall classificationaccuracy as output measure

Comparing the (in-sample)performance of 7149 operations for 3 classes using a linear SVM classifier...

(should take approx 2.8min tocompute for all 7149 features)

Done in 2.7min.

Mean linear SVM classifierperformance across 7149 operations = 98.15%

(Random guessing for 3 equiprobableclasses = 33.33%)

[2] mean(distribution,location,raw,locdep) -- 100.00%

[3] harmonic_mean(distribution,location,raw,locdep) -- 100.00%

[4] median(distribution,location,raw,locdep) -- 100.00%

[5] trimmed_mean_1 (distribution,location,raw,locdep)-- 100.00%

[6] trimmed_mean_5(distribution,location,raw,locdep) -- 100.00%

[7] trimmed_mean_10(distribution,location,raw,locdep) -- 100.00%

[8] trimmed_mean_25(distribution,location,raw,locdep) -- 100.00%

[9] trimmed_mean_50 (distribution,location,raw,locdep)-- 100.00%

[10] midhinge(distribution,location,raw,locdep) -- 100.00%

[12] DN_HistogramMode_10(distribution,location) -- 100.00%

[13] DN_HistogramMode_20(distribution,location) -- 100.00%

[14] maximum (distribution) -- 100.00%

[15] miminmum (distribution) --100.00%

[16] rms(distribution,location,raw,locdep,spreaddep) -- 100.00%

[17] burstiness_Goh(distribution,raw,locdep,spreaddep) -- 100.00%

[18] burstiness_Kim(distribution,raw,locdep,spreaddep) -- 100.00%

[19] standard_deviation(distribution,spread,raw,spreaddep) -- 100.00%

[20] mean_absolute_deviation(distribution,spread,raw,spreaddep) -- 100.00%

[21] interquartile_range(distribution,spread,raw,spreaddep) -- 100.00%

[22] median_absolute_deviation(distribution,spread,raw,spreaddep) -- 100.00%

[23] DN_Moments_3(distribution,moment,shape) -- 100.00%

[24] DN_Moments_4(distribution,moment,shape) -- 100.00%

[25] DN_Moments_5(distribution,moment,shape) -- 100.00%

[26] DN_Moments_6(distribution,moment,shape) -- 100.00%

[27] DN_Moments_7(distribution,moment,shape) -- 100.00%

[28] DN_Moments_8(distribution,moment,shape) -- 100.00%

[29] DN_Moments_9(distribution,moment,shape) -- 100.00%

[30] DN_Moments_10(distribution,moment,shape) -- 100.00%

[31] DN_Moments_11(distribution,moment,shape) -- 100.00%

[32] DN_Moments_raw_3(distribution,moment,shape,raw,spreaddep) -- 100.00%

[33] DN_Moments_raw_4(distribution,moment,shape,raw,spreaddep) -- 100.00%

[34] DN_Moments_raw_5(distribution,moment,shape,raw,spreaddep) -- 100.00%

[35] DN_Moments_raw_6(distribution,moment,shape,raw,spreaddep) -- 100.00%

[36] DN_Moments_raw_7(distribution,moment,shape,raw,spreaddep) -- 100.00%

[37] DN_Moments_raw_8(distribution,moment,shape,raw,spreaddep) -- 100.00%

[38] DN_Moments_raw_9(distribution,moment,shape,raw,spreaddep) -- 100.00%

[39] DN_Moments_raw_10(distribution,moment,shape,raw,spreaddep) -- 100.00%

[40] DN_Moments_raw_11(distribution,moment,shape,raw,spreaddep) -- 100.00%

[41] skewness_pearson(distribution,moment,shape,raw,locdep) -- 100.00%

[42] skewness_bowley(distribution,moment,shape) -- 100.00%

[attach]215[/attach]

图5 完整库与随机标签的分类效果比较

[attach]216[/attach]

图6 显示最优特征的类概率分布

[attach]217[/attach]

图7 最优特征计算函数的关系图

根据索引（ID值）查找对应的特征计算函数和主操作函数

如在命令窗口输入Operations([Operations.ID] == 6610)显示

struct with fields:

CodeString: 'WL_cwt_db3_32.stat_5_s_s'

Name: 'WL_cwt_db3_32_stat_5_s_s'

Keywords: 'wavelet,cwt'

ID: 6610

MasterID: 989

再通过MasterID查找主操作函数，在命令窗口输入MasterOperations([MasterOperations.ID] == 989)显示

struct with fields:

Code: 'WL_cwt(y,'db3',32)'

Label: 'WL_cwt_db3_32'

ID: 989

其中的WL_cwt就是主操作函数，通过editWL_cwt就可以查看对应的源码。

总结

hctsa库给从事时间序列特征提取提供了数字依据，也为没有相关知识的同学快速寻找时间序列预处理提供了思路。不过hctsa库只针对单变量的时间序列，在实际工作中经常面对的是多变量的时间序列，如多通道的ECG信号、EEG信号以及三轴加速度信号等等。这就需要在使用hctsa库前先将待处理的多变量时间序列转化单变量时间序列，以三轴加速度信号为例，可以将三轴加速度融合为合加速度，也可以用PCA降维处理。最后感谢作者们的工作以及分享，感谢伸展同学的推荐。