单从这些统计数字的指标上来看,所体现出的四组数据实际情况应该非常相近,但是实际情况是,这四组数据有着天壤之别。对应的图示如下:
通过图表描绘,你会发现这四组数据是四种完全不同的情况。第一组数据是大多人看到上述统计数字的第一反应,是最“正常”的一组数据;第二组数据所反映的事实上是一个精确的二次函数关系,只是在错误地应用了线性模型后,各项统计数字与第一组数据恰好都相同;第三组数据描述的是一个精确的线性关系,只是这里面有一个异常值,它导致了上述各个统计数字,尤其是相关度值的偏差;第四组数据则是一个更极端的例子,其异常值导致了平均数、方差、相关度、线性回归线等所有统计数字全部发生偏差。
四.心得
另外在心率算法与金标准进行对比分析时,也有一个有趣的现象,静止采集数据计算的心率与金标准心率的相关值有时反而比包含静止和轻运动状态的心率的相关值小.其实这也跟相关系数适用的范围有关,一般来说计算相关系数的两个变量总体是正态分布,或接近正态的单峰分布时,才有明显的对比意义.另外在实际使用中发现Bland-Altman也不具有普遍性,其对安斯库姆四重奏也不具有可评价性,对应安斯库姆四重奏数据的计算结果绘图如下:
上面的实例以及历史研究成果表明,使用相关系数衡量两个序列的相似程度时,需要先对两个序列的线性性质进行分析,但是这种性质的分析很难找到一个很好的评价标准,这也就需要我们先行绘图检查数据与拟合曲线的匹配程度,也可以先行分析数据的分布特性.
五.参考文献
[1] Draper, N. R., & Smith, H. (1981). Applied Regression Analysis. New York: John Wiley and Sons, Inc.
[2] Anscombe, F. J. (1973). "Graphs in Statistical Analysis". American Statistician. 27 (1): 17–21. doi:10.1080/00031305.1973.10478966. JSTOR 2682899.
[3] Janert, Philipp K. (2010). Data Analysis with Open Source Tools. O'Reilly Media, Inc. pp. 65–66. ISBN 0-596-80235-8.