ROC曲线是由二战中的电子工程师和雷达工程师发明的,用来侦测战场上的敌军载具(飞机、船舰),也就是信号检测理论,二战后被引入统计领域,尤其广泛应用于医学统计中,用来做疾病诊断方法的比较。
ROC曲线(Receiver operating characteristic curve),即受试者工作特征曲线,主要用来评价某个指标对两类测试者(如患者和正常人)分类或诊断的效果,并寻找最佳的指标临界值,进而确定此种评价指标的cutoff值。
在理解ROC曲线图之前,我们先来了解几个基本的概念:
1)真阳性率(TPR, Truepositive rate):所有实际为阳性的样本被正确地判断为阳性的个数与所有实际为阳性的样本个数之比(也就是真的是真的),TPR又称为Sensitivity(灵敏度);
2)假阳性概率(FPR, Falsepositive rate):所有实际为阴性的样本被错误地判断为阳性的个数与所有实际为阴性的样本个数之比(即假的误认为是真的,被误报了),FPR等于1-Specificity(特异度)。
3)约登指数(Youden Index):也称正确指数,是在假定假阴性(漏诊率)和假阳性(误诊率)的危害性有同等意义时常用的方法,其反映了真正的患者与非患者的总能力。约登指数=灵敏度+特异度-1(也就是ROC曲线的Y轴减去X轴),约登指数越大说明真实性越大。约登指数最大值也就对应着该方法的最佳诊断临界值,即cutoff值。
ROC曲线其实就是以FPR为横坐标,TPR为纵坐标绘制出来的曲线。
ROC曲线图是反映敏感性与特异性之间关系的曲线。横坐标X轴为 1 – 特异性,也称为假阳性率(误报率),X轴越接近零准确率越高;纵坐标Y轴称为敏感度,也称为真阳性率(敏感度),Y轴越大代表准确率越好。
根据曲线位置,把整个图划分成了两部分,曲线下方部分的面积被称为AUC(Area Under Curve),用来表示预测准确性,AUC值越高,也就是曲线下方面积越大,说明预测准确率越高。曲线越接近左上角(X越小,Y越大),预测准确率越高。
#生物信息学##生信分析##生物信息学[超话]#
原文节选自:医学僧的科研日记(ID:zzudoctor)
ROC曲线(Receiver operating characteristic curve),即受试者工作特征曲线,主要用来评价某个指标对两类测试者(如患者和正常人)分类或诊断的效果,并寻找最佳的指标临界值,进而确定此种评价指标的cutoff值。
在理解ROC曲线图之前,我们先来了解几个基本的概念:
1)真阳性率(TPR, Truepositive rate):所有实际为阳性的样本被正确地判断为阳性的个数与所有实际为阳性的样本个数之比(也就是真的是真的),TPR又称为Sensitivity(灵敏度);
2)假阳性概率(FPR, Falsepositive rate):所有实际为阴性的样本被错误地判断为阳性的个数与所有实际为阴性的样本个数之比(即假的误认为是真的,被误报了),FPR等于1-Specificity(特异度)。
3)约登指数(Youden Index):也称正确指数,是在假定假阴性(漏诊率)和假阳性(误诊率)的危害性有同等意义时常用的方法,其反映了真正的患者与非患者的总能力。约登指数=灵敏度+特异度-1(也就是ROC曲线的Y轴减去X轴),约登指数越大说明真实性越大。约登指数最大值也就对应着该方法的最佳诊断临界值,即cutoff值。
ROC曲线其实就是以FPR为横坐标,TPR为纵坐标绘制出来的曲线。
ROC曲线图是反映敏感性与特异性之间关系的曲线。横坐标X轴为 1 – 特异性,也称为假阳性率(误报率),X轴越接近零准确率越高;纵坐标Y轴称为敏感度,也称为真阳性率(敏感度),Y轴越大代表准确率越好。
根据曲线位置,把整个图划分成了两部分,曲线下方部分的面积被称为AUC(Area Under Curve),用来表示预测准确性,AUC值越高,也就是曲线下方面积越大,说明预测准确率越高。曲线越接近左上角(X越小,Y越大),预测准确率越高。
#生物信息学##生信分析##生物信息学[超话]#
原文节选自:医学僧的科研日记(ID:zzudoctor)
解读文献里的那些图——误差棒
文章中的柱状图、折线图中我们经常会看到一条条的横线竖线,这其实就是误差棒(error bar)。(图1)
简单来说,误差棒就是一组数据误差的可视化表达方法,可以一眼看出这组数据的离散程,所以在处理实验数据时我们经常需要添加误差棒来展示实验的误差范围。
提到误差我们就要了解误差有哪些表示方法,即怎样表达误差的大小。
标准差(Standard Deviation ,SD)和标准误(Standard Error ,SE)这两个通常是用来描述抽样误差大小的指标。
SD实际上反映的是数据点的波动情况,而SE则是均值的波动情况。(图2)
还有一个间接表达误差的指标是置信区间(Confidence Interval,CI),我们最常用的95%CI=(均值-1.96SE,均值+1.96SE)
那么,误差棒对应的到底是标准差(SD)、标准误(SE)还是置信区间(CI)呢?其实……都可以,作者都会在论文中明确写明用的是哪一种。
很多的文献图表中,误差棒的长短通常等同于1.96个SE,这样做可以传递的信息更多,有两方面的好处。首先这个方法能显示95%的CI。其次能让我们用眼睛检验差别的显著性,如果下面bar的顶部和上面bar的底部没有重叠,两个实验组的差异必定是显著的(5%的显著水平)。因此我们会说,这2个组间存在显著差别。如果我们做t-test,结果会验证这个发现。这种方法对超过2个组的情况就不那么精确了。因为需要多次比较(比如,组1和组2,组2和组3,组1和组3),但是至少能提示粗略的差别。
读图过程中,如果误差棒明显过长,甚至超过柱状图的长度,那么这个实验数据就存在明显的变异性,可重复性较差(如图3:WE JUST CAN’T TRUST YOU)。反之,误差棒长短都比较均一,则误差较小,实验数据较为稳定,离散性小,可信度高。#生信分析##生物信息学##生信分析[超话]#
原文参考自:医学僧的科研日记(ID:zzudoctor)
文章中的柱状图、折线图中我们经常会看到一条条的横线竖线,这其实就是误差棒(error bar)。(图1)
简单来说,误差棒就是一组数据误差的可视化表达方法,可以一眼看出这组数据的离散程,所以在处理实验数据时我们经常需要添加误差棒来展示实验的误差范围。
提到误差我们就要了解误差有哪些表示方法,即怎样表达误差的大小。
标准差(Standard Deviation ,SD)和标准误(Standard Error ,SE)这两个通常是用来描述抽样误差大小的指标。
SD实际上反映的是数据点的波动情况,而SE则是均值的波动情况。(图2)
还有一个间接表达误差的指标是置信区间(Confidence Interval,CI),我们最常用的95%CI=(均值-1.96SE,均值+1.96SE)
那么,误差棒对应的到底是标准差(SD)、标准误(SE)还是置信区间(CI)呢?其实……都可以,作者都会在论文中明确写明用的是哪一种。
很多的文献图表中,误差棒的长短通常等同于1.96个SE,这样做可以传递的信息更多,有两方面的好处。首先这个方法能显示95%的CI。其次能让我们用眼睛检验差别的显著性,如果下面bar的顶部和上面bar的底部没有重叠,两个实验组的差异必定是显著的(5%的显著水平)。因此我们会说,这2个组间存在显著差别。如果我们做t-test,结果会验证这个发现。这种方法对超过2个组的情况就不那么精确了。因为需要多次比较(比如,组1和组2,组2和组3,组1和组3),但是至少能提示粗略的差别。
读图过程中,如果误差棒明显过长,甚至超过柱状图的长度,那么这个实验数据就存在明显的变异性,可重复性较差(如图3:WE JUST CAN’T TRUST YOU)。反之,误差棒长短都比较均一,则误差较小,实验数据较为稳定,离散性小,可信度高。#生信分析##生物信息学##生信分析[超话]#
原文参考自:医学僧的科研日记(ID:zzudoctor)
解读文献里的那些图——误差棒
文章中的柱状图、折线图中我们经常会看到一条条的横线竖线,这其实就是误差棒(error bar)。(图1)
简单来说,误差棒就是一组数据误差的可视化表达方法,可以一眼看出这组数据的离散程,所以在处理实验数据时我们经常需要添加误差棒来展示实验的误差范围。
提到误差我们就要了解误差有哪些表示方法,即怎样表达误差的大小。
标准差(Standard Deviation ,SD)和标准误(Standard Error ,SE)这两个通常是用来描述抽样误差大小的指标。
SD实际上反映的是数据点的波动情况,而SE则是均值的波动情况。(图2)
还有一个间接表达误差的指标是置信区间(Confidence Interval,CI),我们最常用的95%CI=(均值-1.96SE,均值+1.96SE)
那么,误差棒对应的到底是标准差(SD)、标准误(SE)还是置信区间(CI)呢?其实……都可以,作者都会在论文中明确写明用的是哪一种。
很多的文献图表中,误差棒的长短通常等同于1.96个SE,这样做可以传递的信息更多,有两方面的好处。首先这个方法能显示95%的CI。其次能让我们用眼睛检验差别的显著性,如果下面bar的顶部和上面bar的底部没有重叠,两个实验组的差异必定是显著的(5%的显著水平)。因此我们会说,这2个组间存在显著差别。如果我们做t-test,结果会验证这个发现。这种方法对超过2个组的情况就不那么精确了。因为需要多次比较(比如,组1和组2,组2和组3,组1和组3),但是至少能提示粗略的差别。
读图过程中,如果误差棒明显过长,甚至超过柱状图的长度,那么这个实验数据就存在明显的变异性,可重复性较差(如图3:WE JUST CAN’T TRUST YOU)。反之,误差棒长短都比较均一,则误差较小,实验数据较为稳定,离散性小,可信度高。#生信分析##生物信息学##生物信息学[超话]#
原文参考自:医学僧的科研日记(ID:zzudoctor)
文章中的柱状图、折线图中我们经常会看到一条条的横线竖线,这其实就是误差棒(error bar)。(图1)
简单来说,误差棒就是一组数据误差的可视化表达方法,可以一眼看出这组数据的离散程,所以在处理实验数据时我们经常需要添加误差棒来展示实验的误差范围。
提到误差我们就要了解误差有哪些表示方法,即怎样表达误差的大小。
标准差(Standard Deviation ,SD)和标准误(Standard Error ,SE)这两个通常是用来描述抽样误差大小的指标。
SD实际上反映的是数据点的波动情况,而SE则是均值的波动情况。(图2)
还有一个间接表达误差的指标是置信区间(Confidence Interval,CI),我们最常用的95%CI=(均值-1.96SE,均值+1.96SE)
那么,误差棒对应的到底是标准差(SD)、标准误(SE)还是置信区间(CI)呢?其实……都可以,作者都会在论文中明确写明用的是哪一种。
很多的文献图表中,误差棒的长短通常等同于1.96个SE,这样做可以传递的信息更多,有两方面的好处。首先这个方法能显示95%的CI。其次能让我们用眼睛检验差别的显著性,如果下面bar的顶部和上面bar的底部没有重叠,两个实验组的差异必定是显著的(5%的显著水平)。因此我们会说,这2个组间存在显著差别。如果我们做t-test,结果会验证这个发现。这种方法对超过2个组的情况就不那么精确了。因为需要多次比较(比如,组1和组2,组2和组3,组1和组3),但是至少能提示粗略的差别。
读图过程中,如果误差棒明显过长,甚至超过柱状图的长度,那么这个实验数据就存在明显的变异性,可重复性较差(如图3:WE JUST CAN’T TRUST YOU)。反之,误差棒长短都比较均一,则误差较小,实验数据较为稳定,离散性小,可信度高。#生信分析##生物信息学##生物信息学[超话]#
原文参考自:医学僧的科研日记(ID:zzudoctor)
✋热门推荐