很久很久没有写原创文章了,今天给大家写一个大家发论文都用的到的操作--------为ggplot图形添加P值和显著性水平。建议先点收藏,再点关注,因为本文很长。掌握了本文,用R语言画下面这种图就不求人了。
概述:本系列文章介绍如何轻松地(注意不是本文,本文写不了这么多):
- 比较两组或多组的均值
- 自动地将P值和显著性水平添加到ggplot图形中,如箱形图,点图,条形图和折线图等
使用工具: R语言中的ggplot2包和ggpubr包,包的安装下载部分默认略过,不然文章太长。
示例数据
示例数据集:ToothGrowth
data("ToothGrowth")
head(ToothGrowth)
示例数据如下:
## len supp dose
## 1 4.2 VC 0.5
## 2 11.5 VC 0.5
## 3 7.3 VC 0.5
## 4 5.8 VC 0.5
## 5 6.4 VC 0.5
## 6 10.0 VC 0.5
均值比较的方法
R中用于两组或多组间均值比较的标准统计方法之后有时间会一个一个的给大家写。这儿先给个大概表格。
均值比较的常见方法:
用于添加P值的R函数
这两个函数都是ggpubr包中的函数:
- compare_means():用于执行均值比较
- stat_compare_means():用于在ggplot图形中自动添加P值和显著性水平
下面一个一个看
compare_means()
该函数用于执行均值比较。该函数与标准的R函数相比,灵活性更强。
形式如下:
compare_means(formula, data, method = "wilcox.test", paired = FALSE,
group.by = NULL, ref.group = NULL, ...)
- formula:指定一个公式,公式形式为x ~ group,其中,x表示一个数值型变量,group表示一个因子型变量,包含一个或多个水平。例如,一个示例公式为formula = TP53 ~ cancer_group,表示在cancer_group对应的各水平间比较TP53的表达水平;也可以同时指定多个响应变量,如formula = c(TP53, PTEN) ~ cancer_group。
- data:指定一个数据框(data.frame),数据框需包含formula中的变量。
- method:指定统计检验的方法。默认为“wilcox.test”,即Wilcoxon检验(非参数检验);也可指定其他统计方法:“t.test”,即T检验(参数检验)。“t.test”和“wilcox.test”用于两组样本间的比较。当超过两组时,将会执行两两比较(pairwise comparison)。“anova”(参数检验)或“kruskal.test”(非参数检验),用于执行多组间的单因素方差分析。
- paired:指定一个逻辑变量,表示是否需要执行配对检验,仅适用于t.test和wilcox.test。
- group.by:指定一个分组变量的字符名,用于在统计检验之前对数据进行分组。当存在group.by指定的变量时,均值比较将在不同水平的各个子集数据中执行。
- ref.group:指定一个组别的字符名,作为对照组(reference group)。如果指定,各个分组水平将与对照组水平进行比较。也可指定ref.group为“.all.”,表示每个分组水平将于所有分组水平(如base-mean)进行比较。
stat_compare_means()
该函数是对ggplot2的扩展,可将均值比较后的P值添加到ggplot图形中,如箱形图、点图、条形图和折线图等。
简化形式如下:
stat_compare_means(mapping = NULL, comparisons = NULL hide.ns = FALSE,
label = NULL, label.x = NULL, label.y = NULL, ...)
- mapping:通过aes()设置绘图时的aesthetic,aesthetic是个啥?Color、size、shape这三都叫做aesthetic。
- comparisons:指定一个列表(list),每个列表元素需为长度等于2的向量。向量的内容可以为X轴的两个组别名(字符型),也可以是两个感兴趣组的组别索引(整数值),表示采用指定的两个组别进行比较。
- hide.ns:逻辑变量,如果设为TRUE,显示显著性水平时将隐藏ns字样,即组间差异不显著时不显示ns字样。
- label:指定一个字符串,表示标签类型。可为:“p.signif”(显示显著性水平),“p.format”(显示格式化的P值)。
- label.x, label.y:指定一个数值,表示显示标签的绝对坐标位置。
- …:传递给函数compare_means()的参数,如method、paired、ref.group。
独立双样本组间比较
这个部分就直接是实际操作的例子了,大家可以复制代码自己跑,有问题请留言:
执行统计检验
compare_means(len ~ supp, data = ToothGrowth)
示例结果如下图:
method默认为“wilcox.test”(非参数检验),可指定method = “t.test”,表示T检验(参数检验)
返回值为具有以下列的数据框:
- .y.:用于统计检验的数值变量
- p:P值
- p.adj:调整后的P值,调整P值的默认方法为p.adjust.method = “holm”
- p.format :格式化的P值
- p.signif:显著性水平,即用不同数量的*表示显著性水平
- method:用于组间比较的统计方法
好了做完统计,重点来了
创建添加P值的箱形图,代码如下:
p <- ggboxplot(ToothGrowth, x = "supp", y = "len",
color = "supp", palette = "jco",
add = "jitter")
# 添加P值
p + stat_compare_means()
# 改变统计方法
p + stat_compare_means(method = "t.test")
运行代码,然后我们可以直接出图:
建议大家自己动手操作一番,因为写的挺详细的了,还有,注意:显示P值的标签位置可以通过如下参数来调整:label.x, label.y, hjust和vjust。
显示P值的标签默认为compare_means()返回值中的method和p的组合。也可以通过aes()函数指定为其他显示形式。例如:
aes(label = ..p.format..) 或 aes(label = paste0(“p =”, ..p.format..))
表示只显示格式化的P值,而不显示method
aes(label = ..p.signif..)
表示展示显著性水平
aes(label = paste0(..method.., “\n”, “p =”, ..p.format..))
表示在method名和P值之添加换行(“\n”)
直接再上一个例子吧,运行下面的代码,就是只有p值了:
p + stat_compare_means( aes(label = ..p.format..),
label.x = 1.5, label.y = 40)
小结
今天文章有点长,但是不难,强烈建议大家自己试一试,注意这个文章我其实还没写完,太长了,等下一篇吧,感谢大家耐心看完。发表这些东西的主要目的就是督促自己,希望大家关注评论指出不足,一起进步。内容我都会写的很细,用到的数据集也会在原文中给出链接,你只要按照文章中的代码自己也可以做出一样的结果,一个目的就是零基础也能懂,因为自己就是什么基础没有从零学Python和R的,加油。
(站外链接发不了,请关注后私信回复“数据链接”获取本头条号所有使用数据)
往期内容:
本文暂时没有评论,来添加一个吧(●'◡'●)