网站首页 > 技术教程 正文
OR
逻辑回归
逻辑回归的名称虽然里面有“回归”二字,但它实际上是一种分类学习方法。常见的使用场景有两种:一是预测,二是寻找因变量的影响因素。
1
线性回归与Logistic回归
线性回归和逻辑回归都是广义线性模型的一种特殊情况。
假设有一个因变量y和一组自变量x1, x2, x3, ... , xn,当y为连续变量时,不难拟合一个线性方程:
然后采用最小二乘法估计这个方式当中的各个系数β的值。
但是,如果 y 是一个只能取 0 或 1 值的二元变量,则线性回归方程会遇到困难。方程的右边是一个从负无穷到正无穷范围内的连续值,但左边的值则属于[0,1],两边的值不匹配。
为了克服这一阻碍进行线性回归,统计学家想出了一种变换方法,即:将等式右边的值变换为[0,1]。最后,选择采用logistic函数进行变换。
logistic函数为:
它是一个取值范围为(0,1)的s型函数,可以将任意值映射到(0,1),并且具有无穷导数等优良的数学性质。
在变化以后,回归方程就变为:
这样,等式两边的取值范围就都处于0和1之间了!
再进行一下Logit变换,得到:
在上面这个公式里,可以将y看作y取值为1的时候的概率p(y=1),那么1-y便是y取值为0的时候的概率p(y=0)。
从而能够进一步得到:
处理变换到这里,我们就可以回到最初的思路,通过最小二乘法估计β的值了。
2
odds与OR的含义
Odds:称为暴露比值,也称为几率、比值、比数,是指某事件发生的可能性(概率)与不发生的可能性(概率)之比。用p表示事件发生的概率,则:odds = p/(1-p)。
OR:称作“优势比”(odds ratio),也称“比值比”,为实验组的事件发生几率(odds1)/对照组的事件发生几率(odds2),反映的是某种暴露与结局的关联强度。
3
怎么理解OR值
上面的描述在新手看来简直“不明觉厉”:什么优势?啥又是优势比?关联强度又是啥?
为了加深了解,让我们结合例子来细细体会。
假设一下,如果我们想要探讨熬夜是否会导致肥胖的发生,应该怎么办?
回忆一下我们初中学的做生物实验的思路,很容易便想到:找两组人,一组是肥胖人群,另一组则是不肥胖人群,然后,分别调查这两组人群哪些人熬夜、哪些人不熬夜。
如果我们调查得到的情况是下面这样的:
可以看到,肥胖组一共有40人,其中24人熬夜,16人不熬夜。我们就称“熬夜”是一种“暴露”。
不难看出,“暴露”指代的内容非常广泛。一般来说,有我们感兴趣的元素的研究对象就可以被称为“暴露组”;而没有这些因素的研究对象就可以被称为“非暴露组”。感兴趣的元素可以包括各种特征(性别、年龄、教育程度等)、某个特定行为(饮酒、运动、吸烟),或接触某个特定的物质(PM2.5等)。
至于“暴露与结局的关联强度”,在假设的例子当中,所谓的“结局”便是“是否肥胖”,也可以理解为“因变量Y”。
那“暴露比值”在假设的例子当中意味着什么呢?
其中,对于患有肥胖的对象,暴露比值为:熬夜的比例除以不熬夜的比例,即为:25/15 = 1.67;
同样,在不肥胖的人群中,也可以计算一个熬夜的比例除以不熬夜的比例,即为:19/21 = 0.90。
把这两个比例相除,就得到了熬夜与肥胖相关关系的OR值,即OR = 1.67/0.90= 1.86>1。
由此可以进行初步的推断:熬夜会增加肥胖的风险。
总的来说,当结果出现记为1,不出现记为0时,OR值的含义可以总结为:
OR = 1,暴露与结局之间没有相关性;
OR> 1,暴露可能会促进结局的出现;
OR<1,曝光会阻碍结局的出现。
而Logistic回归很重要的一点在于可以直接输出OR值,这一值甚至比直接的回归系数(β)还更有意义。
OR值与回归系数β的数量关系为:OR = eβ
猜你喜欢
- 2025-01-10 分享一个用用Excel做回归分析
- 2025-01-10 基于多因素Logistic回归分析,筛选可能的独立危险因素
- 2025-01-10 膜拜!终于有人能把人工智能算法的“逻辑回归”讲得明明白白了
- 2025-01-10 逻辑回归(2)模型定义 #逻辑回归
- 2025-01-10 SPSS实战:搞明白单因素vs多因素,二元vs多元Logistic回归分析
- 2025-01-10 一个困扰已久的问题:回归分析样本量如何确定?
- 2025-01-10 一文带您了解逻辑回归(Logistic Regression): Python示例
- 2025-01-10 一文读懂正则化:LASSO回归、Ridge回归、ElasticNet 回归
- 2025-01-10 分享一个好用的统计工具!快速利用logistic回归探讨影响因素
- 2025-01-10 SPSS二元Logistic回归分析
你 发表评论:
欢迎- 最近发表
- 标签列表
-
- sd分区 (65)
- raid5数据恢复 (81)
- 地址转换 (73)
- 手机存储卡根目录 (55)
- tcp端口 (74)
- project server (59)
- 双击ctrl (55)
- 鼠标 单击变双击 (67)
- debugview (59)
- 字符动画 (65)
- flushdns (57)
- ps复制快捷键 (57)
- 清除系统垃圾代码 (58)
- web服务器的架设 (67)
- 16进制转换 (69)
- xclient (55)
- ps源文件 (67)
- filezilla server (59)
- 句柄无效 (56)
- word页眉页脚设置 (59)
- ansys实例 (56)
- 6 1 3固件 (59)
- sqlserver2000挂起 (59)
- vm虚拟主机 (55)
- config (61)
本文暂时没有评论,来添加一个吧(●'◡'●)