### 十三、Logistic回归模型
#### 一、模型简介
Logistic回归是一种用于处理二分类响应变量的统计分析方法。它适用于多种场景,比如医学领域的疾病预测、市场研究中的消费者行为分析等。
##### 1. 特点
- **反应变量**: 通常是二分类变量或某事件的发生率。
- **自变量与logit(P)之间的线性关系**: 在Logistic回归中,我们通过logit函数建立自变量与概率的对数比之间的线性关系。
- **残差分布**: Logit回归的残差服从二项分布而非正态分布。
- **观测独立性**: 观测值之间相互独立。
##### 2. 应用范围
- **流行病学**: 如研究疾病的危险因素。
- **临床研究**: 分析治疗效果与各种因素的关系。
- **公共卫生**: 探讨是否就医与个人属性之间的关联。
#### 二、非条件Logistic回归模型
非条件Logistic回归模型是Logistic回归的一种常见形式,主要用于处理独立观测的数据。
##### 1. 参数估计方法
- **最大似然法**: 用于估计模型参数。
- **似然比检验**: 评估模型的整体拟合度。
##### 2. 实例分析
- **例1**: 研究病人的年龄、性别、心电图检验结果与冠心病的关系。
- **变量编码**:
- 年龄(age): 连续变量。
- 性别(sex): 0为女性,1为男性。
- 心电图(ecg): 0为正常,1为轻度异常,2为重度异常。
- 冠心病(ca): 目标变量。
- **结果解读**:
- **似然值(-2log)**: 用来评估模型的拟合度。
- **伪决定系数**: 评估模型解释能力的指标。
- **偏回归系数**: 包括系数的估计值、标准误、显著性检验(p值)以及优势比(OR)。
#### 三、哑变量设置
当自变量为多分类变量时,需要通过设置哑变量(dummy variable)来进行分析。
##### 1. 哑变量的作用
- 表示多分类变量的不同水平。
- 使模型能够区分不同类别之间的差异。
##### 2. 设置方法
- **例2**: 分析低出生体重婴儿的影响因素。
- **变量**:
- 是否娩出低出生体重儿(Low): 1为低出生体重儿,0为非低出生体重儿。
- 其他自变量: 妊娠前体重、年龄、种族、是否吸烟等。
- **种族哑变量设置**:
- 设置不同种族的哑变量。
- 选择合适的参照水平(如白人作为参照组)。
##### 3. 结果分析
- **哑变量的设置情况**: 显示不同种族的风险差异。
- **风险评估**: 黑人婴儿低出生体重的风险较高。
#### 四、自变量筛选方法
自变量的选择对于构建有效的Logistic回归模型至关重要。
##### 1. 逐步回归
逐步回归是一种常用的变量筛选方法,可以帮助我们识别出对模型贡献最大的变量。
##### 2. 模型拟合效果与拟合优度检验
- **AIC/BIC**: 用于比较不同模型。
- **Hosmer-Lemeshow检验**: 评估模型的拟合优度。
#### 五、模型诊断与修正
在构建Logistic回归模型后,还需要对其进行诊断以确保模型的有效性和可靠性。
##### 1. 残差分析
检查残差以识别潜在的问题点。
##### 2. 异常值检测
- **Cook’s D**: 用于识别异常值。
- **DFBETAS**: 评估单个观测值对系数估计的影响。
#### 六、条件Logistic回归
条件Logistic回归适用于配对或分层数据的情况。
##### 1. 适用场景
- **配对数据**: 每个个体都有一个对照。
- **分层数据**: 数据被分成不同的层次或组别。
##### 2. 优点
- 能够有效处理配对或分层数据。
- 控制混杂变量的效果更好。
#### 七、总结
Logistic回归模型是一种强大的工具,可以应用于各种二分类问题的研究中。正确地设置模型、筛选自变量、进行模型诊断是确保分析结果可靠性的关键步骤。通过对实际案例的学习和实践,可以更好地理解和应用这些统计技术。