机器学习逻辑回归完成员工离职预测资源-CSDN文库

共3个文件

pdf：1个

ipynb：1个

csv：1个

机器学习

逻辑回归模型

数据分析

需积分: 5 9 浏览量 2025-01-15 00:03:07 上传评论收藏 946KB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

机器学习逻辑回归完成员工离职预测.zip （3个子文件）

机器学习逻辑回归完成员工离职预测

逻辑回归完成员工离职预测.ipynb 972KB

HR_comma_sep.csv 553KB

PART8.2【案例】使用逻辑回归完成员工离职预测.pdf 593KB

satisfaction_level last_evaluation number_project average_montly_hours time_spend_company Work_accident left

0 0.38 0.53 2 157 3 0 1

1 0.80 0.86 5 262 6 0 1

2 0.11 0.88 7 272 4 0 1

3 0.72 0.87 5 223 5 0 1

4 0.37 0.52 2 159 3 0 1

使用逻辑回归完成员工离职预测

该数据集来源于Kaggle竞赛平台，共计14999条样本和10个特征，本案例希望通过分析现有的员工离职数据，建立模型预测有可能离职的员

工。

内容概要

1 数据概览

2 数据预处理

3 数据探索及可视化

3.1 标签探索：员工离职状况概览

3.2 特征探索：员工对公司满意度与是否离职的关系

3.3 特征探索：最新考核评估与是否离职的关系

3.4 特征探索：参加项目数与是否离职的关系

3.5 特征探索：平均每月工作时长与是否离职的关系

3.6 特征探索：工作年限与是否离职的关系

3.7 特征探索：是否发生工作事故与是否离职的关系

3.8 特征探索：五年内是否晋升与是否离职的关系

3.9 特征探索：岗位与是否离职的关系

3.10 特征探索：薪资水平与是否离职的关系

4 特征工程&建立模型

4.1 编码：将文本型变量变为数值型

4.2 提取特征和标签并切分数据集

4.3 初步建模：建立benchmark

4.4 测试数据归一化对模型结果的影响

5 模型调优

1 数据概览



# 导入相应模块和包

import pandas as pd

import numpy as np

import matplotlib.pyplot as plt

plt.rcParams['font.sans-serif'] = ['Simhei']

plt.rcParams['axes.unicode_minus'] = False

# 导入原始数据

data = pd.read_csv("data/HR_comma_sep.csv")

data.head()

data.shape

(14999, 10)

data.info()

RangeIndex: 14999 entries, 0 to 14998

Data columns (total 10 columns):

#  Column         Non-Null Count Dtype 

--- ------         -------------- ----- 

0  satisfaction_level   14999 non-null float64

1  last_evaluation    14999 non-null float64

2  number_project     14999 non-null int64 

3  average_montly_hours  14999 non-null int64 

4  time_spend_company   14999 non-null int64 

5  Work_accident     14999 non-null int64 

6  left          14999 non-null int64 

count mean std min 25% 50% 75% max

satisfaction_level 14999.0 0.612834 0.248631 0.09 0.44 0.64 0.82 1.0

last_evaluation 14999.0 0.716102 0.171169 0.36 0.56 0.72 0.87 1.0

number_project 14999.0 3.803054 1.232592 2.00 3.00 4.00 5.00 7.0

average_montly_hours 14999.0 201.050337 49.943099 96.00 156.00 200.00 245.00 310.0

time_spend_company 14999.0 3.498233 1.460136 2.00 3.00 3.00 4.00 10.0

Work_accident 14999.0 0.144610 0.351719 0.00 0.00 0.00 0.00 1.0

left 14999.0 0.238083 0.425924 0.00 0.00 0.00 0.00 1.0

promotion_last_5years 14999.0 0.021268 0.144281 0.00 0.00 0.00 0.00 1.0

count unique top freq

sales 14999 10 sales 4140

salary 14999 3 low 7316



从简单描述统计结果中可以看出：

员工对公司满意度：范围[0.09,1]，中位数为0.64，平均值为0.61

最新考核评估：范围[0.36,1]，中位数为0.72，平均值为0.716

项目数：范围[2,7]，中位数为4，平均值为3.8

平均每月工作时长：范围[96,310]，中位数为200，平均值为201

工作年限：范围[2,10]，中位数为3，平均值为3.5

工作中出现工作事故的占比为14.5%

已经离职的占比为23.8%

在5年内晋升的占比为2.1%



员工岗位一共有10种，其中人数最多的岗位是销售，一共4140人

员工薪资水平一共有3个等级，其中最多的是低等水平，一共7316人

2 数据预处理



该数据并没有缺失值，因此不用处理缺失值。下面在看一下重复值的状况。

7  promotion_last_5years 14999 non-null int64 

8  sales         14999 non-null object

9  salary         14999 non-null object

dtypes: float64(2), int64(6), object(2)

memory usage: 1.1+ MB

# 简单描述统计(数值型特征)

data.describe().T

# 简单描述统计（文本型特征）

data.describe(include=['O']).T

data.isnull().sum()

satisfaction_level    0

last_evaluation     0

number_project      0

average_montly_hours   0

time_spend_company    0

Work_accident      0

left           0

promotion_last_5years  0

sales          0

salary          0

dtype: int64

# 查看重复值

data.duplicated().sum()

这里可以看到该数据集有3008条重复值，但是这个数据集中并没有员工ID这样的唯一标识字段，所以这里选择不处理重复值。

从箱型图结果中可以看出，除了工作年限之外，其他特征均无异常值。该异常值也反映了该公司基本上以年轻人为主，大部分是工作年限为

4年以内。

3 数据探索及可视化

3.1 标签探索：员工离职状况概览



3008

# 绘制箱型图，查看异常值状况

plt.figure(figsize=(15,3),dpi=100)

for i in range(5):

 plt.subplot(1,5,i+1)

 plt.boxplot(data.iloc[:,i])

 plt.xlabel(data.columns[i])

 plt.xticks([])

data["left"].value_counts()

0  11428

1   3571

Name: left, dtype: int64

data["left"].value_counts()/data.shape[0]

0  0.761917

1  0.238083

Name: left, dtype: float64

v1 = data["left"].value_counts()

# 绘制饼图：在职和离职员工占比

plt.figure(figsize=(6,6))   

plt.pie(v1               #饼图原始数据

   ,radius=1           #饼图半径

   ,autopct="%.2f%%"       #自动添加百分比显示，可以采用格式化的方法显示

   ,labels=["在职","离职"]     #为饼图添加标签说明，类似于图例说明

   ,labeldistance=1.1       #设置各扇形标签（图例）与圆心的距离

   ,pctdistance=0.8        #设置百分比标签与圆心的距离

   ,textprops={"fontsize":15}   #设置饼图中文本的属性，如字体大小、颜色等

   ,wedgeprops={"width":0.4}   #设置环的宽度

   );

3.2 特征探索：员工对公司满意度与是否离职的关系

从直方图分布来看，离职员工普遍对公司满意度不高（且很大一部分离职员工的满意度在最下限），而在职员工普遍对公司比较满意，满意

度普遍在0.5以上，这个也比较符合我们的常识：如果一个员工对公司满意度非常低，那么他离离职也不远了。

从箱型图上也可以看出，在职员工对公司满意度的中位数明显比离职员工多了一大截，另外离职人员中没有满意度为1的评价。

对公司满意度极低的离职员工有哪些共性？



# 绘制直方图和箱型图

import seaborn as sns

plt.figure(figsize=(10,8))

grid = plt.GridSpec(2, 2, wspace=0.2, hspace=0.3) # wspace表示左右子图间距，hspace表示上下子图间距

plt.subplot(grid[0, :])

sns.histplot(data=data, x="satisfaction_level", hue="left",kde=True)

plt.subplot(grid[1, 0])

sns.boxplot(data=data,y="satisfaction_level",color="#ff7675",width=0.3)

plt.subplot(grid[1, 1])

sns.boxplot(data=data,y="satisfaction_level",x="left",width=0.2);

data["satisfaction_level"].min()

0.09

data[data["satisfaction_level"]==0.09].describe().T

count mean std min 25% 50% 75% max

satisfaction_level 195.0 0.090000 9.739457e-17 0.09 0.09 0.09 0.090 0.09

last_evaluation 195.0 0.871538 7.078858e-02 0.62 0.82 0.87 0.935 0.98

number_project 195.0 6.179487 5.951607e-01 3.00 6.00 6.00 6.500 7.00

average_montly_hours 195.0 275.692308 2.031067e+01 214.00 257.50 275.00 294.000 310.00

time_spend_company 195.0 4.107692 3.980524e-01 2.00 4.00 4.00 4.000 5.00

Work_accident 195.0 0.020513 1.421113e-01 0.00 0.00 0.00 0.000 1.00

left 195.0 1.000000 0.000000e+00 1.00 1.00 1.00 1.000 1.00

promotion_last_5years 195.0 0.000000 0.000000e+00 0.00 0.00 0.00 0.000 0.00

count mean std min 25% 50% 75% max

satisfaction_level 26.0 0.120000 8.491573e-17 0.12 0.1200 0.12 0.1200 0.12

last_evaluation 26.0 0.670385 1.644258e-01 0.39 0.5575 0.63 0.8175 0.95

number_project 26.0 4.423077 1.205755e+00 2.00 3.2500 4.50 5.0000 6.00

average_montly_hours 26.0 225.576923 4.575340e+01 110.00 191.7500 238.50 257.7500 287.00

time_spend_company 26.0 4.269231 1.282426e+00 2.00 3.0000 4.00 5.0000 6.00

Work_accident 26.0 0.076923 2.717465e-01 0.00 0.0000 0.00 0.0000 1.00

left 26.0 0.000000 0.000000e+00 0.00 0.0000 0.00 0.0000 0.00

promotion_last_5years 26.0 0.000000 0.000000e+00 0.00 0.0000 0.00 0.0000 0.00

可以看出，对公司满意度极低的离职员工，普遍负责的项目数量比较多（6个左右），比全部员工的平均项目数多2个；这部分员工的每月工

作时长基本上在275分钟，这意味着每月22个工作日平均每个工作日他们工作了12.5个小时，存在着严重的加班现象；并且他们在工作任务

大、加班严重的情况下，最近5年内还没有晋升。现在，我们应该非常清楚这部分人对公司的满意度极低并且离职的原因了。

对公司满意度极低但是仍然在职的员工有哪些共性？

从上面的直方图中，我们发现有一部分在职员工对公司满意度也非常低，接下来我们一起探索一下，这部分员工有什么共性。



从对这部分员工的描述统计中可以看出，这部分员工也是5年内没有晋升，并且还有一半以上的人存在着加班严重的状况。

3.3 特征探索：最新考核评估与是否离职的关系

Ls = data.loc[(data["satisfaction_level"]<0.13)&(data["left"]==0),:]

Ls.describe().T

Ls["average_montly_hours"].plot(kind="box");

plt.figure(figsize=(10,8))

plt.subplot(211)

sns.histplot(data=data, x="last_evaluation", hue="left",kde=True)

plt.subplot(212)

sns.boxplot(data=data,y="last_evaluation",x="left",width=0.2);

评论收藏

内容反馈

Python数据分析与机器学习

粉丝: 169
资源: 13

机器学习逻辑回归完成员工离职预测

Python源码集锦-员工离职预测模型

员工离职预测模型.docx

员工离职预测，代码，提交结果，+报告

基于机器学习的IBM 员工流失率预测

机器学习模型.docx

数据_离职率预测数据_

基于Python实现 HR 分析（逻辑回归和基于树的机器学习）【500010104】

员工离职预测数据-数据集

员工离职数据-数据集

python离职预测模型.7z

数学建模数据集员工离职数据集

Python数据挖掘与机器学习实战 - 选题.docx

数据分析精华案例-员工流失建模与预测实例

人工智能与机器学习在HRIS中的应用.pptx

HR_analytis_logres:该项目旨在使用监督机器学习-Logistic回归（二进制分类）来预测公司的员工流失

职场-分析员工过早离职原因-约300行（相关性分析、变量分析、plotly可视化）.zip

Python数据分析与可视化项目职场类-分析员工过早离职原因-约300行（相关性分析、变量分析、plotly可视化）.zip

IBM员工离职数据集-数据集

Employee_Attrition_Prediction：机器学习项目

人力资源分析数据集.zip

人工智能课程体系及项目实战【精选】整理版.pdf

预测有价值员工的减员

人工智能课程体系及项目实战.docx

人工智能课程体系及项目实战.pdf

人工智能课程体系及项目实战 (2).docx

directory.csv Employee_monthly_salary.csv titanic_train.csv

落后生预警模型1

EDA探索式数据分析案例数据集

1988-2018年 中国家庭收入调查（CHIP）数据合集（数据整理）.zip

最新资源

1988-2018年中国家庭收入调查（CHIP）数据合集（数据整理）.zip