# Word2Vec-sentiment
## 基于Word2Vec+SVM对电商的评论数据进行情感分析
首先是利用word2vec对正负评论数据进行词向量训练,然后利用SVM分类器对语料进行分类,具体的过程如下:
### 第一步:加载数据、进行jieba分词、对数据进行随机切分,生成训练集和测试集(对应的代码部分为data_seal.py)
pos = pd.read_table('E:/NLP/chinese-w2v-sentiment/data/pos.csv',header=None,index_col=None)
neg = pd.read_table('E:/NLP/chinese-w2v-sentiment/data/neg.csv',header=None,index_col=None)
导入数据,然后利用jieba对数组进行分词,将分词结果与生成的相同维度的标签table数组进行合并,合并的方式有很多种:这里我用的是np.append(a,b,axis=0)
的方式。数据准备好了之后就是对数据进行切分,随机生成测试数据集和训练集,这里的比例test_size可以根据数据的实际大小进行设置,正常设置成0.2和0.3。
为了后面的运算方便,对切分的数据进行保存。分别为data文件下的x_train_data、x_test_data、y_train_data、y_test_data。
### 第二步:计算每段话的向量(代码对应的是word_vec.py和model.py)
通过遍历每句话中每个词的词向量,然后求均值,将均值表示为这一句话对应的向量,当然这里只是简单初级的处理,也可以参考doc2vec的方法对
句子进行向量化,但是工程应用上的效果不是特别好,大家也可尝试一下看看,这里毕竟只是初级的教程。
### 第三步:训练SVM模型(代码对应的是train_model.py)
### 第四步:对单个句子进行分类,情感判断(对应的代码为model_test.py)
程序员柳
- 粉丝: 8390
- 资源: 1469
最新资源
- 博途S7-1200主站与S7-200从站实现RS485通讯程序 S7-200可以当作一个仪表
- C#、C++分别开发的OPC DA CLIENT软件. 1、枚举服务器名称; 2、连接服务器以后枚举出TAG; 3、根据TAG名称自动读取服务器数据; 4、图片内有OPC SERVER和CLIENT实
- python-workspace.zip.005
- 龙门上下料样本程序,四轴 用台达AS228T和台达触摸屏编写 注意软件是用台达新款软件ISPSOFT ,借鉴价值高,程序有注释
- 一款window下的串口监视抓包工具
- 欧姆龙CP1H与3台力士乐VFC-x610变频器通讯程序 功能:原创程序,可直接用于现场程序 欧姆龙CP1H的CIF11通讯板,实现对3台力士乐VFC-x610变频器 设定频率,控制正反转,读取实际
- dp111113333
- CV-密集人群图像数据集(5800张图片).rar
- 福特汽车主观评价规范,性能开发参考,英文原版直译,评价条目、规则描述非常细致 包含平顺舒适性,转向,操稳,NVH,制动,加速感,驾驶性等等性能,并详细描述了评价的准备工作 评价条目细分至第四级,共
- 三菱FX3S两轴标准程序,XZ两轴,包含轴点动,回零,相对与绝对定位,只要弄明白这个程序,就可以非常了解整个项目的程序如何去编写,从哪里开始下手,可提供程序问题解答,程序流程清晰明了,注释完整
- MATLAB代码:考虑P2G与碳捕集机组的多能微网低碳经济调度 关键词:碳交易 阶梯碳交易 碳捕集 多能微网 低碳调度 仿真平台:MATLAB+yalmip+cplex 主要内容:代码主要做的是一个
- 本程序采用matlab编写,主要是实现电流注入型牛拉法 除此之外,本人还编写了很多种关于潮流计算的程序,主要有牛拉法,前推回代法,以还有相和三相潮流计算程序
- 智能门锁架构图,供大家参考
- 三菱FX3U六轴标准程序,程序包含本体3轴控制,扩展3个1PG定位模块,一共六轴 程序有轴点动控制,回零控制,相对定位,绝对定位 另有气缸数个,一个大是DD马达控制的转盘,整个是转盘多工位流水作业
- 批量登录到远程Linux服务器检查服务器时间差的shell
- MATLAB电动车七自由度整车模型 MATLAB Simulink电动车转弯制动abs模型asr转弯制动防抱死abs模型+模糊控制算法+七自由度整车模型+纵向运动+侧向运动+横摆运动+四轮魔术公式+四
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈