中文短信数据集-带标签

preview
共5个文件
txt:2个
csv:2个
py:1个
需积分: 0 396 下载量 24 浏览量 更新于2024-02-05 3 收藏 40.89MB RAR 举报
本数据集可用于进行文本分类、信息检索等自然语言处理实验,共包含80万条短信。其中:原始数据集data.txt每行为1条短信,格式为“标签\t短信内容”,标签=0表示正常短信,标签=1表示垃圾短信。train.csv和test.csv为拆分后的训练集与测试集,拆分代码为train_test_split.py。stopwords.txt为使用的停用词。 基于该数据集的文本分类详见文章https://blog.csdn.net/baidu_40395808/article/details/135793836,基于该数据集的信息检索详见文章https://blog.csdn.net/baidu_40395808/article/details/135897480。 示例如下: 0 商业秘密的秘密性那是维系其商业价值和垄断地位的前提条件之一 1 《依林美容》三.八.女人节倾情大放送活动开始啦!!!!超值套餐等你拿,活动时间x月x日一x月xx日, 详情进店咨询。美丽热线x
fufufunny
  • 粉丝: 512
  • 资源: 7
上传资源 快速赚钱
voice
center-task 前往需求广场,查看用户热搜

最新资源