基于Tensorflow，仿Scikit-Learn设计的深度学习自然语言处理框架。资源-CSDN文库

共226个文件

py：162个

ipynb：54个

json：3个

版权申诉

36 浏览量 2024-05-08 21:26:12 上传评论收藏 1.64MB ZIP 举报

在自然语言处理（NLP）领域，深度学习已经成为主流技术，极大地推动了诸如文本分类、机器翻译、情感分析等任务的性能。TensorFlow 是 Google 推出的一个强大的开源库，用于构建和部署大规模机器学习模型，尤其是深度学习模型。而 Scikit-Learn 是一个广泛使用的轻量级机器学习库，以其简洁易用的 API 和丰富的算法库著称。本项目旨在结合这两者的优点，设计出一个基于 TensorFlow 的深度学习框架，模仿 Scikit-Learn 的接口，使得开发者能够更方便地进行 NLP 实践。这个框架的核心设计理念是“简单高效”。它借鉴了 Scikit-Learn 的“fit”、“predict”和“transform”等概念，使用户可以像使用传统机器学习模型一样，轻松地构建和训练深度学习模型。这样的设计降低了深度学习的使用门槛，使得非专业深度学习工程师也能快速上手。具体来说，该框架可能包含以下几个关键组件： 1. **数据预处理**：如同 Scikit-Learn 的 `TextVectorization` 类，提供预处理工具，如分词、词干提取、停用词移除等，以及针对 NLP 的特征编码（如词嵌入、TF-IDF）。 2. **模型构建**：设计类似于 Scikit-Learn 的 `Estimator` 模式，允许用户通过简单的配置参数选择不同的网络结构，如卷积神经网络（CNN）、循环神经网络（RNN）、长短期记忆网络（LSTM）或 Transformer 模型。 3. **模型训练**：提供类似 `fit` 函数，支持批量训练、验证集评估、早停策略等，同时可能集成优化器（如 Adam、SGD）、损失函数（如交叉熵、MSE）和学习率调度策略。 4. **模型评估与预测**：模仿 Scikit-Learn 的 `predict` 和 `score` 函数，方便评估模型性能和进行预测。 5. **模型保存与加载**：支持 TensorFlow 模型的保存和加载，便于模型复用和微调。 6. **可扩展性**：允许用户自定义层、损失函数、评价指标，以及实现自己的数据迭代器，满足个性化需求。 7. **文档与示例**：完善的文档说明和示例教程，帮助用户快速理解和应用该框架。这个框架的出现，对于想要利用深度学习提升 NLP 任务性能但对 TensorFlow 编程不熟悉的开发者来说，无疑是一大福音。通过简化 API，开发者可以将更多精力放在模型设计和业务逻辑上，而不是底层实现。这样的设计也鼓励了模块化和可复用性，促进了社区的交流和合作。

资源推荐

资源详情

资源评论

收起资源包目录

基于 Tensorflow，仿 Scikit-Learn 设计的深度学习自然语言处理框架。（226个子文件）

.gitignore 317B

AdaBERTClassifier.ipynb 62KB

VAELM.ipynb 58KB

BERTSeqCrossClassifier.ipynb 25KB

RoBERTaSeqClassifier.ipynb 23KB

BERTSeqClassifier.ipynb 23KB

ELECTRASeqClassifier.ipynb 23KB

SQPLM.ipynb 21KB

TinyBERTClassifier.ipynb 19KB

ALBERTSeqClassifier.ipynb 19KB

BERTCRFCascadeNER.ipynb 19KB

ELECTRALM.ipynb 17KB

RetroReaderMRC.ipynb 16KB

FastBERTClassifier.ipynb 16KB

RecBERT2LM.ipynb 16KB

UniLMPrompt.ipynb 16KB

RecBERT3LM.ipynb 16KB

TinyBERTBinaryClassifier.ipynb 15KB

BERTCRFNER.ipynb 13KB

BERTNER.ipynb 13KB

SANetMRC.ipynb 11KB

UniLM.ipynb 11KB

RecBERTLM.ipynb 11KB

BERTVerifierMRC.ipynb 11KB

UDAClassifier.ipynb 11KB

ALBERTLM.ipynb 11KB

RoBERTaMRC.ipynb 10KB

TransformerMT.ipynb 10KB

XLNetBinaryClassifier.ipynb 10KB

XLNetClassifier.ipynb 10KB

BERTLM.ipynb 10KB

BERTMRC.ipynb 10KB

RoBERTaBinaryClassifier.ipynb 10KB

BERTBinaryClassifier.ipynb 10KB

RoBERTaClassifier.ipynb 10KB

RoBERTaLM.ipynb 9KB

ELECTRAMRC.ipynb 9KB

BERTTmpBinaryClassifier.ipynb 9KB

ELECTRABinaryClassifier.ipynb 9KB

SemBERTClassifier.ipynb 9KB

MotianClassifier.ipynb 9KB

WideDeepClassifier.ipynb 9KB

BERTClassifier.ipynb 9KB

WideDeepRegressor.ipynb 9KB

ELECTRAClassifier.ipynb 9KB

BiRNNClassifier.ipynb 8KB

ALBERTMRC.ipynb 8KB

PerformerClassifier.ipynb 8KB

BERTRegressor.ipynb 8KB

ALBERTBinaryClassifier.ipynb 8KB

ALBERTClassifier.ipynb 8KB

PNasNetClassifier.ipynb 8KB

RNNClassifier.ipynb 7KB

GPT2LM.ipynb 7KB

TextCNNClassifier.ipynb 6KB

albert_config.json 546B

bert_config.json 520B

xlnet_config.json 176B

LICENSE 11KB

README.md 22KB

spiece.model 675KB

logo.png 488KB

framework.png 337KB

xlnet.py 57KB

albert.py 52KB

electra.py 45KB

motian.py 42KB

adabert.py 35KB

core.py 35KB

performer.py 34KB

bert.py 31KB

fastbert.py 23KB

nasnet.py 20KB

transformer.py 19KB

nasnet_utils.py 19KB

unilm_lm.py 16KB

sqp_lm.py 16KB

util.py 16KB

recbert2_lm.py 16KB

bert_lm.py 16KB

recbert2.py 15KB

train_adversarial.py 15KB

recbert3.py 15KB

bert_seq_cross_classifier.py 14KB

crf.py 14KB

recbert.py 14KB

recbert3_lm.py 14KB

albert_lm.py 13KB

bert_verifier_mrc.py 13KB

recbert_lm.py 13KB

retroreader_mrc.py 13KB

retroreader.py 13KB

uda_classifier.py 13KB

fastbert_classifier.py 13KB

unilm_prompt.py 12KB

bert_crf_cascade_ner.py 12KB

vae.py 11KB

electra_lm.py 11KB

_base_seq_classifier.py 11KB

_base_ner.py 11KB

共 226 条

<img src="./docs/pics/logo.png" style="zoom:74%"/> <a> <img src="https://img.shields.io/badge/build-passing-brightgreen"> </a> <a> <img src="https://img.shields.io/badge/version-v2.5.21-blue"> </a> <a> <img src="https://img.shields.io/badge/tensorflow-1.x\2.x-yellow"> </a> <a> <img src="https://img.shields.io/badge/license-Apache2.0-red"> </a> 兼容 Tensorflow1.x/2.x 的高层封装 (Transformer/GPT-2/BERT/ALBERT/UniLM/XLNet/ELECTRA 等)，使用简单的代码完成语言模型/文本分类/文本生成/命名实体识别/机器阅读理解/机器翻译/序列标注/知识蒸馏任务。适用于 NLP 从业者。 ### 特性 - 高效调用：三行代码完成训练及推理 - 高效运行：一行代码设置多进程/多 GPU 并行 - 品类丰富：支持 40+ 模型类 - 高分保证：提供对比学习、对抗式训练等多项训练技巧 - 可供部署：导出模型 PB 文件，供线上部署 ### 安装 ``` bash git clone https://github.com/geyingli/unif cd unif python3 setup.py install --user ``` 若需卸载，通过 `pip3 uninstall uf` 即可。 ### 快速上手 ``` python import uf # 建模 model = uf.BERTClassifier(config_file="./ref/bert_config.json", vocab_file="./ref/vocab.txt") # 定义训练样本 X, y = ["久旱逢甘露", "他乡遇故知"], [1, 0] # 训练 model.fit(X, y) # 推理 print(model.predict(X)) ``` ## 模型列表 | 领域 | API | 说明 | | :----------- | :----------- | :------------ | | 语言模型|[`BERTLM`](./examples/tutorial/BERTLM.ipynb) | 结合 MLM 和 NSP 任务，随机采样自下文及其他文档 | | |[`RoBERTaLM`](./examples/tutorial/RoBERTaLM.ipynb) | 仅 MLM 任务，采样至文档结束 | | |[`ALBERTLM`](./examples/tutorial/ALBERTLM.ipynb) | 结合 MLM 和 SOP，随机采样自上下文及其他文档 | | |[`ELECTRALM`](./examples/tutorial/ELECTRALM.ipynb) | 结合 MLM 和 RTD，生成器与判别器联合训练 | | |[`VAELM`](./examples/tutorial/VAELM.ipynb) | 可生成语言文本负样本，也可提取向量用于聚类 | | |[`GPT2LM`](./examples/tutorial/GPT2LM.ipynb) | 自回归式文本生成 | - | | |[`UniLM`](./examples/tutorial/UniLM.ipynb) | 结合双向、单向及 Seq2Seq 建模的全能语言模型 | | |[`UniLMPrompt`](./examples/tutorial/UniLMPrompt.ipynb) | 加入 prompt，进一步实现语言模型与下游任务的统一 | |文本分类 / 单label|[`TextCNNClassifier`](./examples/tutorial/TextCNNClassifier.ipynb) | 小而快 | || [`RNNClassifier`](./examples/tutorial/RNNClassifier.ipynb) | 经典 RNN/LSTM/GRU | || [`BiRNNClassifier`](./examples/tutorial/BiRNNClassifier.ipynb) | 双向获取更优表征 | || [`BERTClassifier`](./examples/tutorial/BERTClassifier.ipynb) | - | || [`XLNetClassifier`](./examples/tutorial/XLNetClassifier.ipynb) | - | || [`ALBERTClassifier`](./examples/tutorial/ALBERTClassifier.ipynb) | - | | |[`ELECTRAClassifier`](./examples/tutorial/ELECTRAClassifier.ipynb) | - | | |[`WideDeepClassifier`](./examples/tutorial/WideDeepClassifier.ipynb) | 通过 Wide & Deep 架构融合句子级别特征 | | |[`SemBERTClassifier`](./examples/tutorial/SemBERTClassifier.ipynb) | 通过 SemBERT 架构融合字级别的特征 | | |[`UDAClassifier`](./examples/tutorial/UDAClassifier.ipynb) | 结合一致性学习的半监督学习算法 | | |[`PerformerClassifier`](./examples/tutorial/PerformerClassifier.ipynb) | 基于正交随机向量快速计算 attention，实现加速 | |文本分类 / 多label| [`BERTBinaryClassifier`](./examples/tutorial/BERTBinaryClassifier.ipynb) | - | || [`XLNetBinaryClassifier`](./examples/tutorial/XLNetBinaryClassifier.ipynb) | - | | |[`ALBERTBinaryClassifier`](./examples/tutorial/ALBERTBinaryClassifier.ipynb) | - | | |[`ELECTRABinaryClassifier`](./examples/tutorial/ELECTRABinaryClassifier.ipynb) | - | | 回归| [`BERTRegressor`](./examples/tutorial/BERTRegressor.ipynb) | - | || [`WideDeepRegressor`](./examples/tutorial/WideDeepRegressor.ipynb) | 通过 Wide & Deep 架构融合句子级别特征 | |序列标注|[`BERTSeqClassifier`](./examples/tutorial/BERTSeqClassifier.ipynb) | - | || [`ALBERTSeqClassifier`](./examples/tutorial/ALBERTSeqClassifier.ipynb) | - | || [`ELECTRASeqClassifier`](./examples/tutorial/ELECTRASeqClassifier.ipynb) | - | || [`BERTSeqCrossClassifier`](./examples/tutorial/BERTSeqCrossClassifier.ipynb) | 序列标注与文本分类相结合的多任务学习 | | 命名实体识别|[`BERTNER`](./examples/tutorial/BERTNER.ipynb) | - | || [`BERTCRFNER`](./examples/tutorial/BERTCRFNER.ipynb) | 结合 CRF | || [`BERTCRFCascadeNER`](./examples/tutorial/BERTCRFCascadeNER.ipynb) | 实体识别与分类同时进行的级联架构 | |机器阅读理解| [`BERTMRC`](./examples/tutorial/BERTMRC.ipynb) | - | | |[`ALBERTMRC`](./examples/tutorial/ALBERTMRC.ipynb) | - | | |[`SANetMRC`](./examples/tutorial/SANetMRC.ipynb) | 引入 sentence attention | | |[`BERTVerifierMRC`](./examples/tutorial/BERTVerifierMRC.ipynb) | 抽取 answer span 的同时判断可答性 | | |[`RetroReaderMRC`](./examples/tutorial/RetroReaderMRC.ipynb) | 抽取 answer span 的同时判断可答性 | | 机器翻译| [`TransformerMT`](./examples/tutorial/TransformerMT.ipynb) | 共享词表，标准 Seq2Seq 架构 | - | | 模型蒸馏|[`TinyBERTClassifier`](./examples/tutorial/TinyBERTClassifier.ipynb) | 大幅压缩模型参数，提速十倍以上 | || [`TinyBERTBinaryClassifier`](./examples/tutorial/TinyBERTBinaryClassifier.ipynb) | - | || [`FastBERTClassifier`](./examples/tutorial/FastBERTClassifier.ipynb) | 动态推理，易分样本提前离开模型 | | 图像分类 / 单label | [`PNasNetClassifier`](./examples/tutorial/PNasNetClassifier.ipynb) | 基于 AutoML 搜索最佳网络结构 | ## 建模实际上建模所需的参数不在少数，因模型而异。为了简便起见，大多数设置了默认值。了解每一项参数的含义是十分有必要的。参数的命名与原论文保持一致，如果遇到不明白的参数，除了看源代码外，可以前往原论文寻找答案。以 `BERTClassifier` 为例，包含以下参数： ```python model = uf.BERTClassifier( config_file, # json格式的配置文件，通常可以在预训练参数包里找到 vocab_file, # 一行一个字/词的txt文件 max_seq_length=128, # 切词后的最大序列长度 label_size=2, # label取值数 init_checkpoint=None, # 预训练参数的路径或目录 output_dir="./output", # 输出文件导出目录 gpu_ids="0,1,3,5", # GPU代号 (为空代表不使用GPU; 如果使用的是Nvidia显卡，需要预先安装CUDA及cuDNN，而后可以通过`nvidia-smi`指令查看可用GPU代号) drop_pooler=False, # 建模时是否跳过 pooler 层 do_lower_case=True, # 英文是否进行小写处理 truncate_method="LIFO", # 输入超出`max_seq_length`时的截断方式 (LIFO:尾词先弃, FIFO:首词先弃, longer-FO:长文本先弃) ) ``` 模型使用完毕后，若需要清理内存，可以使用 `del model` 删除模型，或通过 `model.reset()` 对模型进行重置。 ## 训练同样，训练也包含一些可自行调节的参数，有些参数甚至十分关键： ``` python model.fit( X=X, # 输入列表 y=y, # 输出列表 sample_weight=None, # 样本权重列表，放空则默认每条样本权重为1.0 X_tokenized=None, # 输入列表 (已预先分词处理的`X`) batch_size=32, # 每训练一步使用多少数据 learning_rate=5e-05, # 学习率 target_steps=None, # 放空代表直接不间断地训练到`total_steps`；否则为训练停止的位置 total_s

评论收藏

内容反馈

版权申诉