nlp隐马尔可夫分词python程序_隐马尔可夫假设资源-CSDN文库

共3个文件

py：2个

txt_utf8：1个

自然语言处理

python

人工智能

nlp

开发语言

需积分: 5 81 浏览量 2022-03-05 21:33:40 上传评论收藏 4.52MB RAR 举报

自然语言处理（NLP）是计算机科学领域的一个重要分支，主要关注如何使计算机理解、解析、生成人类自然语言。在NLP中，分词是一项基础任务，它涉及到将连续的文本序列分割成有意义的词汇单元，如单词或短语。在中文文本处理中，由于汉字的连写特性，分词尤为复杂。隐马尔可夫模型（Hidden Markov Model，HMM）是一种常用的统计建模方法，在NLP分词中有着广泛的应用。 Python作为一种强大的开发语言，因其简洁的语法和丰富的库支持，成为了NLP研究和开发的首选工具。在Python中实现HMM分词，我们可以利用像`nltk`（自然语言工具包）或`jieba`这样的库。不过，`jieba`库虽然内置了基于HMM的分词算法，但如果我们想要深入理解HMM并自定义实现，就需要自己编写代码。 HMM的基本思想是假设观察序列是由一个不可见的状态序列生成的，而状态之间的转移和观察状态的生成都遵循一定的概率分布。在分词任务中，每个状态可以看作是一个词汇，观察序列是输入的未分词文本，我们的目标是找到最可能的状态序列，也就是最合理的分词结果。实现HMM分词涉及以下几个关键步骤： 1. **初始化模型**：确定初始状态概率分布和状态转移概率矩阵。这通常可以通过统计大量已标注的语料库来完成。 2. **训练模型**：使用Baum-Welch算法或前向-后向算法更新模型参数，以优化状态概率分布和状态转移概率。 3. **Viterbi解码**：在测试阶段，通过Viterbi算法找到给定观测序列下最有可能的状态序列，从而得到最佳分词结果。 4. **评估与优化**：使用诸如准确率、召回率和F1值等指标评估分词效果，并根据评估结果调整模型参数或改进算法。 Python中，我们可以使用`numpy`进行数值计算，`pandas`处理数据，以及`collections`模块进行频率统计。此外，`scipy`库中的`linalg`模块可以帮助我们解决线性代数问题，对于更复杂的HMM实现，可能还需要引入`numba`或`cython`进行性能优化。在实际应用中，我们不仅限于基本的HMM模型，还可以结合其他技术，如条件随机场（CRF）、深度学习模型（如LSTM或Transformer）来提升分词效果。这些模型在处理上下文信息和长距离依赖时表现更优。 "nlp 隐马尔可夫分词 python 程序"这一主题涵盖了自然语言处理的基础任务——分词，以及利用Python实现这一任务的关键技术——隐马尔可夫模型。通过深入学习和实践，我们可以构建出高效且准确的分词系统，为后续的NLP任务打下坚实的基础。

资源详情

资源评论

资源推荐

收起资源包目录

hmm.rar （3个子文件）

hmm

trainCorpus.txt_utf8 16.62MB

hmm_segment.py 6KB

hmm_test.py 6KB

from hmm_segment import HMM import pickle def train(hmm, path): # 观察者集合，主要是字以及标点等 words = set() line_num = -1 with open(path, encoding='utf8') as f: for line in f: line_num += 1 line = line.strip() if not line: continue # 获取每一行的字并更新字的集合 word_list = [i for i in line if i != ' '] words |= set(word_list) # 每一行按照空格切分，分词的结果 line_list = line.split() line_state = [] for w in line_list: line_state.extend(hmm.make_label(w)) assert len(word_list) == len(line_state) # ['B', 'M', 'M', 'M', 'E', 'S'] for k, v in enumerate(line_state): hmm.Count_dic[v] += 1 # 统计状态出现的次数 if k == 0: hmm.Pi_dic[v] += 1 # 每个句子的第一个字的状态，用于计算初始状态概率 else: # {'B': {'B': 0.0, 'M': 0.0, 'E': 0.0, 'S': 0.0}, ...} # A矩阵更新：第二个状态"M", 获取前一个状态"B", B -> M :加一 # {'B': {'B': 0.0, 'M': 1.0, 'E': 0.0, 'S': 0.0}, ...} hmm.A_dic[line_state[k - 1]][v] += 1 # 计算转移概率 # {'B': {}, 'M': {}, 'E': {}, 'S': {}} # ['１', '９', '８', '６', '年', '，'] # {'B': {}, 'M': {'９': 1.0}, 'E': {}, 'S': {}} hmm.B_dic[line_state[k]][word_list[k]] = hmm.B_dic[line_state[k]].get(word_list[k], 0) + 1.0 # 计算发射概率 hmm.line_num = line_num calculate_probability(hmm) def calculate_probability(hmm): # A_dic # {'B': {'B': 0.0, 'M': 162066.0, 'E': 1226466.0, 'S': 0.0}, # 'M': {'B': 0.0, 'M': 62332.0, 'E': 162066.0, 'S': 0.0}, # 'E': {'B': 651128.0, 'M': 0.0, 'E': 0.0, 'S': 737404.0}, # 'S': {'B': 563988.0, 'M': 0.0, 'E': 0.0, 'S': 747969.0} # } # B_dic # {'B': {'中': 12812.0, '儿': 464.0, '踏': 62.0}, # 'M': {'中': 12812.0, '儿': 464.0, '踏': 62.0}, # 'E': {'中': 12812.0, '儿': 464.0, '踏': 62.0}, # 'S': {'中': 12812.0, '儿': 464.0, '踏': 62.0}, # } # Count_dic: {'B': 1388532, 'M': 224398, 'E': 1388532, 'S': 1609916} # 求概率，句首状态概率 hmm.Pi_dic = {k: v * 1.0 / hmm.line_num for k, v in hmm.Pi_dic.items()} # 求概率，转移状态概率 hmm.A_dic = {k: {k1: v1 / hmm.Count_dic[k] for k1, v1 in v.items()} for k, v in hmm.A_dic.items()} # 加1平滑 hmm.B_dic = {k: {k1: (v1 + 1) / hmm.Count_dic[k] for k1, v1 in v.items()} for k, v in hmm.B_dic.items()} with open(hmm.model_file, 'wb') as f: pickle.dump(hmm.A_dic, f) pickle.dump(hmm.B_dic, f) pickle.dump(hmm.Pi_dic, f) def viterbi(text, states, Pi_dic, A_dic, B_dic): V = [{}] path = {} """ P = p(y1)p(x1|y1) 连乘 p(yi|yi-1)p(xi|yi) """ # text: 这是一个非常棒的方案！ # 获取起始概率 # V： [{'B': 0.003291232115235236, 'M': 0.0, 'E': 0.0, 'S': 0.0012044407157278893}] # path: {'B': ['B'], 'M': ['M'], 'E': ['E'], 'S': ['S']} for y in states: # V[0][B] = p(y1) * p(x1|y1) V[0][y] = Pi_dic[y] * B_dic[y].get(text[0], 0) path[y] = [y] # print(path) for t in range(1, len(text)): V.append({}) new_path = {} # 检验训练的发射概率矩阵中是否有该字 neverSeen = text[t] not in B_dic['S'].keys() and text[t] not in B_dic['M'].keys() and \ text[t] not in B_dic['E'].keys() and text[t] not in B_dic['B'].keys() # states: ['B', 'M', 'E', 'S'] for y in states: # P = p(yi|yi-1)p(xi|yi) # p(xi|yi): 从 “B” 中找 “爱” 的概率 emitP = B_dic[y].get(text[t], 0) if not neverSeen else 1.0 # 设置未知字单独成词 # V[t - 1][y0]：前一个状态的结果 * p(yi|yi-1) * p(xi|yi) prob, state = max([(V[t - 1][y0] * A_dic[y0].get(y, 0) * emitP, y0) for y0 in states if V[t - 1][y0] > 0]) temp = [] for y0 in states: if V[t - 1][y0] > 0: # print(A_dic[y0].get(y, 0)) temp.append((V[t - 1][y0] * A_dic[y0].get(y, 0) * emitP, y0)) # print(temp) # print(max(temp)) # print((prob, state)) # [(), (), (), ()] V[t][y] = prob new_path[y] = path[state] + [y] # print(new_path) # break path = new_path # V: V[i] 到第 i 个字的最大概率 # [{'B': 0, 'M': 0, 'E': 0, 'S': 0}, 这 # {'B': 0, 'M': 0, 'E': 0, 'S': 0}, 是 # {'B': 0, 'M': 0, 'E': 0, 'S': 0}, 一 # {'B': 0, 'M': 0, 'E': 0, 'S': 0} 个 # ] # print(V) # print(path) # [{'B': 0.003291232115235236, 'M': 0.0, 'E': 0.0, 'S': 0.0012044407157278893}, # [{'B': 1.3735188283184088e-07, 'M': 1.2667977122628068e-07, # 'E': 1.4243040542188446e-05, 'S': 7.866572112633136e-06}] # {'B': ['S', 'B'], 'M': ['B', 'M'], 'E': ['B', 'E'], 'S': ['S', 'S']} # break # 现在判断最后一个时刻应该选哪个 # 如果最后一个字在词中的概率大于是独立的概率（判断是不是标点符号吧？i guess） # 则直接让其在词中或者词尾中比较 # 直接比较存在v[上一个时刻][这个时刻的四个状态]谁比较大就可以了 if B_dic['M'].get(text[-1], 0) > B_dic['S'].get(text[-1], 0): prob, state = max([(V[len(text) - 1][y], y) for y in ('E', 'M')]) else: prob, state = max([(V[len(text) - 1][y], y) for y in states]) print(V) print(path) return prob, path[state] if __name__ == '__main__': hmm = HMM() hmm.try_load_model(True) # 初始化状态转移矩阵 hmm.init_parameters() train(hmm, './data/trainCorpus.txt_utf8') # print(hmm.A_dic) # print(hmm.Pi_dic) text = '这是一个' viterbi(text, hmm.state_list, hmm.Pi_dic, hmm.A_dic, hmm.B_dic) # res = hmm.cut(text) # print(text) # print(str(list(res)))