别再死记硬背了！用Python手把手带你实现维特比算法（附完整代码与分词实战）-尧图企业网站定制

用Python实战维特比算法从动态规划到中文分词在自然语言处理领域分词是文本分析的第一步。想象一下当你拿到一串连续的中文字符经常有意见分歧时如何让计算机理解哪些字应该组合成词这就是我们今天要解决的核心问题。不同于传统的字典匹配方法我们将采用维特比算法——这个源自通信领域的动态规划方法能够优雅地解决中文分词中的最优路径问题。1. 动态规划与维特比算法基础维特比算法的本质是动态规划在序列问题中的应用。它通过逐步构建最优解避免了暴力搜索带来的计算爆炸问题。让我们用一个简单的例子理解其核心思想假设我们要从城市A到城市D中间经过B和C两个中转站各段路径的距离如下graph { A: {B1: 5, B2: 3}, B1: {C1: 6, C2: 2}, B2: {C1: 1, C2: 4}, C1: {D: 3}, C2: {D: 5} }传统方法会计算所有路径的组合A→B1→C1→D 563 14A→B1→C2→D 525 12A→B2→C1→D 313 7A→B2→C2→D 345 12维特比算法则采用更聪明的方式到达B1的最短路径A→B1 (5)到达B2的最短路径A→B2 (3)到达C1的最短路径min(56, 31) 4 (A→B2→C1)到达C2的最短路径min(52, 34) 7 (A→B1→C2)到达D的最短路径min(43, 75) 7 (A→B2→C1→D)关键优势每步只保留到达当前节点的最短路径大幅减少计算量。2. 中文分词的图表示将中文句子转化为有向无环图(DAG)是应用维特比算法的前提。对于句子经常有意见分歧我们需要构建词典[经常,有,意见,分歧]定义节点位置0 1 2 3 4 5 6 7 经常有意见分歧创建边表示可能的词语dag { 0: {0: (0, )}, 1: {0: (20, 经)}, 2: {0: (2.52, 经常), 1: (20, 常)}, 3: {2: (3.21, 有)}, 4: {3: (20, 意)}, 5: {2: (6.21, 有意见), 3: (2.52, 意见), 4: (5.30, 见)}, 6: {5: (3.9, 分)}, 7: {5: (3.21, 分歧), 6: (5.29, 歧)} }其中边的权重采用负对数概率P(经常)0.08 → -log(0.08)≈2.52不在词典中的单字默认权重203. Python实现维特比算法现在让我们用Python实现完整的维特比分词器import math from collections import OrderedDict class ViterbiSegmenter: def __init__(self, word_dict, word_prob): self.word_dict word_dict self.word_prob word_prob # 转换为负对数概率 self.neg_log_prob {w: -math.log(p) for w, p in word_prob.items()} self.default_cost 20 # 默认词代价 def build_dag(self, sentence): 构建有向无环图 dag {} length len(sentence) # 初始化节点 for i in range(length 1): dag[i] {} # 添加边 for start in range(length): for end in range(start 1, length 1): word sentence[start:end] if word in self.word_dict: cost self.neg_log_prob.get(word, self.default_cost) dag[end][start] (cost, word) elif end start 1: # 单字 dag[end][start] (self.default_cost, word) return dag def viterbi(self, dag): 维特比算法求解最短路径 f OrderedDict() # 保存各节点的最优路径 f[0] (0, 0) # (累计代价, 前驱节点) # 前向传播计算最优路径 for node in dag: if node 0: continue # 找出到当前节点的最优前驱 min_cost float(inf) best_prev None for prev_node in dag[node]: cost, word dag[node][prev_node] total_cost cost f[prev_node][0] if total_cost min_cost: min_cost total_cost best_prev prev_node f[node] (min_cost, best_prev) # 回溯找出最优路径 path [] end_node len(dag) - 1 while end_node 0: prev_node f[end_node][1] word dag[end_node][prev_node][1] path.append(word) end_node prev_node path.reverse() return path def segment(self, sentence): dag self.build_dag(sentence) return self.viterbi(dag) # 使用示例 if __name__ __main__: word_dict [经常, 有, 意见, 分歧] word_prob { 经常: 0.08, 有: 0.04, 意见: 0.08, 分歧: 0.04 } segmenter ViterbiSegmenter(word_dict, word_prob) result segmenter.segment(经常有意见分歧) print(分词结果:, /.join(result))执行结果分词结果: 经常/有/意见/分歧4. 算法优化与扩展基础实现虽然能工作但在实际应用中还需要考虑以下优化1. 概率平滑处理添加一元语法和二元语法概率使用回退平滑处理OOV(未登录词)def get_word_prob(word, prev_wordNone): # 实现回退平滑 if prev_word: bigram f{prev_word} {word} if bigram in bigram_prob: return bigram_prob[bigram] return unigram_prob.get(word, default_prob)2. 性能优化技巧使用堆结构加速最小查找实现剪枝策略提前丢弃低概率路径采用对数空间计算避免浮点下溢# 剪枝示例 if current_cost threshold * best_cost: continue # 跳过该路径3. 多维度特征融合除了词频加入词性、语义等特征使用机器学习模型预测转移概率# 特征工程示例 features { word_freq: log_prob, pos_match: current_pos next_pos, word_length: len(word) }4. 实时分词与增量处理实现流式处理适用于长文本支持中途修正和交互式分词实际工程中优秀的开源分词工具如Jieba、HanLP等都采用了类似的动态规划思想但加入了更多语言特征和优化策略。5. 从分词到序列标注维特比算法的应用不仅限于分词它还是序列标注任务如词性标注、命名实体识别的核心算法。只需将词替换为标签同样的框架就能适用# 词性标注示例 states [NN, VB, JJ] # 词性标签集 transitions { NN: {NN: 0.1, VB: 0.3, JJ: 0.6}, # 其他转移概率... } emissions { NN: {苹果: 0.8, 吃: 0.1, 红: 0.1}, # 其他发射概率... } def viterbi_pos_tagging(sentence): # 实现类似分词的维特比算法 pass这种统一框架使得我们可以用相似的代码解决多种NLP问题这正是动态规划的魅力所在。

相关新闻

【紧急更新】Claude v3.5上线五力压力测试模块：一键生成“最脆弱竞争力断点”TOP3（今日起开放白名单申请）

收藏！AI时代，别做“工具人”！小白程序员如何升级，在AI浪潮中站稳脚跟？

告别光驱！实战分享：在无外置光驱的服务器上部署ESXi 7.0的三种方法（U盘/iLO/iDRAC）

别再只懂LSH了：手把手拆解跨模态哈希中的矩阵分解与离散优化（附Python示例）

软件开发搞清楚这些避免踩坑！！！

用PHP生成AI图片—集成Stable Diffusion的奇技淫巧

第T9周：猫狗识别2

Hotkey Detective：3分钟精准定位Windows热键冲突的终极方案

工业防爆监控技术解析与山东区域选型实践

如何快速下载百度文库等30+平台文档：终极免费文档获取指南

手把手教你用MMDetection 3.x复现EfficientDet的BiFPN模块（附代码逐行解析）

CSS3从零基础到精通（四）：终章大项目——纯CSS构建企业品牌展示网站

为什么你的AI Agent总在跨境清关环节“失语”？揭秘NLP+规则引擎混合推理的5个关键断点

【AI Agent行业落地黄金法则】：20年架构师亲授7大避坑指南与3个已验证千万级ROI场景

镜像视界浙江科技有限公司｜数字孪生・视频孪生・无感定位・跨镜追踪 技术地位与核心优势

从stress到stress-ng：一文搞懂Linux压力测试工具怎么选？实战对比CPU/内存/磁盘压测效果

从TTL到eDP：嵌入式工程师选屏接口的实战避坑指南（附信号实测对比）

实测 Taotoken 多模型路由的响应延迟与稳定性体感

镜像视界浙江科技有限公司｜数字孪生・视频孪生・无感定位・跨镜追踪技术地位与核心优势