独立研究者开发的土耳其语“形态大脑“

独立研究者开发的土耳其语“形态大脑“ 这项由独立研究者完成的研究以预印本形式发布于2026年6月17日论文编号为arXiv:2606.18717有兴趣深入了解的读者可以通过该编号在arXiv平台查询完整论文。土耳其语有一种神奇的积木特性。一个最基本的词根可以通过不断往后面粘贴小模块语言学家叫它词缀或语素最终变成一个信息量超级丰富的长词。以ev房子这个简单的词根为例经过一系列拼接之后它可以变成evlerimizdekiler意思是在我们房子里的那些人。一个词根几十上百种变形每一种都携带着精确的含义。正是这种特性让土耳其语的计算机处理面临一个棘手的困境。现代语言模型就是驱动ChatGPT这类AI的底层技术在处理文字之前需要先把文字切割成小块这个过程叫做分词。目前最主流的分词方式是根据词语在大量文字中出现的频率来决定怎么切割这就像是一个完全不懂中文的外国人通过统计哪些汉字经常连在一起出现来决定词语的边界——他可能正好切对了但更多时候会切出一些莫名其妙的结果。对土耳其语来说这种频率驱动的切割方式造成了两个具体的麻烦。第一现有的一些分词工具在把切割结果还原成原始文字时会发生信息损失。比如有一种叫WordPiece的工具它会悄悄删掉土耳其语特有的字符比如csg这类带有特殊符号的字母还有一种规则驱动的TurkishTokenizer则会把词语改写成一种标准化的形式导致还原后的文字跟原来不一样。在一个需要生成文字的AI里分词工具输出的每一个小块最终都必须被还原成真实文字一旦还原失败AI输出的内容就会悄悄出错而且这种错误极难察觉。第二语义明确的词缀被随意切断一个词被分成了过多的碎片导致计算机需要处理更长的序列消耗更多的计算资源和内存。另一方面处理词语含义理解的技术也面临类似的困境。现有的系统比如BERTurk这类大型语言模型能够产生不错的词语表示也叫词向量可以理解为用一串数字来代表一个词的含义但这些系统体型庞大超过1.1亿个参数而且依赖于它们自己的那套存在问题的分词体系并不能从结构上理解词根与词缀之间的关系。更根本的问题在于分词和词义理解目前是两个完全分离的系统一个负责切割文字一个负责理解含义二者各干各的。这篇论文的核心目标就是为土耳其语打造一个叫做Morpheus的神经网络模型让它同时承担这两个角色——既是一个忠实还原原始文字的分词工具又是一个能产生有意义词向量的词语表示模型。接下来我们就来看看它是怎么做到的。一、分词这件事为什么忠实还原比什么都重要要理解为什么能还原回原文这件事如此关键可以用一个日常生活中的类比来体会。假设你把一句话翻译成摩尔斯电码然后再翻译回来如果翻译回来的内容跟原来一模一样这个过程就是可逆的如果回来的内容少了几个字或者改了几个字那这个翻译过程就是有损的。对于生成型AI来说它在生成文字时的过程是这样的先产生一系列代表词块的数字编号然后把这些编号还原成文字显示给用户看。如果这个还原过程是有损的那AI生成的文字就会悄悄出现错误而用户和AI本身都很难发现这种错误。研究者对30,204个土耳其语变形词进行了测试看看各种分词工具能不能把切割后的结果完整还原成原始词语。结果显示Morpheus以及常见的BPE、字节级BPE和Unigram这几种工具都能100%地还原原始词语。然而WordPiece只能还原58.2%因为它在处理过程中把土耳其语特有的字符都剥掉了。TurkishTokenizer能还原95.4%但失败的那4.6%背后有一个系统性的问题它会把词语改写成标准发音形式举个具体例子saatlerde在各小时里会被它改写成saat | lar | da还原后变成了saatlarda这是一个在土耳其语里根本不存在的词。这就好比一个文字转换工具把颜色改写成了颜彩字面上看起来差不多但实际上已经是另一个词了。这个能不能还原的测试就像一道入场门槛。只有能100%还原原始文字的工具才有资格参与后续的比较——因为只有它们才能安全地用在需要生成文字的AI系统中。二、模型的内部构造一套积木式的字符处理流水线Morpheus的工作原理可以用流水线加工来理解。一个词语进入模型后会经历三个依次衔接的处理阶段最终输出两样东西词语被切割成语素的方案以及代表这个词语含义的一串数字即词向量。第一个阶段是字符编码。模型把词语里的每一个字符都转换成一个带有上下文信息的数字向量。在这个阶段模型还专门处理了大小写信息因为土耳其语的大小写规则比较特殊比如大写I对应小写i大写I对应小写?。为了捕捉字符之间的局部组合规律模型使用了一种能同时看2到6个连续字符的多尺度卷积可以理解为用不同大小的窗口扫描词语。接着3层自注意力机制一种能让字符之间互相参考彼此信息的技术让每个字符的表示变得更加丰富和有上下文感。关键在于这个编码阶段特别引入了一种叫做旋转位置嵌入RoPE的技术。为什么需要这个因为土耳其语词缀的含义取决于它在词语中的相对位置而不是绝对位置。在evlerimizdekiler里-ler在词根后第一个位置表示复数-imiz在第二个位置表示我们的-de在第三个位置表示在……里。旋转位置嵌入让模型能直接感知字符之间的相对距离使它学到的规律比如距离上一个边界两个字符处能在不同长度的词根上通用。第二个阶段是边界检测。基于第一阶段产生的字符向量4层带有旋转位置嵌入的自注意力层再加上一个评分机制为词语中每相邻两个字符之间的间隙计算出一个0到1之间的概率值——这个值代表这里是一个语素边界的可能性有多大。所有这些概率值组合在一起就构成了模型对哪里该切的判断。第三个阶段是最巧妙的部分可微分的泊松二项式动态规划。这是整个模型的数学核心也是解决如何在训练时让梯度信号顺畅流通这一难题的关键。三、数学魔法让切割变得可以学习训练一个神经网络本质上是不断调整它内部的参数让它的输出越来越好。这个调整过程依赖于梯度——一种衡量如果改变某个参数输出会怎么变的信号。问题在于切割这个动作本身是不连续的一个词要么在这里切要么不切没有中间状态。不连续的操作会阻断梯度信号的传递就像一条河流突然遇到了断崖水流无法继续流下去。泊松二项式动态规划巧妙地解决了这个问题。它的核心思想是在训练期间不做切还是不切的硬性决定而是计算每个字符软性地属于第几个语素的概率分布。具体来说假设词语里有若干个可能是边界的位置每个位置都有一个概率值。泊松二项式分布能精确计算在某个字符之前恰好有k个边界出现的概率。这样每个字符就拥有了一个概率分布它有多大概率属于第1个语素、多大概率属于第2个语素以此类推。这个分布用一个矩阵来表示矩阵里的每一行对应一个字符加起来等于1。这套设计有三个绝妙的特性。首先它是完全可微分的梯度信号可以顺畅地从词义学习目标流回到边界检测器让边界的划定既受到语素标注数据的指导也受到产生好的词向量这一目标的塑造。其次它具备软硬双态在训练期间矩阵里的值是连续的概率分布在推理阶段只需把模型设置为推理模式每一行就自动变成了一个确定的选择属于哪个语素切割结果变得完全确定不需要任何额外的结构变化。第三也是最重要的一点这套操作只是在对字符进行分组从不插入、删除或改写任何字符。因此把分好的组重新拼接起来必然能得到原始词语忠实还原的保证由数学结构本身确保而不依赖任何额外规则。这个矩阵不仅用于确定切割位置还直接用于生成词向量每个语素的向量是它所包含的字符向量的加权平均权重由矩阵中的概率值决定最终的词向量是所有语素向量的均值再经过一个小型前馈网络处理后得到的。这就是为什么说分词和词向量是同一次计算的两个产出——它们共享同一套内部表示。四、怎么教会模型四种学习信号的协同作用Morpheus的训练数据来自一个规模约10GB的土耳其语语料库涵盖了四种不同风格的文字来源Eksisozlük类似论坛的非正式口语风格、Dergipark学术期刊文章、土耳其新闻网站标准新闻文体以及土耳其语维基百科百科全书式的宽泛词汇。多样化的来源是为了让模型见识到土耳其语在不同语境下的各种词法构造。模型的学习过程由四种信号共同驱动这四种信号既有监督学习的成分也有自监督学习的成分。第一种是边界教师信号。研究者使用了一种叫Morfessor的无监督语素切割工具让它先对训练语料里的词语进行切割产生参考答案。模型需要学会让自己的边界预测结果尽量接近Morfessor给出的答案。不过Morfessor有时候会把词根切碎所以研究者还额外构建了一个词根词典当词典确认一个词的词根时就把词根内部那些多余的边界从参考答案里删掉。这个修正操作只影响训练标签绝不改写字符本身。这种信号的权重在训练初期占主导地位权重0.50随着训练推进它的比重按照一个固定曲线缓慢下降到0.08把主导权逐渐让给后面几种信号——这是一种先由老师带着学再靠自己悟的课程式训练策略。第二种是跳字模型信号。这来自经典的词向量训练方法——如果两个词经常出现在彼此附近的文字中它们的词向量就应该彼此靠近。这种信号让模型学会语义相似的词在向量空间中距离相近。第三种是词根对比学习信号。这是让Morpheus在词向量质量上脱颖而出的关键设计。训练时模型被要求把同一个词根的所有变形词比如kitap、kitaplar、kitab?m?z都含有词根kitap表示书的向量在高维空间里聚拢到一起同时把不同词根的词语向量推开。这种方式让词向量的几何结构直接反映词根关系而不仅仅是语义相似度。第四种是字符级掩码语言模型信号。随机选取句子中20%的词语把它们遮住然后让模型逐字符地重建这些词语。这种训练方式强迫模型形成对词语内部字符结构的深刻理解。五、分词效果在忠实还原的前提下形态对齐最强在形态对齐方面Morpheus和TurkishTokenizer都远超频率驱动的分词工具但两者的本质差异在于TurkishTokenizer通过改写词语表面形式来实现对齐而Morpheus完全不改写任何字符。研究者用UD Turkish-Kenet数据集包含真实土耳其语语素标注的语言学数据集来测量各工具切割结果与真实语素的吻合程度这个指标叫做MorphScore用F1分数衡量F1是精确率和召回率的综合100%表示完美。Morpheus得到0.61约为频率驱动工具约0.32的两倍与TurkishTokenizer0.65接近但TurkishTokenizer的0.65是建立在改写词语表面形式的代价之上的。研究者还设计了一个更细致的表面忠实度测试用50个倾向于生僻词的土耳其语词语从四个维度评分词根正确率切出来的第一块是不是正确的词根、分块数量正确率切出来的块数是否和真实语素数量一致、边界位置正确率切割位置是否和真实语素边界吻合、以及字符串精确匹配率切割出来的字符串是否和真实语素的表面形式完全一致。Morpheus在词根识别上最准确66%在边界位置正确率和字符串精确匹配率上完全一致都是38%——这个一致性本身就是无损性的直接体现边界切对了字符串必然精确。相比之下TurkishTokenizer的边界正确率高达78%但字符串精确匹配率骤降到10%两者相差68个百分点。原因很简单TurkishTokenizer把词语改写了把正确位置上的字符替换成了标准化形式比如把saatlerde切成saat | lar | da——切割位置基本正确但-ler/-de被改成了-lar/-da还原后变成了不存在的词saatlarda。六、语言模型效果相同计算量下哪个分词工具让AI学得更好为了公平比较不同分词工具对语言模型训练效果的影响研究者做了一个控制变量实验用每种分词工具分别训练一个参数量相同约5800万参数的GPT语言模型训练步数完全相同1万步训练数据完全相同。这样最终的语言模型性能差异就只能归因于分词工具的好坏。衡量指标是每字符比特数BPCBits Per Character这个值越低说明语言模型对文字的理解越好预测能力越强。在可逆分词工具这个范围内Morpheus以1.425的BPC排名第一略低于BPE1.436、Unigram1.437、字节级BPE1.449和Morfessor1.446。WordPiece的BPC看起来最低1.384但这是因为它删掉了土耳其语特有字符相当于在一个信息量更少的残缺版土耳其语上做建模比较没有意义。TurkishTokenizer的1.442也被排除在有效比较之外因为它不可逆。在内存效率上Morpheus在批量生成时占用约3020MB的峰值GPU内存而64K词表的频率驱动工具BPE、ByteBPE、Unigram、WordPiece都占用3723MBMorpheus节省了约19%。不过Morpheus有一个明确的代价它平均每个词语切出1.73个词块比频率驱动工具的约1.5个多这意味着同样一段文字Morpheus生成的词块序列更长AI需要处理更多步骤端到端的生成速度约慢1.6倍。这是分词粒度更细更贴近语素的直接成本研究者对此直言不讳认为这是一个值得接受的权衡前提是系统的优先目标是忠实解码和形态对齐而非极致的生成速度。在TR-MMLU数据集上的测试这个数据集专门用来评估土耳其语分词质量中Morpheus的纯净词块率%Pure切割出来的词块在多大比例上符合土耳其语词法达83.5%土耳其语词块率%TR达91.8%均为所有工具中最高说明它在实际文本上切割出来的词块最贴近土耳其语真实的语素单位。七、词向量效果强在词根关系弱在上下文理解由于Morpheus是神经网络它在完成分词计算的同时也产生了一个320维的词向量320个数字的列表代表这个词在某个含义空间中的坐标。研究者把这个词向量与两个更强大的模型进行了比较BERTurk768维词向量约1.1亿参数的大型语言模型和BGE-M31024维词向量一个强大的多语言检索模型。比较在五个任务上展开。在词根家族检索任务上给定一个词从词库里找出所有与它同词根的词Morpheus以平均精度均值0.85领先BGE-M3为0.80BERTurk仅为0.49。在同词根验证任务上给定两个词判断它们是否来自同一词根Morpheus以ROC-AUC指标1.00满分领先BGE-M3为0.98BERTurk为0.70。这两个结果的解释非常直接词根对比学习信号把同一词根的所有变形词推向向量空间的同一区域所以在所有词向量模型里Morpheus的词向量空间是按词根最清晰地组织起来的。用t-SNE可视化一种把高维向量投影到二维平面便于观察的技术可以直接看到这一点Morpheus的图里同词根的词语形成了紧密的簇三个模型中最清晰。然而在数量探针和格探针任务上通过一个简单的线性分类器从词向量中读取词语的数单数/复数和格主格/宾格/属格等信息Morpheus表现明显偏弱数量探针准确率0.59对比BERTurk的0.95格探针0.22对比BERTurk的0.89。在WikiANN-tr命名实体识别任务上识别文字中的人名、地名、机构名等Morpheus的宏F1分数为0.48而BERTurk达到0.79。这两组反差结果的原因是同一个设计决策的两面词根对比学习让kitap、kitaplar书的复数、kitab?m?z我们的书的向量相互靠近这对于找同词根的词非常有用但同时也意味着单数和复数的信号在向量里被刻意淡化了线性探针当然读不出来。另外Morpheus产生的是静态词向量对一个词的理解与它所在的句子无关而命名实体识别需要理解上下文同一个词在不同句子里可能是人名也可能是普通词语BERTurk和BGE-M3是上下文感知的模型在这类任务上有结构性优势。说到底Morpheus的定位是一个廉价、形态感知的词汇级编码器而不是大型语言模型的替代品。它适合做的事情是在信息检索系统中负责词根匹配和关键词索引在文本去重场景中快速判断两个词是否同词根以及在内存有限的情况下为语言模型提供形态对齐的词汇表。对于需要理解上下文和精细语法特征的任务BERTurk或BGE-M3仍然是更合适的选择而Morpheus恰好可以与它们互补在同一个系统里各司其职。归根结底这项研究做了一件看起来简单但实际上颇有难度的事在土耳其语这个分词和词义理解都格外棘手的语言上用一套统一的神经网络结构同时把这两个问题都解决到了相当不错的程度而且没有走任何改写词语表面形式的捷径。泊松二项式动态规划这个技术选择尤其值得关注因为它优雅地消除了训练时需要软操作推理时需要硬操作这个通常需要两套结构来处理的矛盾让同一个模型在训练和推理两种状态下都能正常工作只需切换一个标志位。这种设计思路在其他需要软决策训练、硬决策推理的场景中同样具有参考价值。当然Morpheus也有明确的局限模型的监督信号来自MorfessorMorfessor本身并不完美在处理罕见的派生词链和超长黏着词时Morpheus偶尔会把相邻词缀合并训练和评估的黄金标准数据以屈折形态为主派生形态相对覆盖不足词向量维度较低320维在某些需要高维向量的场景下可能需要扩展。这些都是后续改进的方向。若你对这项研究的具体实现细节、实验数据或数学推导感兴趣可以在arXiv平台通过论文编号arXiv:2606.18717查阅完整论文代码、模型权重和在线演示也均已公开发布。QAQ1Morpheus分词工具为什么一定要保证忠实还原原文这个要求有多重要A在生成型AI比如文字生成助手里AI产生的每一个词块编号最终都要被还原成真实文字显示给用户。如果还原过程有损失——比如某些字符被删掉或改写——AI输出的内容就会悄悄出错而且这种错误极难被发现和追踪。WordPiece只能还原58.2%的土耳其语变形词TurkishTokenizer会把词语改写成标准化形式如saatlerde变成saatlarda一个不存在的词两者都不适合用于生成型AI系统。Morpheus通过数学结构从根本上保证了这一点。Q2泊松二项式动态规划解决了什么问题为什么不直接用简单的阈值来决定切不切A直接用阈值比如概率超过0.5就切否则不切的问题在于这个判断是不连续的——参数稍微变化一点决策可能突然翻转导致没有平滑的梯度信号可以用来训练网络。泊松二项式动态规划的做法是在训练期间不做硬性决断而是用软概率分布来表示字符属于第几个语素让梯度信号可以顺畅地从词义学习目标流回到边界检测器使边界学习和词向量学习可以相互促进。到推理阶段这个软分布自然收敛成确定答案不需要任何额外的结构切换。Q3Morpheus词向量在命名实体识别任务上表现差是模型的缺陷还是设计取舍A这是一个明确的设计取舍不是意外的缺陷。Morpheus的词根对比学习目标刻意把同一词根的所有变形词不管单复数、格、时态的向量拉到同一个区域这让词根检索任务表现极佳但同时也意味着区分单数和复数、不同格的信息被故意压缩了。命名实体识别还需要理解上下文同一个词在不同句子里可能扮演不同角色而Morpheus产生的是与上下文无关的静态词向量。这两个特点共同导致了它在命名实体识别上的劣势而这两个特点恰恰也是它在词根检索和去重任务上领先的原因。