分类
大小:7KB更新:2018-05-10 18:27
类别:网站优化系统:Win7, WinAll
横瓜中文分词切词器主要是用于用户进行网页分词使用的分词工具,本软件可支持英文分词、简体中文分词及繁体中文分词,有需要的朋友快来下载试用使用吧!
字符匹配
这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;常用的几种机械分词方法如下:
1)正向最大匹配法(由左到右的方向);
2)逆向最大匹配法(由右到左的方向);
3)最少切分(使每一句中切出的词数最小);
4)双向最大匹配法(进行由左到右、由右到左两次扫描)
有了成熟的分词算法,是否就能容易的解决中文分词的问题呢?事实远非如此。中文是一种十分复杂的语言,让计算机理解中文语言更是困难。在中文分词过程中,有两大难题一直没有完全突破。
歧义识别
歧义是指同样的一句话,可能有两种或者更多的切分方法。主要的歧义有两种:交集型歧义和组合型歧义,例如:表面的,因为“表面”和“面的”都是词,那么这个短语就可以分成“表面 的”和“表 面的”。这种称为交集型歧义(交叉歧义)。像这种交集型歧义十分常见,前面举的“和服”的例子,其实就是因为交集型歧义引起的错误。“化妆和服装”可以分成“化妆 和 服装”或者“化妆 和服 装”。由于没有人的知识去理解,计算机很难知道到底哪个方案正确。
交集型歧义相对组合型歧义来说是还算比较容易处理,组合型歧义就必须根据整个句子来判断了。例如,在句子“这个门把手坏了”中,“把手”是个词,但在句子“请把手拿开”中,“把手”就不是一个词;在句子“将军任命了一名中将”中,“中将”是个词,但在句子“产量三年中将增长两倍”中,“中将”就不再是词。这些词计算机又如何去识别?
如果交集型歧义和组合型歧义计算机都能解决的话,在歧义中还有一个难题,是真歧义。真歧义意思是给出一句话,由人去判断也不知道哪个应该是词,哪个应该不是词。例如:“乒乓球拍卖完了”,可以切分成“乒乓 球拍 卖 完 了”、也可切分成“乒乓球 拍卖 完 了”,如果没有上下文其他的句子,恐怕谁也不知道“拍卖”在这里算不算一个词。
站长必备工具 网站优化486KBv1.28 免费版
下载排名精灵(SEO优化站长工具) 网站优化6.88Mv6.2.4 免费版
下载速普排名点击器 网站优化25.70Mv2.0.0 最新免费版
下载黑链工具包友情链接获取器 网站优化3.75M最新版
下载webdav漏洞扫描器 网站优化9KB最新版
下载seo李守洪排名大师 网站优化6.42Mv6.1.3 最新版
下载站长之家站长工具客户端 网站优化25.94Mv2.0.0.20 官方版
下载seo超级管家 网站优化9.70Mv2017 最新版
下载圣搜百度关键词seo优化软件 网站优化1.55Mv4.6 绿色正式版
下载超级站长帮手最新版 网站优化9.95Mv2.0.0 免费版
下载OllyDBG中文版 网站优化2.6MBv2.0.1
下载闪电精灵seo修改版 网站优化36.50Mv2.0 免费版
下载尖叫青蛙screamforg软件 网站优化228.00Mv10.4 中文版
下载2017php网站漏洞扫描工具中文版 网站优化2.44Mv1.01 免费版
下载爱站seo工具包(网站seo分析工具) 网站优化11.51Mv1.12.1.0 官方最新版
下载祥云平台电脑版(64/32位) 网站优化48.02Mv1.4.12 64位最新版
下载