大小:7KB更新:2018-05-10 18:27
类别:网站优化系统:Win7, WinAll
包名:
横瓜中文分词切词器主要是用于用户进行网页分词使用的分词工具,本软件可支持英文分词、简体中文分词及繁体中文分词,有需要的朋友快来下载试用使用吧!
字符匹配
这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;常用的几种机械分词方法如下:
1)正向最大匹配法(由左到右的方向);
2)逆向最大匹配法(由右到左的方向);
3)最少切分(使每一句中切出的词数最小);
4)双向最大匹配法(进行由左到右、由右到左两次扫描)
有了成熟的分词算法,是否就能容易的解决中文分词的问题呢?事实远非如此。中文是一种十分复杂的语言,让计算机理解中文语言更是困难。在中文分词过程中,有两大难题一直没有完全突破。
歧义识别
歧义是指同样的一句话,可能有两种或者更多的切分方法。主要的歧义有两种:交集型歧义和组合型歧义,例如:表面的,因为“表面”和“面的”都是词,那么这个短语就可以分成“表面 的”和“表 面的”。这种称为交集型歧义(交叉歧义)。像这种交集型歧义十分常见,前面举的“和服”的例子,其实就是因为交集型歧义引起的错误。“化妆和服装”可以分成“化妆 和 服装”或者“化妆 和服 装”。由于没有人的知识去理解,计算机很难知道到底哪个方案正确。
交集型歧义相对组合型歧义来说是还算比较容易处理,组合型歧义就必须根据整个句子来判断了。例如,在句子“这个门把手坏了”中,“把手”是个词,但在句子“请把手拿开”中,“把手”就不是一个词;在句子“将军任命了一名中将”中,“中将”是个词,但在句子“产量三年中将增长两倍”中,“中将”就不再是词。这些词计算机又如何去识别?
如果交集型歧义和组合型歧义计算机都能解决的话,在歧义中还有一个难题,是真歧义。真歧义意思是给出一句话,由人去判断也不知道哪个应该是词,哪个应该不是词。例如:“乒乓球拍卖完了”,可以切分成“乒乓 球拍 卖 完 了”、也可切分成“乒乓球 拍卖 完 了”,如果没有上下文其他的句子,恐怕谁也不知道“拍卖”在这里算不算一个词。
显示全部
OllyDBG中文版 网站优化2.6MBv2.0.1
下载闪电精灵seo修改版 网站优化36.50Mv2.0 免费版
下载尖叫青蛙screamforg软件 网站优化228.00Mv10.4 中文版
下载2017php网站漏洞扫描工具中文版 网站优化2.44Mv1.01 免费版
下载爱站seo工具包(网站seo分析工具) 网站优化11.51Mv1.12.1.0 官方最新版
下载祥云平台电脑版(64/32位) 网站优化48.02Mv1.4.12 64位最新版
下载长尾关键词挖掘精灵免费版 网站优化762KBv1.5333 电脑版
下载5118站长工具箱 网站优化19KBv2.0.4 最新版
下载织梦内容管理系统最新版 网站优化10.40Mv5.7 SP2正式版
下载老铁SEO外链工具 网站优化13.00Mv1.0.1.15 官方版
下载ISAPI Rewrite(IIS伪静态工具) 网站优化723KB32/64位版
下载爱站关键词挖掘查询工具(simon) 网站优化20.00Mv4.0 最新版
下载Xenu Link Sleuth(网站死链检测工具) 网站优化358KBv1.38 绿色版
下载拓宽卫士防恶意点击软件 网站优化7KB免费版
下载百度收录批量查询工具 网站优化612KBv1.0 电脑绿色版
下载网页内容更新提醒工具(webwatcher) 网站优化2.45Mv0.4 绿色版
下载