大小:7KB更新:2018-05-10 18:27
类别:网站优化系统:Win7, WinAll
包名:
横瓜中文分词切词器主要是用于用户进行网页分词使用的分词工具,本软件可支持英文分词、简体中文分词及繁体中文分词,有需要的朋友快来下载试用使用吧!
字符匹配
这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;常用的几种机械分词方法如下:
1)正向最大匹配法(由左到右的方向);
2)逆向最大匹配法(由右到左的方向);
3)最少切分(使每一句中切出的词数最小);
4)双向最大匹配法(进行由左到右、由右到左两次扫描)
有了成熟的分词算法,是否就能容易的解决中文分词的问题呢?事实远非如此。中文是一种十分复杂的语言,让计算机理解中文语言更是困难。在中文分词过程中,有两大难题一直没有完全突破。
歧义识别
歧义是指同样的一句话,可能有两种或者更多的切分方法。主要的歧义有两种:交集型歧义和组合型歧义,例如:表面的,因为“表面”和“面的”都是词,那么这个短语就可以分成“表面 的”和“表 面的”。这种称为交集型歧义(交叉歧义)。像这种交集型歧义十分常见,前面举的“和服”的例子,其实就是因为交集型歧义引起的错误。“化妆和服装”可以分成“化妆 和 服装”或者“化妆 和服 装”。由于没有人的知识去理解,计算机很难知道到底哪个方案正确。
交集型歧义相对组合型歧义来说是还算比较容易处理,组合型歧义就必须根据整个句子来判断了。例如,在句子“这个门把手坏了”中,“把手”是个词,但在句子“请把手拿开”中,“把手”就不是一个词;在句子“将军任命了一名中将”中,“中将”是个词,但在句子“产量三年中将增长两倍”中,“中将”就不再是词。这些词计算机又如何去识别?
如果交集型歧义和组合型歧义计算机都能解决的话,在歧义中还有一个难题,是真歧义。真歧义意思是给出一句话,由人去判断也不知道哪个应该是词,哪个应该不是词。例如:“乒乓球拍卖完了”,可以切分成“乒乓 球拍 卖 完 了”、也可切分成“乒乓球 拍卖 完 了”,如果没有上下文其他的句子,恐怕谁也不知道“拍卖”在这里算不算一个词。
显示全部
OllyDBG中文版 网站优化2.6MBv2.0.1
下载闪电精灵seo修改版 网站优化36.50Mv2.0 免费版
下载尖叫青蛙screamforg软件 网站优化228.00Mv10.4 中文版
下载2017php网站漏洞扫描工具中文版 网站优化2.44Mv1.01 免费版
下载爱站seo工具包(网站seo分析工具) 网站优化11.51Mv1.12.1.0 官方最新版
下载祥云平台电脑版(64/32位) 网站优化48.02Mv1.4.12 64位最新版
下载长尾关键词挖掘精灵免费版 网站优化762KBv1.5333 电脑版
下载5118站长工具箱 网站优化19KBv2.0.4 最新版
下载织梦内容管理系统最新版 网站优化10.40Mv5.7 SP2正式版
下载老铁SEO外链工具 网站优化13.00Mv1.0.1.15 官方版
下载ISAPI Rewrite(IIS伪静态工具) 网站优化723KB32/64位版
下载爱站关键词挖掘查询工具(simon) 网站优化20.00Mv4.0 最新版
下载Xenu Link Sleuth(网站死链检测工具) 网站优化358KBv1.38 绿色版
下载拓宽卫士防恶意点击软件 网站优化7KB免费版
下载百度收录批量查询工具 网站优化612KBv1.0 电脑绿色版
下载网页内容更新提醒工具(webwatcher) 网站优化2.45Mv0.4 绿色版
下载是你棋牌是你棋牌官网 趣味休闲49.45MB
下载菠萝棋牌真相 趣味休闲0MB
下载爱游斗地主软件 趣味休闲55.28MB
下载广东麻将免费版 趣味休闲49.46MB
下载四川麻将2 趣味休闲50.04MB
下载532棋牌网页版 趣味休闲49.87MB
下载ko电玩城官网手机版 趣味休闲49.53MB
下载676棋牌游戏官网 趣味休闲50.09MB
下载锐游赢三张牌 趣味休闲49.47MB
下载金花游戏官网 趣味休闲47.84MB
下载体育彩票11选5助手 生活服务33.25MB
下载3d缩水工具视原O5757cc 生活服务19.08MB
下载江苏福利彩票网 生活服务19.08MB
下载广东彩票网 生活服务19.08MB
下载3d基本走势图牛彩网 生活服务19.08MB
下载