无痛安装===无痛人流?探讨中文分词
中文 分词 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空 格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这 一层上,中文比之英文要复杂的多、困难的多。
由此来看中文分词是比较难的,难就难在语义、组合、拆分上。
比如讨论的标题,
无痛安装:通俗讲就是解压缩的方式安装即可,而不是xxx.exe的方式(下一步以下一步)安装。
无痛人流:呵呵、就不用我说了。
但是用户意向的结果却是相差千里。我曾经吐槽 百度 、在他们的官方贴吧, 微薄 等地方吐槽,广告太严重了,我记得我2014年初的时候,搜索过一次 无痛安装 ,结果前2页都是“无痛人流”
,我愤怒了。现在稍微好点,因为竞争对手 360 搜索出来了, 360 搜索虽然没有百度占的份额高,但是把腾讯的soso搜索、搜狗搜索等等都秒杀了。
相比之下 360 搜索稍微好点。
Google 那不用说,绝对OK。下面上图,你们也可以试试。
google 搜索 无痛安装
百度搜索 无痛安装
搜狗搜索 无痛安装
百度 是在 360 出来后才改进的还是在我愤怒后改进的,哈哈(^_^),以前是整整2页都是无痛人流。
所以对我们程序员来讲, google 你快回来吧。
下面我们讨论下为什么出现这样的问题?
其实在没有任何处理的情况下,分词后出现这样的问题也正常,但是就分词技术来讲,无痛安装分词后应该是[ 无痛安装
、无痛
、安装
],也就是权重最高的是 无痛安装 ,而不是无痛。
而无痛人流分词后应该是[无痛人流
、无痛
、人流
、人
]。
那么我们可以看出来 无痛人流 和 无痛安装 对应上是靠 无痛
对应上的。
所以从排序角度来说,在用户搜索 “无痛安装” 的时候,应该无痛安装是排第一。而 无痛 或者 安装是排其次。而我们得到的结果是不是我们想要的。
可能有的同学要喷我,说这是广告、竞价,我现在就要说这一点,广告讲究什么?讲究的是精准、假如我搜索一个无痛美容、无痛洗牙、那出来无痛人流是OK的,也就是都是医学挂钩的、你这…………
针对 中文分词 ,回头我就现在市面上的 中文分词 器做下对比再发布一篇博客。
版权所属:SO JSON在线解析
原文地址:https://www.sojson.com/blog/75.html
转载时必须以链接形式注明原始出处及本声明。
如果本文对你有帮助,那么请你赞助我,让我更有激情的写下去,帮助更多的人。