无痛安装===无痛人流?探讨中文分词

信息发布:soゝso 发布日期:2016-08-22 17:44 热度:892 分享到:

中文 分词 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空 格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这 一层上,中文比之英文要复杂的多、困难的多。

由此来看中文分词是比较难的,难就难在语义、组合、拆分上。

比如讨论的标题,

无痛安装:通俗讲就是解压缩的方式安装即可,而不是xxx.exe的方式(下一步以下一步)安装。

无痛人流:呵呵、就不用我说了。

但是用户意向的结果却是相差千里。我曾经吐槽 百度  、在他们的官方贴吧, 微薄  等地方吐槽,广告太严重了,我记得我2014年初的时候,搜索过一次 无痛安装  ,结果前2页都是“无痛人流”,我愤怒了。现在稍微好点,因为竞争对手 360  搜索出来了, 360  搜索虽然没有百度占的份额高,但是把腾讯的soso搜索、搜狗搜索等等都秒杀了。

相比之下 360  搜索稍微好点。

Google  那不用说,绝对OK。下面上图,你们也可以试试。

google 搜索 无痛安装


百度搜索 无痛安装 


搜狗搜索 无痛安装 

百度  是在 360  出来后才改进的还是在我愤怒后改进的,哈哈(^_^),以前是整整2页都是无痛人流。

所以对我们程序员来讲, google  你快回来吧。

下面我们讨论下为什么出现这样的问题?

其实在没有任何处理的情况下,分词后出现这样的问题也正常,但是就分词技术来讲,无痛安装分词后应该是[ 无痛安装 无痛安装],也就是权重最高的是 无痛安装  ,而不是无痛。

而无痛人流分词后应该是[无痛人流无痛人流]。

那么我们可以看出来 无痛人流 和 无痛安装  对应上是靠 无痛 对应上的。

所以从排序角度来说,在用户搜索 “无痛安装” 的时候,应该无痛安装是排第一。而 无痛 或者 安装是排其次。而我们得到的结果是不是我们想要的。

可能有的同学要喷我,说这是广告、竞价,我现在就要说这一点,广告讲究什么?讲究的是精准、假如我搜索一个无痛美容、无痛洗牙、那出来无痛人流是OK的,也就是都是医学挂钩的、你这…………

针对 中文分词  ,回头我就现在市面上的 中文分词  器做下对比再发布一篇博客。

本文主题

如果本文对你有帮助,那么请你赞助我,让我更有激情的写下去,帮助更多的人。

¥我需要走的更远,点击我 赞助。 如果还有疑问,点击我加群,为你提供最好的解答。


工具导航地图

 
Nodejs + socket Demo 赞助二维码 赞助名单 百度口碑点赞 查看QQ群美女帅哥 点击加QQ群 听音乐 开启弹幕 X
反馈意见