C.分词组合分词:B中的分词显然是不够的,要更能理解用户意图,必须保证语义连贯,那么那三个词可以组合成“百度如何排名”;“百度如何”+“排 名”; “百度排名”+“如何”;“如何排名”+“百度”以及这几个词颠倒的组合,重要程度按照顺序优先原则,紧接着是倒序和双向序列的分词组合,分析切分有个基 本的原则就是最少的切分。
以上三点是通常意义上的分词,除此之外,还有更麻烦的分词需要百度处理,见后几点。
D.分字:如果用户搜索“百 度 如 何 排名”的时候,百度也是无可奈何的,因为你不能判断出来用户就是在搜索“百度 如何 排名”,还得尊重用户搜索行为,所以,不得不进一步将中文词进行分字:“百”“度”“如”“何”“排名”,然后在进行组合分词,组成不同的词组去中 匹配。
E.别音字/错别字:如有人搜索“白度如何排名”实际上是误将“百度”打成“白度”,那么百度还要纠正这种错误,但近期的调整看,百度不像以前通过词 库近 义匹配来进行纠错【而更多的是以用户搜索后浏览的行为积累的数据来为纠错做准备】(如搜索“白度”的很多用户最后花更多时间在“百度”关键词页面上,那么 百度以后对于“白度”的搜索纠错会偏重到“百度”上!
当然,这个词是蒋鑫鹏举例说明,实际上百度搜索“白度”不是这样的,例子可以参看百度的“美规车”查看,百度会提示或者说试探你“您要找的是不是: 美规车”),此外,百度对于纠错通过搜索下拉框相关词推荐、搜索页面底部“相关搜索”、百度知道(用户量很大,是百度搜索的重要补充)来进行纠错数据的统 计与纠错引导。
蒋鑫鹏再次补充说明一下,百度其实很累的,它对用户的每一次搜索行为都要进行统计(当然是机器程序记录的方式):一般主要记录搜索的关键词、到访的页 面及 到访方式(一般都是链接)、各页面停留时间(之前不容易读取到,现在百度通过浏览cookis、百度账户、IP记录、百度统计【如果网站装了百度统计的程序,实际上百度很聪明,用各种方式想尽办法进入到网站,比如最近流行的百度分享按钮,这个工具实际上就是最大的】等大量辅助工具来统计),一般测算是根据搜索后到访的百度提供的快照页面的浏览行为(先打开哪个,然后打开哪个,在哪里停留的时间长,最后从哪里离开百度来实现,百度对于一个网页对用户是否 有用的观点:在该页面停留时间最长,并最终在此页面浏览完毕后离开百度为首要标准,其次还有在这些页面的互动程度所起的因素。
二、关于语义分析:
其实这段要说的在上一段已经都提到,列出来无非是将“语义分析”这一检索行为与“分词”区别开来,语义分析与分词是相辅相成的,语义分析更多的建立在 分词 与用户浏览行为习惯数据的研究结论基础之上,如前所述,百度通过各种方式大量统计用户的行为并针对这些行为及所用的关键词及输入方式索索的统计数据进行分 词的支撑与分词的匹配。
本文来自电脑杂谈,转载请注明本文网址:
http://www.pc-fly.com/a/jisuanjixue/article-37623-8.html
这也是一种方法
不喜勿喷