在中文分词方面百度胜过了Google,这是baidu取胜google的关键因素之一,中文的分词比英文要复杂得多(同样与中文分词一样麻烦的重要 语言 还有日语、韩语、俄语,这也是Google没办法在这几个地区取胜的原因之一),蒋鑫鹏在这里因为篇幅不做赘述,有兴趣的朋友可以研究一下拉丁语系(以英 文为例)的造句与中文造句的区别,中文造句不仅近义词很多,而且语序变化无常,副词太多(主谓宾之外的定状补,叹词等等)。
简单举个例子“百度如何排名”“百度是如何排名的”“百度怎么排名”“百度是怎么排名的”“百度如何排位”“百度怎么排位”“百度按什么排名”“百度 靠什 么排名”“百度的搜索是怎么排位的”……这几个短语短句至少都包含一个意思“百度搜索结果的排名是什么规则(原理)”,除此之外,每个句子都有其他的含 义,如这些句子还包含有“怎么做百度排名(实现这个目标的方法)”“百度是怎么进行搜索排名的(原理实现的过程)”……
拿上面的例子来说:当用户输入以上短句时(大多数情况下,普通用户把百度当做是万能的,所以才搜索SEO开来这么不符合规则的搜索行为),百度要迅速的响应出用户需要的结果,这个时候,百度面临的核心问题是:
A.首先要知道用户是要搜什么(语义分析,见“二”);
B.其次因为百度的检索方式目前仍然以关键词匹配技术为主,所以要对用户的搜索进行分词(下一段将分析百度如何分词);
C.然后百度要通过分词分出的结果,去中检索匹配的快照;
D.上一步只是检索出来,还要进行第四部的排名,这个时候已经不是挑战百度的难题了(虽然在SEO看来,这一步确实是非常艰难的)
E.第五步要将得到的结果返回到搜索页面给用户使用,并且要完成其广告的投放(百度竞价广告),并要适当推广自己的产品(百度知道、百度文库……)写的有点乱,SEO顾问蒋鑫鹏在此致歉,没找到更好的陈述方式,望朋友们整理发扬光大。
2.百度中文分词方式:
百度对于中文的分词不仅是大量的用户搜索(这点不同于Google,百度毕竟是植根于中国文化的,对中文更了解),而且还有庞大的中文词典作支 撑, 并且动态加入了搜索热词,搜索行为造词等技术,【从近期百度算法的调整看,百度比以前更加尊重用户的搜索行为,就是用户的输入为首要,百度纠正次要,这点 那很重要哦】下面以实例来说,用户搜索“百度如何排名?”时的分词:
A.自然分割:包括标点符号、空格引起的分割,这是首要因素,比如或者“百度 如何排名”这样的搜索行为会被百度首先划分为“百度”、“如何排名”,这一点是肯定的,要理解用户搜索的行为意图,首先是要尊重用户的搜索行为;(这是 SEO顾问蒋鑫鹏根据实战中的观察总结出的,做SEO的很多朋友可能没注意到,在此提个醒)
B.中文词库分割:不难理解,“百度如何排名”将被分为“百度”“如何”“排名”这几个词,因为这是中文词典里存在的词,百度有庞大的中文词典库支撑,这个不是难度;
本文来自电脑杂谈,转载请注明本文网址:
http://www.pc-fly.com/a/jisuanjixue/article-37623-7.html
而且出现的概率这么低傻傻