联达网络  YAHOO研究

评论:中文搜索之战国时代



文:linkdata   发表时间:2006-6-5 11:51:45

搜索引擎,正称为兵家必争之地。


  百度还没走出Google阴影,李彦宏又面临陈沛的搜索联盟;慧聪推出第三代搜索引擎,陈沛和对手玩博奕游戏;马云正招兵买马,阿里巴巴欲扮演大盗角色;三大门户不甘寂寞,各自规划搜索地盘;还有众多海外列强,正对中文搜索市场虎视眈眈……

  据艾瑞市场咨询iResearch统计,2003年中文搜索引擎市场已经达到5亿元,而且每年还以60%~70%的速度增长,到2006年,估计中文搜索市场能到23亿元。国内IT界,本来就僧多肉少,面对如此丰盛的蛋糕,各路搜索诸侯早已开始秣马厉兵,各路IT列强也已经蠢蠢欲动......

  中文搜索市场进入战国时代。红绒拉开,豪杰云集,谁能一统江湖,成为搜索时代真正的霸主?

  Google,江湖第一个大佬

  在网络泡沫破灭以后,网络世界到处都是消极的声音,然而,Google给网络带来了希望。

  Google上演了一个神话:由两名学生在学校的研究课题,短短的四年时间,没有花一分钱做广告,但已经成为全世界最有名的品牌。据估计,Google上市后价值会在250亿美元。Google 2000年开始提供中文搜索,目前提供37种语言的搜索引擎。

  谈Google,不得不谈Pagerank。PageRank是一种网页重要性的评估标准,也是Google搜索引擎的搜索结果排序的主要依据。PageRank类似于科技论文中的引用机制:谁的论文被引用次数多,谁就是权威。在互联网上PageRank就是基于网页中相互链接关系的分析得出的,哪个网页被链接的多,哪个网页的PageRank值就高。在Google的搜索结果中,把pagerank高的放在前面(当然关于排序还要其他依据,如:搜索关键词在搜索结果记录中是否是标题、是否为黑体等格式分析),这样对于访问者来说,最先看到的结果都是最重要的(当然,是不是想要的也不一定)。基于Google朴实的页面,排序科学性,满足了绝大部分上网者的需求,人们开始接受Google。

  不过在中国,大部分人知道Google,还是在2002年,这其中的原因有一部分还归功于另外一大中文搜索引擎百度。百度在推出中文搜索门户时,大肆宣扬百度是最好的中文搜索引擎,比Google查全查准率都要高,引发了互联网的持续一年的争论,Google这个名词频繁出现在各大网站、媒体、论坛,许多人开始问:Google到底是什么?为什么这么多人讨论?于是更多的人开始使用Google。到2003年,自称为第三代搜索引擎的慧聪搜索(中国搜索联盟),声称要联合对抗Google,也开始了和Google系列的对比测试。这又起了推波助澜的作用,使用Google的人越来越多了。目前Google在为中国最大的门户网站新浪提供网页搜索服务,在网络上,大家到处都能看到powered by Google的标志。

  Google现在已经是具有很高美誉度的公司,也是目前世界第一品牌,但Google能在中国形成绝对优势么?从中国国情来看,几乎不可能。从进入中文搜索市场一开始,Google的最具特色的网页快照在国内一直不能使用,而且到目前为止,由于各种原因,Google.com的域名已经有不下十次被封。传闻,最近Google要在中国设置代理机构,也被CNNIC拒之门外。种种因素都限制了Google在中国业务的拓展。Google不能形成绝对优势,还有一部分是技术原因。Google的技术架构可以很容易从英文迁移到法文、德文、俄文等西文,但对于中文、日文、韩文等亚洲语言来说却有很大的障碍。中文与西文(英文等)最大的不同在于西文中的word是以空格分开,但在中文的词与词之间不存在空格(日文、韩文亦是如此),这就涉及到一项中文处理高端技术:中文分词技术(也叫中文切词,关于中文分词技术,大家可以访问海量科技公司网站
http://www.hylanda.com)。Google现在采用美国Basistech公司提供的中文分词技术,对中文网页进行处理,但对于语言的处理和理解来说,本土者更有优势,这也是为什么百度、慧聪敢说与Google相评测的原因之一。具体的差别大家可以在Google和百度上分别搜索“万网总经理”,就可看见结果。

  虽然Google在国内引起大小风浪,但Google公司自己对此从未发表过评论,有一部分原因或许是因为中文搜索市场对于Google来说,实在太小,目前还不值得其去关注。而且,Google还有更重要的事情去做,对抗微软、对抗Yahoo等IT巨人。但人们总是习惯于同情沉默者,加上Google本身的优势,在国内,一直有许多人在替Google说话,Google依然有不可动摇的美誉地位。

  互联网上没有国籍,等到所有关于Google环境限制都解除,Google找本土公司合作解决语言问题;等到中文搜索蛋糕越来越大,Google开始重视中文搜索市场,那时,Google能否在中文搜索市场取得绝对优势?回答依然是否定的,因为在那时候,Google在中国的竞争对手已经很强大了。

  其实目前已近如此,因为Google在中国已经有了一个不容忽视的竞争对手:百度,一个从大佬阴影下走出的巨人。

  百度,从阴影下走出的巨人

  百度的创建其实比Google公司的成立就晚一年左右。2000年1月,李彦宏和徐勇从美国硅谷回到中关村,注册了百度网络技术公司。按照百度的说法,百度之所以称为百度,是来源于“众里寻她千百度”一词。究其技术,百度搜索引擎使用的核心技术是超链分析。李彦宏是超链分析的发明人,并在1996年就在美国申请了专利。超链分析和PageRank从本质上没有多少区别,都是以网页被链接的次数来评价一个网页的重要程度。

  百度是以搜索技术提供商的身份进入市场。从公司成立到2001年初,百度先后为硅谷动力、搜狐、新浪、263、Tom等门户网站提供网页搜索服务。那时候正是.COM时代,网络门户是互联网的热点,人们上网习惯第一步登陆门户网站,然后在登陆到其它想要去的地方。正因为如此,百度这个名字开始变得不再陌生。后来,百度提供自己的搜索平台,由幕后走向了前台。从技术本身和公司发展来看,百度和Google走的都是同一路线,包括目前慧聪搜索亦是如此,Google以前也是在为Yahoo等大型门户提供搜索服务来得到人们的认可,然后自立门户。只不过,Google早走一步而已。因此,有专业人士评论说,百度一直在模仿Google,一直走在Google的影子背后。走在哪里都无所谓,关键是走对了路,百度人自己也这么认为。百度确实走对了路。百度一开始的口号是:Behind your e-success,也就是:在你成功的背后。后来的口号是:SearchAnywhereAnytime,也就是:让搜索无处不在。百度口号的变化,也是百度在市场定位的变化。

  李彦宏提出搜索引擎三大定律:相关性定律、人气质量定律、自信心定律。依据搜索引擎第三大定律,2001年底,百度推出竞价排名服务。所谓竞价排名,就是谁对自己的网站有信心,谁就掏钱,谁掏钱,谁的网站在搜索结果页中就会排在前面。竞价排名的推出,招来许多非议,网民开始抱怨其搜索结果太商业化,加上其记费方式的变化,也让百度陷入不少官司纠纷。但百度还是坚持走下去了,也正是因为有了竞价排名,百度逐渐找到了赢利模式,度过了网络最困难的时期。

  百度一直在寻找更好更多的赢利点。2002年,百度推出IE搜索伴侣,提供网络实名和搜索引擎于一体的客户端工具,与当时视网络实名为铁饭碗的3721公司闹得很不愉快,但在互联网上没有绝对的垄断,百度仍然分的一块不大不小的蛋糕。百度又陆续推出mp3搜索、新闻搜索、图片搜索、flash搜索等,这些专业搜索的推出,相比Google搜索来说,更符合中国网民的口味,百度的形象也更加丰满了,品牌提升的同时,广告也成了百度最重要的收入来源。

  作为搜索引擎来说,技术领先是一个不容忽视的因素。李彦宏在市场创新的同时也没有忘记这一点。面对自己和Google的差距,百度在2002年启动了为期近半年的“闪电计划”(不知道为什么叫闪电,可能半年对于历史的长河来说,也能称为闪电吧)。应该说闪电计划的实施,确实让百度在技术上有了质的变化,一些专业人士也评述说,经历过闪电的百度已非昔日吴下阿蒙了。随后,百度也和一些国内中文处理厂商接触,寻求技术上的进一步提升。百度自己人说:我们每一天都在进步(参见百度文化
http://www.baidu.com/about/04.html)。

  人气,被李彦宏定为搜索引擎第二大定律。为了让更多的人知道百度、了解百度、使用百度,百度举行了“搜索大富翁”活动,给玩家奉送轿车、笔记本、数码相机等,买了不少网友的心;同时借助第三方组织了“万人公开评测”,评测结果显示:“百度超越Google,成为中国网民首选的搜索引擎”。暂不论结果可信度有多高,只是想说明一个事实:百度确实一直在努力,在技术上和市场上都是如此。

  百度逐渐走出了Google的阴影,也逐渐成为国内中文搜索引擎第一大品牌。最近百度正谋求在海外上市,但如果Google大旗指向中国,百度将如何对抗Google?如果李彦宏不能给投资人一个满意的答案,上市将会“路漫曼其修远兮”。

  当然,百度面临的对手不仅仅是Google,还有慧聪:一匹聪明的黑马。

  慧聪:一匹聪明的黑马

  撰写历史时,外国人喜欢写事,中国人喜欢写人。说起慧聪搜索,就不能不说陈沛。陈沛不是海归派,毕业于浙大数学系,后来在总参三部从事信息处理工作,研究成果多次获奖。值得一提的是,陈沛曾经获得北京市业余围棋赛冠军。问起陈沛为何要离开总参三部,陈沛有自己理由:必要条件决策。他说,当离开总参三部成为做事业的必要条件时,不管离开以后会怎么样,还是得离开,而且越快越好。陈沛还有一项“发明”,叫充分条件决策,有兴趣的朋友可以等陈沛的自传写完后买一本看看。2000年,陈沛加盟慧聪,开始了他的搜索引擎之路。

  日前,慧聪在香港上市,当然上市的不是慧聪搜索引擎(慧聪国际软件),而是慧聪资讯(慧聪国际信息有限公司)。慧聪是以商业资讯起家的公司,从陈沛加盟慧聪后,才开始做搜索引擎。陈沛一开始就找到了一个很好的切入点:新闻搜索。因为凭借慧聪当时的实力,推出普通的网页搜索引擎很难,没有积累,技术上过不去,加上知名度也不高,不会有人用。但新闻搜索和普通网页搜索不一样,最重要的指标是及时性,而且只要关注国内外一些重要的新闻网站,下载相关新闻网页,按照来源不同、版面位置不同对新闻重要性加以评估,就能实现成一个好的搜索引擎,从数据量和调度技术上都不会太复杂。慧聪当时专注在新闻搜索上,做得非常成功,做到每十分钟更新一次互联网上所有新闻,号称最快最专业的新闻搜索引擎。人们的记心一向都不太好,因此,从来不把新闻搜索引擎和搜索引擎分得太开,正因为这样,慧聪也以搜索引擎的形象出现,这也让陈沛做真正的搜索引擎有更多的时间和理由。

  慧聪走的路和百度、Google类似,也是从为门户网站提供搜索技术开始,但作为后来者,慧聪的路要比百度更加坎坷。百度推出搜索引擎时,国内没有人做搜索引擎,或者说没有有名的专业厂商在做,但在慧聪2002年推出搜索引擎时,新浪、搜狐、网易等一直在使用百度提供的搜索引擎,而且百度当时已经推出搜索引擎门户,早已名声在外,替换百度谈何容易?

  天时不如地利,地利不如人和。2002年下半年,新浪和百度正因为费用拖欠问题闹起了矛盾,百度因为自己的优势地位,丝毫不肯让步,而且还把新浪的搜索服务停了一段时间。这一举措让新浪十分不满,新浪想找Google来替代百度,但Google费用实在太高,当时新浪的日子也不太好过,而且,当时正赶上Google域名第一次在中国被封,这些因素也不得不让新浪慎之又慎。就在这个时候,慧聪来了。选择慧聪,好像成了新浪最佳选择。不过,选择慧聪也不是没有风险,当时传闻,慧聪的搜索引擎在给新浪提供服务的第一天就趴下了,让新浪没办法只得和百度续签了一个月的合同,后来才正式使用慧聪搜索引擎。慧聪商情在业内多年,和各大门户早已建立了非同一般的合作关系,拿下最大的门户新浪以后,陈沛趁胜追击,随后又陆续为新华网、中华网、TOM等诸多门户提供搜索服务。李彦宏开始认识到陈沛确实不简单。为了守住最后的阵地,百度在搜狐、网易的搜索服务上和慧聪展开了激烈的拉据战,曾经出现了一周之内几度易帜的局面。其结果如何?其实这里很有学问。从技术上和名气上来讲,百度应该占有优势,但百度已经独立门户,重点不在给门户网站提供搜索服务了,而慧聪不一样,初出茅庐,还处于饥饿状态。一人是为了更富裕,一人是为了解决生存问题,两人要是打架的话,谁会赢?当然“横的怕不要命”的了。这其中有点像CNNIC和3721网络实名之争。如今,新浪、搜狐、网易、TOM、3721、中华网、263等七大门户都在慧聪搜索引擎的客户列表中。

  从2002年9月开始,陈沛就开始推广他的中国搜索联盟,当时的口号是“对抗Google”,打起民族名牌,有点连纵抗秦之意,不过后来这个口号也不提了。在推广品牌方面,慧聪好像没有什么新意,举办“超越Google”的大型评测活动,类似百度的“万人公开评测”;随后又举办了“百万大搜捕”活动,其性质和百度的“搜索大富翁”也一样。不管活动是否有新意,只要得到预期的目的就行,慧聪也随着这些活动,人气逐渐上升。

  在骨子里,陈沛仍然是一个棋手。2003年9月,慧聪正式推出第三代中文智能搜索引擎,这一招很聪明:雅虎的目录搜索是第一代,把百度、Google定位为第二代,把慧聪定位为第三代,第三代当然比第二代要优秀了。这个案例有点像百事可乐当时把自己定位为“年轻人的可乐”一样,当时百事可乐这个定位十分成功,但愿慧聪也能成功。

  慧聪确实是一匹黑马,而且是一匹很聪明的黑马。黑马冲是冲出来了,是否能一直保持前进的速度?慧聪目前借助的是几大门户之势,然而,既然搜索引擎市场这么大,三大门户就心甘情愿只为他人做嫁衣?一旦门户扮猪吃老虎,中文搜索市场上又是一场血雨腥风。

 

  编者注:Google的公正性无疑是全球无人能敌的,她的排名不是金钱所能买到的,网页等级(PageRank)不是钱所能买到的,相较国内的竞价排名事实是造成了互联网的不平等。可以想象,一旦Google挥军杀入中国市场,国内的搜索引擎会面临一场重大危机。

电子邮件:gongyong1314@hotmail.com QQ:49252383
强烈建议使用 IE6.0 以上浏览器 800*600分辨率