Yahoo周二(10/2)发表搜索协助工具(Search Assist)强化旗下的搜索服务,并在搜索结果中整合多媒体内容。
当使用者在Yahoo网站搜索时,输入的关键字下方会出现即时的相关关键字建议视窗,提供搜索协助。Yahoo表示,这在使用者不熟所搜索的主题时特别好用,使用者也可以选择关闭该服务。
此外,Yahoo也发表搜索结果的多媒体整合功能,在搜索结果页面中同时出现影片、声音、连结及照片等与关键字相关的各式多媒体资讯。
Yahoo并更新旗下的搜索捷径,指出可节省使用者在搜索受欢迎的活动、音乐、电影、运动等类别时的时间,并整合了评论、照片、官方网站等资讯。
Yahoo引用Harris Interactive的调查指出,有99%的网友使用搜索引擎寻找资讯,当中只有15%的人在第一次搜索就找到所要的资讯,其他大多需要进行三到四次的搜索。
Yahoo Search总经理Vish Makhijani表示,新的Yahoo搜索聚焦在提供使用者更相关的资讯与最佳使用者经验,他们知道使用者想要一个完整的答案,而非只是一个连结,此次的改变在於想要让使用者只要搜索一次就能找到最佳解答,不论是一个连结、照片、影片或是音乐。
微软日前才宣布更新Live Search搜索服务,包括改善核心搜索技术以及娱乐、购物、区域,及健康等垂直搜索领域。当时微软搜索及广告平台企业副总裁Satya Nadella表示,此次Live Search的更新让微软赶上Yahoo,并足以与Google媲美。
根据comScore在今年7月所公布的美国搜索市场报告,Google以49.5%遥遥领先居次的Yahoo(25.1%),以及排名第三的微软(13.2%)。(ITHome)
升级搜索引擎
雅虎周二表示,自三年半之前重新控制底层技术以来,这是其搜索引擎最重要的一次升级。标准普尔分 析师斯科特·凯斯勒(Scott Kessler)表示,即使不考虑其它方面的影响,此次搜索引擎升级至少可以提升雅虎员工的士气。在此之前,雅虎联合创始人、CEO杨致远曾经承诺,将重 建雅虎作为互联网创新者的声誉。雅虎此次搜索引擎升级为他的承诺提供了强有力的支持。
凯斯勒同时表示:“搜索引擎升级是否会帮助雅虎抢占更多市场份额呢?我无法确定。不过,此次升级 至少可以提升雅虎搜索引擎在用户心目中的分量。谷歌之所以能获得如此多用户的青睐,一个重要的原因是该公司提供了大量与众不同、有趣的东西。” 为了扭转公司业绩增长乏力、股价持续下跌的不利局面,杨致远今年6月重新出山,取代特里·塞梅尔(Terry Semel)就任雅虎CEO。
2000年6月到2004年5月期间,雅虎一直采用谷歌技术驱动其搜索引擎。正由于雅虎的这一决 定,谷歌由一家小公司发展成为当今的网络搜索垄断者,在美国市场占据了50%以上的份额。搜索引擎升级之后,当用户在搜索框中输入关键字之后,雅虎会在搜 索框下面显示用户可能感兴趣的短语。雅虎搜索引擎将为用户提供一系列相关的概念,并在主搜索结果页面生成更多图片、视频和音乐链接。雅虎搜索引擎还会从雅 虎日历服务(Upcoming.org)获取信息,突出同搜索请求相关的本地事件。
竞争对手称无新意
雅虎在此次搜索引擎升级中加入的新功能同谷歌、Ask.com和微软此前升级的功能类似。 Ask.com首席执行官吉姆·兰佐尼(Jim Lanzone)表示,雅虎此次升级仅仅是为了缩小与竞争对手的差距,而不是引领搜索技术创新。他说:“我们已经在考虑下一阶段的升级。为了满足用户,搜 索引擎需要不断创新。完成的搜索越多,用户的期望也就越高。”
雅虎则认为,同竞争对手相比,该公司加入的功能更为全面,特别体现在音乐、电影和图片等领域。雅 虎主管搜索业务的高级副总裁维什·马可贾尼(Vish Makhijani)就此表示:“例如,为了在搜索结果中加入来自Flickr的庞大图片库,我们的图像索引比竞争对手大得多。我们的目标是在特定领域做 到最好。”(新浪科技)
-
- 163 - Chinese -
- 3721 - Chinese -
- 5 Star Shareware -
- A9 -
- About -
- Acronym Finder -
- Alexa -
- Alibaba -
- All the Internet -
- All the Web Search -
- All the Web Audio -
- All the Web Images -
- All the Web News -
- All the Web Videos -
- AltaVista Search -
- AltaVista Audio -
- AltaVista Images -
- AltaVista News -
- AltaVista Video -
- Amazon -
- Answers -
- AOL Search -
- AOL Hometown -
- Aport - Russian -
- Ask Jeeves -
- Ask Jeeves Kids -
- Ask Jeeves News -
- Ask Jeeves UK -
- Baidu - Chinese -
- Barnes & Noble -
- Bartleby -
- BBC News -
- Become -
- BizRate -
- Blinkx -
- Blogger -
- Blogdigger -
- Bloglines -
- BlogPulse -
- Britannica -
- British Pathe -
- Business -
- BusyTrade -
- Buy.com -
- Buyers Post -
- CDC -
- CheckDomain -
- Clusty -
- CNET Reviews -
- CNET Shopper -
- Daypop -
- DealCatcher -
- DealTime -
- Dictionary -
- Digg -
- DigiSeek -
- Ditto -
- Dogpile -
- Download.com -
- EarthCam -
- EasySeek -
- eBay -
- eBay UK -
- eCost -
- Education World -
- Encarta -
- Epinions -
- Exalead -
- Excite -
- Fandango -
- FDA -
- seo searcher -
- Feedster -
- Find Articles -
- FindLaw -
- FirstGov -
- FirstGov Kids -
- Flickr -
- Froogle -
- Galaxy -
- Gigablast -
- Goo - Japanese -
- Google Search -
- Google Base -
- Google Blog Search -
- Google Book Search -
- Google Catalogs -
- Google Directory -
- Google Finance -
- Google Groups -
- Google Images -
- Google Local -
- Google Lucky -
- Google Maps -
- Google News -
- Google Scholar -
- Google Video -
- Google Australia -
- Google Canada -
- Google Ireland -
- Google New Zealand -
- Google UK -
- Healthfinder -
- Hollywood.com -
- Hotbot -
- Iask - Chinese -
- IceRocket -
- IMDB -
- IncyWincy -
- Infomine -
- Infospace -
- iWon -
- ixQuick -
- Jumbo -
- Kellysearch -
- KidsClick -
- Kosmix -
- Looksmart -
- Lycos -
- Lycos Images -
- Lycos News -
- MagPortal -
- Mamma -
- Mayo Clinic -
- MedlinePlus -
- MetaCrawler -
- Microsoft.com -
- Microsoft Download Center -
- Microsoft Office Clipart -
- Monster -
- Movies.com -
- MovieFone -
- MSN Search -
- MSN Images -
- MSN Local -
- MSN Money -
- MSN Movies -
- MSN News -
- MSN Shopping -
- MySimon -
- MySpace -
- MyWay -
- Navisso -
- NetFlix -
- Netscape -
- NexTag -
- NIH -
- Open Directory -
- Overstock -
- PC Magazine -
- PC World -
- Photobucket -
- PicSearch -
- PriceGrabber -
- PriceSCAN -
- Profusion -
- PubMed -
- Rambler - Russian -
- Rediff -
- Review Centre -
- Search.com -
- Searchalot -
- Seekport -
- Shareup -
- Shopping.com -
- Shopzilla -
- Sina - Chinese -
- Singingfish -
- SmartPages -
- Snap -
- Softpedia -
- SourceForge -
- Stock Quotes -
- Stock Symbol Lookup -
- Technorati -
- Teoma -
- Thesaurus -
- TopShareware -
- Tripod -
- Truveo -
- Tucows -
- Ujiko -
- Virgilio - Italian -
- Vivisimo -
- Vroosh -
- Wal-Mart -
- Wayback Machine -
- Weather Lookup -
- Webcrawler -
- WebMD -
- Web Shots -
- White Pages -
- Wikipedia -
- Windows Media -
- WinSite -
- Wisenut -
- Xanga -
- Xanga Blogrings -
- Xanga Users -
- Yahoo! Search -
- Yahoo! Address Book -
- Yahoo! Audio -
- Yahoo! Directory -
- Yahoo! Education -
- Yahoo! HotJobs -
- Yahoo! Images -
- Yahoo! Kids -
- Yahoo! Local -
- Yahoo! Maps -
- Yahoo! Movie Showtimes -
- Yahoo! News -
- Yahoo! Shopping -
- Yahoo! Video -
- Yahoo! Australia & NZ -
- Yahoo! Canada -
- Yahoo! UK & Ireland -
- Yandex - Russian -
- Yellow Pages -
- YouTube -
- Zeal
成功的搜索引擎营销策略应该是在网站建设之初开始的,从域名的选择到网页的源代码书写开始。但目前的现状是多数网站建设的分工和流程都是把针对搜索引擎的 优化工作放在最后——网站已经建好了,向搜索引擎提交网站之前再做优化。这时做优化其实已经相当被动。所以,建议网站规划者在网站建设之初就提交给网页设 计师、程序开发人员和内容编辑一份有利于搜索引擎排名的网站建设备忘录。 现将各种介绍搜索引擎优化 (search engine optimation:SEO)的方法进行简要汇总。以下方法默认针对google的优化,但由于包括Yahoo在内的大 部分搜索引擎机器人在索引网页时遵循的主要原则大同小异,故此文未对具体搜索引擎作个别研究。
1、关键词策略:确定网站的核心关键词。网页中一切可让搜索引擎抓取的文本中都尽量带有关键词。这些地方包括:域名、title和meta标签、正文、链接文本、文件名、alt、header标签(即正文标题等)。让你的关键词无所不在,但又避免在同一处堆砌过多。
关键词选择技巧:相关性(即定位)、热门度的掌握(太热不好容易排前,太冷没人搜索)
2、域名策略:域名中最好含有你的关键字,并且采用连字符“-”将该关键字单独突显出来以方便搜索引擎识别。有专家认为域名中含有关键字对于排名的作用微弱,但不可否认确有作用,因此能够兼顾的情况下尽量考虑采用关键字域名。 二、**域名显然没有什么竞争优势。
3、虚拟主机策略:检验共享IP地址网站:目前大都是多个中小网站共享一台虚拟主机,拥有同一IP地址。如果跟你共享IP的某一个网站被搜索引擎惩 罚,将连累你也无法登陆到搜索引擎。除此之外,由于一个IP往往拥有上百个网站,因此会影响你的网页下载速度。特别是如果其中某些网站流量特别大的时候。 如果搜索引擎在抓取某个页面时该页半天下载不了,搜索机器人将弃之而去。因此,除了了解多少网站与你共享IP,是否有受到惩罚,最好再了解它们的流量大致 情况。如果情况不妙,赶紧换主机。 此外,搜索引擎都不愿收录免费主页空间上的网站,即使收录,也难有好的排名。
工具推荐: 通过域名获知你的IP地址: http://www.linkwan.com/gb/broadmeter/tracemap/domaintoip.htm
通过IP地址获知共享网站的数量和地址:http://www.whois.sc/members/reverse-ip.html
4、网页文件目录策略:有序、合理安排文件目录结构,规范命名。简单的网站最多呈现三个层次就可以了。重要内容放在顶级目录。目录文件夹命名含关键 词,而HTML网页文件名也含关键词。图片文件也含关键词。这里所指的关键词主要针对具体页面内容而言。文件名是词组就用短横线或下划线隔开。规范的做法 是使用英文而不是拼音字母:http://www.emarketer.cn/em/about/help_faq_04.htm。以下是一主题为“儿童 救助”网站的网页文件目录(含external文件):
5、external files(外部文件存储)策略:把javascript文件和css文件分别放在js和css外部文件中。这样做的好处是把 重要的页面内容放到页面顶部,同时能缩小文件大小。有利于搜索引擎快速准确地抓取页面重要内容。其他的字体(FONT)和格式化标签也尽量少用。 搜索引 擎喜欢在页面一开始就找到本页的关键性内容。
6、动态策略:动态页面,就是采用ASP,PHP,CGI等程序动态生成的页面,需要用户输入条件提交后才能产生。有两个办法可以让搜索引擎抓取到: 在一个静态页面(如网站地图)建立一个链接指向该动态页面,或者修改这个动态页面的URL为静态的HTML文件,使URL中不再包含符号?、=、 &、%、+和?$等符号。 工具推荐(没用过,自己试):动静态网页转换器 V1.1
7、框架策略:如果网站一定要用到框架,则应正确使用Noframe标签,在区域中包含指向frame页的链接或带有关键词的描述文本,同时在框架以外的区域也出现关键词文本。
8、图片策略:在图片的代码中运用Alt属性标签进行说明,含关键词,同时在图片旁边也加上含关键词的文本注释。避免纯图象网页(Splash),如一些企业网站首页形象页面。Flash更要少用,搜索引擎跟踪其内嵌链接的兴趣不大。
包括图像在内的一页网页字节数最好不要超过50K
9、网站地图策略:基于文本的网站地图内含网站所有栏目、子栏目。网站地图的三大因素:文本、链接、关键词,都极其有利于搜索引擎抓取主要页面内容。 因此,动态生成目录网站尤其需要创建网站地图。网页栏目若有所更新需要及时在网站地图上体现出来。 举例:微软网站的 Site Map
10、title和meta标签策略:搜索引擎优化基本功:title标题内容将以链接标题的形式显示于搜索结果页面。标题一般是网站名称+简短描 述,含核心关键词,如:,就好过单纯的。 meta中的关键词(keywords)和描述(description):确定几个核心关键词及组合,关键词 以3-5个为宜,最好不要超过15个,以避免堆砌之嫌。描述是网站的简短说明,含有关键词。 如果每个主要页面的内容相差很大,则应根据网页内容不同而改 变title和meta标签,不要全部网页都采用首页的标题和标签。 网页文本内容需出现该页关键词,关键词密度在3%-7%之间。太多有堆砌之嫌。 搜 索结果页面在链接标题之后显示的描述文字一般是搜索引擎在本页正文中最先抓取到的含有关键词的那段文本。据说通常在网页左上角方向出现这段文字最有利。
11、链接策略:尽可能多地让其他跟你主题相关的网站链接你,目前已成为在搜索引擎排名成功的关键性因素。有了这些网站链接你,即使不向搜索引擎提交 网站,搜索引擎也自然找到你并给予好的排名。 另一方面,如果网站提供与主题相关的导出链接,被搜索引擎认为有丰富的与主题相关的内容,也有利于排名(这 一点值得转摘高手们反思)。
12、网站流量: Google在跟踪每个搜索结果的点击情况。有专家以此推测,点击量越大的结果,越被搜索引擎认为“相关性”高,从而给予好的排名。
13、避免惩罚:搜索引擎对于蒙蔽它的手段识别越来越精,以下常用作弊方法很容易收到惩罚,拒绝收录: 隐藏文本,或无意间将文本文字设为背景色;关键词堆砌;主动链接到link farm网站(大量网站交叉链接而构成的网络系统);
孙琎
搜索引擎行业默认的价值是:网络信息越来越多,搜索引擎能最大限度地节省用户的时间和精力,减少检索信息成本,有效组织全球信息,为网民降低信息成本,实现人与信息间更加高效便捷地相互寻找
但经过数年的演进之后,用户的直观体验似乎没有那么乐观。在用户使用过程中,内容数量扩大、显示页面增加的同时,搜索时间也在加长,搜索引擎的使用效率开始逐渐降低
这到底是搜索引擎的天然缺陷还是商业利益的驱动呢?而在用户体验和商业利益的天平上,搜索引擎又该如何平衡?
当用户在Google或者百度之类的搜索引擎中输入一个关键词时,用户点击鼠标的手指就成为了“金手指”,搜索引擎不仅在期待着这些手指去点击一个个闪着金光、能带来广告收入的关键词链接,还需要细心揣摩用户的心思。
用户到底是皱着眉头翻了几页也找不到要点击的结果,还是很快点到需要的结果,这就是影响搜索引擎的关键指标“客户体验”。但当搜索引擎逐渐被快速扩张、垄断市场的股东期许所鼓励时,用户体验是否就成了可以妥协的指标了呢?
目前,如市场领先者百度和Google的很多关键词,在点击一下就可为他们带来数十元人民币甚至美元的情况下,搜索引擎的客户体验是否在平衡和迷失的边缘?
用户体验与商业化泛滥冲动
搜索引擎行业已经经历了大批诉讼,最近不断增多的诉讼是企业状告搜索引擎在非付费搜索中将其搜索排名放置得过低。
多来米中文网状告Google搜索不公。以“多来米中文网”这样确定的关键词在Google中搜索,Google违背平等待遇原则,在查询结果第37项才显示该公司的网页,多来米公司因此多次接到客户的投诉和责问。
但法院终审判决驳回了多来米公司的全部诉讼请求,因为Google证明,搜索列表中的内容是不定期从其他网站自动抓取汇总的信息,结果排名根据网站的重要性、点击率等量化标准自动生成,搜索内容和排名均无法通过人为操作予以改变。
关于搜索结果的争吵,也许在法庭上对搜索引擎更为有利,但是当网民的注意力被浪费和误导时,用户很难会从技术或市场方面去找原因。
事实上,酒店、宾馆等领域的问题也比较严重。用户搜索这类公司时,大批代理商充斥了页面,很难找到自己想要的那家酒店官方网站。
搜索引擎行业默认的价值是:网络信息越来越多,搜索引擎能最大限度地节省用户的时间和精力,减少检索信息成本,有效组织全球信息,为网民降低信息成本,实现人与信息间更加高效便捷地相互寻找。
但经过一段时间的演进之后,用户的直观体验似乎没有那么乐观。在用户的搜索结果中,数量在扩大,显示页面在增加的同时,搜索时间也在加长,搜索引擎的使用效率开始逐渐降低。
从搜索排序看,搜索引擎有一套复杂的排序参数,但搜索服务的对象是使用搜索的用户。从这层意义上说,用户对搜索结果的体验是根本,是真正主宰搜索结果的根源,而非网页相关性、外部链接度、搜索引擎自身排序规则等。
商业搜索竞价一直以来都是以企业主竞争出价来决定排名位置的,谁出的价格高谁就排在前面。然而,随着搜索竞价应用市场的不断成熟和应用环境的变化以及对 网民搜索体验感受的日益关注,传统单纯以价格决定排名位置的弊端也逐渐凸现。如何既能满足搜索用户的使用体验,又能满足企业的推广需求,成为搜索厂商要解 决的问题。
但从大量的诉讼可以看出,搜索引擎希望更大范围地销售关键字的欲望还是较为急迫。美洲航空公司日前将Google告上法庭,指控Google将含有该公司商标的关键词售予其他企业。
美洲航空公司近日在诉讼中表示,Google未经他们的授权批准,向其他公司广告主销售了含有“美洲航空公司”商标的关键词广告,这些广告主有的是美洲 航空公司的竞争对手,它们从事的是和美洲航空公司有关的旅游代理服务。而Google认为,Google在商标权和消费者选择权之间已经达到了平衡,过去 几次诉讼的判决也证明了这一点。
在此之前,Google已经历了不少类似的诉讼。两年之前,美国弗吉尼亚州一名联邦法官就驳回了保险公 司Geico对Google提出的类似的商标侵权指控。尽管Google在美国从未失手,但是在法国路易威登对Google的诉讼中,法国一地方法院维持 了Google商标侵权案的判决。
此外,Google眼下还在美国面临着American Blinds and Wallpaper以及澳大利亚的类似诉讼。
搜索优化和用户习惯
搜索引擎在流量吞吐的同时,潜伏了许多利益争夺。例如很多人开始迎合搜索引擎的规则,并且因此获得了巨大的获利空间。
搜索引擎优化(下称SEO,即Search Engine Optimization)也可以称为“针对搜索引擎作最佳化的处理”。这是一种利用搜索引擎的搜索规则来提高目的网站在有关搜索引擎内排名的方式,但也 产生了大量打着SEO旗号的SEC(Search Engine Cheat,搜索引擎作弊)。
本想靠搜索营销淘金的广告主,有时会感觉形同鸡肋,因为“竞价排名”方式费用偏高,还存在点击欺诈,使其不敢对广告效果抱多大希望。这些企业更倾向选择搜索引擎优化,大量搜索引擎优化公司应运而生。
比如针对“普洱茶”这个关键词,近期业内进行了一次SEO大赛,各路SEO参赛选手竞争的内容是,谁能将自己建设的网站在一定时间内,尽可能地在百度和Google针对普洱茶搜索上取得最高的排名。
这后来引发了百度对这些网站的批量封杀——因为如果使用了搜索引擎不允许的手段,就会遭致搜索引擎的封杀。
SEO的大量存在让搜索引擎又爱又恨,因为SEO可以普及搜索营销概念,但又会挑战搜索引擎设立的规则,损害用户和广告商利益。
事实上,不同搜索引擎对用户体验的理解也是不同的。百度副总裁俞军曾在接受本报采访时表示,由百度贴吧、知道组成的社区跟搜索是“天作之合”,可以帮助 用户提高搜索“性价比”。用户如果觉得对搜索结果不太满意,可以到“知道”中寻求其他网民的帮助来解决问题,反过来,“知道”创造的页面又为下一次搜索提 供更匹配的结果。
俞军表示,而做完“贴吧”,做完“知道”,就会发现很多的用户需求需要“空间”这样的形式才能满足,其在百度的行为才能变得完整和顺畅。在他眼里,搜索应该是一种完整的体验。
而Google一直依靠简洁、快速打天下,Google认为用户从来到Google搜索直至离开,这个时间越短越好,这代表Google提供的搜索服务最为快捷,用户体验也能达到最佳。
但是,与此理念有所差异的是,Google在中国最近也推出了类似的社区,因为中国用户跟欧美用户对互联网服务的习惯不同,Google也需要社区化服务来满足这种需求。
可以肯定的是,全球用户的要求是一致的——不想看过多的广告,但这个用户需求会在多大程度上被满足,或者在多少广告收入面前会被妥协掉,这要看沉默的大多数与越来越强大的搜索引擎之间的博弈。
加州大学伯克利分校图书馆的搜索教程 字串4
首页:http://www.lib.berkeley.edu/Teac ... ernet/FindInfo.html
基本策略:http://www.lib.berkeley.edu/Teac ... net/Strategies.html
―――很多著名大学图书馆都有做教搜索的主页,加州伯克利过去半年进步很大,在网上所有免费搜索教程中,已可稳居第一。特点是偏学术化,学生及专业人士更适用。对搜索基本策略的把握很出色,但对搜索引擎的的了解与使用不够。
《Searcher》杂志 http://www.infotoday.com/searcher/
《Online》杂志http://www.onlinemag.net/default.htm
―――互联网上,最优秀的搜索者、最新最高明的搜索经验在searcher杂志和online杂志。唯一的问题是它们是收费刊物,每期只提供少量文章的全文供免费阅读,但这已够你受用的。
Webmasterworld http://www.webmasterworld.com/
―――是互联网上关于搜索引擎的最好论坛。虽然主要讨论搜索引擎注册和排名,但它对搜索引擎的变化反应之快,对搜索引擎的细节挖掘之深,如云高手对搜索引擎的见解之精,"使人们对搜索引擎的认识达到了一种新的高度"――Pandia语。
Searchtools http://www.searchtools.com/
――― 互联网上最好的搜索产品研究网站,内容涉及搜索引擎技术和产品相关的新闻、评论、会议、调查、比较、选购、原理、源码、背景、设计、建议。这里的"搜索产品"定义比较广义,这里没有yahoo或google的地位,搜索者就不用去了,留给制作者、购买者、研究者吧。
Search Engine Conference http://www.infonortics.com/searchengines/
―――搜索引擎工业界的年度盛会。如果你要了解各搜索引擎和各大搜索引擎公司的技术动向,没有比这更好的地方了。
Researchindex http://citeseer.nj.nec.com/cs
―――收录了互联网上最丰富的搜索引擎技术论文。
Search Engine Watch http://searchenginewatch.com/
《Search Day》http://searchenginewatch.com/ searchday/archives.html
―――是互联网上关于搜索引擎的最大网站,偏搜索引擎新闻和注册排名。网站过去的积累适合了解搜索引擎的过去,杰出杂志《Search Day》适合了解搜索引擎的现在。
―――前面提到的都是英文网站,如果你需要中文的,那么,我推荐搜索论坛、搜索研究院、中文搜索引擎指南,搜索论坛有最多的高手,搜索研究院有最纯粹最高明的搜索技巧、中文搜索引擎指南有最全的资讯。
htpp//cn.swordofsearch.com 搜索利剑,搜索营销,垂直搜索研究
Easily add searching to your application with Lucene
Don't let the low version number -- 0.04 as of August 2000 -- fool you. The Lucene search engine is a robust, powerful, and flexible search toolkit, ready to tackle many common search problems. And since it's now available under the more flexible LGPL open source license, the price (free!) is right too.撰文/Sergey Brin. Lawrence Page 翻译/万思
文章来自《程序员》
英文原文可以在这里找到http://dev.csdn.net/develop/article/12/12657.shtm
关键字:WWW 搜索引擎 网络爬虫 PageRank Google
作为一种功能强大的搜索引擎,Googic的背后似乎隐藏着巨大的奥秘,本文是Googic的两位创始人在1998年国际互联网大会上发表的论文,通过对Google进行完整地剖析,帮助读者理解Google的实现过程。
4.3抓网页运行
网络爬行机器人是一项具有挑战性的任务。执行的性能和可靠性甚至更重要,还有一些社会焦点。网络爬行是一项非常薄弱的应用,它需要成百上千的web服务器 和各种域名服务器的参与,这些服务器不是我们系统所能控制的。为了覆盖几十亿的网页,Google拥有快速的分布式网络爬行系统。一个URL服务器给若干 个网络爬行机器人(我们采用3个)提供URL列表。URL服务器和网络爬行机器人都是用Python实现的。每个网络爬行机器人可以同时打开300个链 接。抓取网页必须足够快。最快时,用4个网络爬行机器人每秒可以爬行100个网页。速率达每秒600K。执行的重点是找DNS。每个网络爬行机器人有它自 己的DNS cache,所以它不必每个网页都查DNS。每一百个连接都有几种不同的状态:查DNS,连接主机,发送请求,接收回答。这些因素使网络爬行机器人成为系 统比较复杂的部分。它用异步IO处理事件,若干请求队列从一个网站到另一个网站不停的抓取网页。运行一个链接到500多万台服务器的网页爬行机器人,产生 1千多万登陆口,导致了大量的Email和电话。因为网民众多,总有些人不知道网络爬行机器人是何物,这是他们看到的第一个网络爬行机器人。几乎每天我们 都会收到这样的Email“哦,你从我们的网站看了太多的网页,你想干什么?”还有一些人不知道网络搜索机器人避免协议(the robots exclusion protocol),以为他们的网页上写着“版权所有,勿被索引”的字样就会被保护不被索引,不必说,这样的话很难被web crawler理解。因为数据量如此之大,还会遇到一些意想不到的事情。例如,我们的系统曾经企图抓一个在线游戏,结果抓到了游戏中的大量垃圾信息。解决 这个问题很简单。但是我们下载了几千万网页后才发现了这个问题。因为网页和服务器的种类繁多,实际上不在大部分Internet上运行它就测试一个网页爬 行机器人是不可能。总是有几百个隐含的问题发生在整个web的一个网页上,导致网络爬行机器人崩溃,或者更糟,导致不可预测的不正确的行为。能够访问大部 分Internet的系统必须精力充沛并精心测试过。由于象crawler这样大型复杂的系统总是产生这样那样的问题,因此花费一些资源读这些 Email,当问题发生时解决它,是有必要的。
《The Anatomy of a Large-Scale Hypertextual Web Search Engine》
这篇文章中,我们介绍了google,它是一个大型的搜索引擎(of a large-scale search engine)的原型,搜索引擎在超文本中应用广泛。Google的设计能够高效地抓网页并建立索引,它的查询结果比其它现有系统都高明。这个原型的全文 和超连接的数据库至少包含24000000个网页。我们可以从http://google.stanford.edu/ 下载。
设计搜索引擎是一项富有挑战性的工作。搜索引擎为上亿个网页建立索引,其中包含大量迥然不同的词汇。而且每天要回答成千上万个查询。在网络中,尽管大型搜 索引擎非常重要,但是学术界却很少研究它。此外由于技术的快速发展和网页的大量增加,现在建立一个搜索引擎和三年前完全不同。