直到现在,web 爬虫程序和站点管理员不得不花大量的时间来解决如何优化某个站点的爬行能力,然后才能搜索到宿主在这个 Web 站点上的相关信息。并且,在理想情况下,还希望不会给宿主服务器添加太多负载,不会触发无必要的动作,并且也不需要在适当的时间间隔内重复爬行这个 Web 站点。
Sitemaps 0.90 协议(参见参考资料中的 Sitemaps.org)提供了一种简便了方法,使 Web 站点管理员可以向爬虫程序提供所需的信息,从而可以安全高效地爬行 Web 站点。此外,这一功能的实现依靠了各种 Web 标准,如 XML。
简 而言之,我们需要做的就是生成一个页面引用列表(URL),爬虫程序通过这个列表获取信息。这个列表存储在一个简单的 XML Sitemaps 0.90 兼容文件中。每个 URL 在 XML 文件中都存在一个条目,该文件只允许强制输入 URL 引用本身。您可以选择性地为每个 URL 列出额外的信息,包括 URL 的最后修改时间、更改频率、终止日期和优先值。(优先值指定了该页面相对这个 Web 站点的重要性。)完成 Sitemap XML 文件后,便可以向支持这一协议的站点提交站点地图的 URL,这样 web 爬虫程序便可以使用该文件了。现在 Google 和 Yahoo! 已经可以支持 Sitemaps 0.90 协议了。
注册站点地图之后,搜索引擎的 web 爬虫程序便会使用站点地图文件所提供的信息,方式如下:先确认需要爬行的页面,然后使用更改频率信息来决定这一次需要处理的的页面。这样,站点爬行的效率为两边都减轻了负担:宿主 Web 服务器和爬虫程序,方法是把 GET 页面请求数量保持在最小值。
总的来说,Sitemaps 0.90 协议对爬行效率提供了改进,而常规站点地图引用和组合的机器指令无法完成这点。
原文:http://www.ibm.com/developerworks/cn/xml/x-sitemaps/index.html?S_TACT=105AGX52&S_CMP=techcsdn

Leave a comment