一搜搜索引擎登录指南-Yahoo研究

时间：2022-07-02 20:14:30 编辑：袖梨来源：一聚教程网

      一搜（yisou.com）是雅虎公司基于全球领先的YST（Yahoo Search Technology）技术，在中国推出的独立搜索门户。

一搜是如何抓取我的网站的?
      一搜应用雅虎搜索引擎技术(Yahoo! Search Engine Technology，简称YST),它是一套基于算法的Web索引抓取程序，能够自动探测网络内容。YST 这套机器搜索程序从因特网上采集文档，建立起一个可搜索的索引系统。这些文件（即您的网站文件）能被YST程序发现和抓取的主要原因是，在因特网其他的网页上包含有这些文档的直接链接。
YST 搜索程序严格遵守robots.txt标准执行抓取，因此，对于那些您不希望被一搜搜索引擎返回的结果，搜索程序不会执行抓取。任何被robots.txt标准认为不适宜抓取的文件，既不会被包括在抓取文档中，也不会进入到搜索引擎的数据库。
　
　
      怎样能够减少搜索引擎对我的站点发出的请求？
由于我们从整个因特网上抓取数以十亿计的网页，对于网络抓取我们采取大量系统，因此，您的网络服务器会从不同的YST抓取程序的客户端IP地址登录请求。不同的抓取程序系统彼此配合，来限制任何来自单一网络服务器的活动。所谓单一网络服务器，是由IP地址判断的。因此，如果您的服务器主机拥有多个IP，它的活动则会处于更高的级别。
在robots.txt 里，YST有一个特定的扩展名，可以通过它对我们的抓取程序设定一个较低的抓取请求频率。
您可以加入Cral-delay:xx指示，其中，“XX”是指在crawler程序两次进入站点时，以秒为单位的最低延时。如果crawler频率对您的服务器是一个负担，您可以将这个延时设定为任何您认为恰当的数字，例如60或300。
例如，您想设定一个20秒的延时，语句如下：
User-agent: Slurp
Crawl-delay: 20
　
如何使一搜只索引某些网页？
      一搜的YST搜索引擎遵守noindex（不做索引）的meta-tag。您可以在web文档的上部写入：
      这时，YST 会追踪这个文档，但不会索引，也不会将其收入搜索引擎的数据库。
　
　
      看见重复发出的下载请求，这是怎么回事？
通常来说，在一次抓取过程中，YST 搜索程序只会对网站的每一个文件拷贝一次。但也有偶然情况，也就是说当抓取程序被中止并重新启动时，它会重新抓取最后一次拷贝的文件。但这类情况并不经常发生，也不会导致您的系统故障，请您放心。

推荐专题

最新下载

热门教程

一搜搜索引擎登录指南-Yahoo研究

相关文章

热门栏目

php教程

asp.net教程

手机开发

css教程

网页制作

办公数码

jsp教程