一聚教程网:一个值得你收藏的教程网站

热门教程

一搜搜索引擎登录指南-Yahoo研究

时间:2022-07-02 20:14:30 编辑:袖梨 来源:一聚教程网

      一搜(yisou.com)是雅虎公司基于全球领先的YST(Yahoo Search Technology)技术,在中国推出的独立搜索门户。
 
一搜是如何抓取我的网站的?
      一搜应用雅虎搜索引擎技术(Yahoo! Search Engine Technology,简称YST),它是一套基于算法的Web索引抓取程序,能够自动探测网络内容。YST 这套机器搜索程序从因特网上采集文档,建立起一个可搜索的索引系统。这些文件(即您的网站文件)能被YST程序发现和抓取的主要原因是,在因特网其他的网页上包含有这些文档的直接链接。
YST 搜索程序严格遵守robots.txt标准执行抓取,因此,对于那些您不希望被一搜搜索引擎返回的结果,搜索程序不会执行抓取。任何被robots.txt标准认为不适宜抓取的文件,既不会被包括在抓取文档中,也不会进入到搜索引擎的数据库。
 
 
      怎样能够减少搜索引擎对我的站点发出的请求?
由于我们从整个因特网上抓取数以十亿计的网页,对于网络抓取我们采取大量系统,因此,您的网络服务器会从不同的YST抓取程序的客户端IP地址登录请求。不同的抓取程序系统彼此配合,来限制任何来自单一网络服务器的活动。所谓单一网络服务器,是由IP地址判断的。因此,如果您的服务器主机拥有多个IP,它的活动则会处于更高的级别。
在robots.txt 里,YST有一个特定的扩展名,可以通过它对我们的抓取程序设定一个较低的抓取请求频率。
您可以加入Cral-delay:xx指示,其中,“XX”是指在crawler程序两次进入站点时,以秒为单位的最低延时。如果crawler频率对您的服务器是一个负担,您可以将这个延时设定为任何您认为恰当的数字,例如60或300。
例如,您想设定一个20秒的延时,语句如下:
User-agent: Slurp
Crawl-delay: 20
 
如何使一搜只索引某些网页?
      一搜的YST搜索引擎遵守noindex(不做索引)的meta-tag。您可以在web文档的上部写入:
      这时,YST 会追踪这个文档,但不会索引,也不会将其收入搜索引擎的数据库。
 
 
      看见重复发出的下载请求,这是怎么回事?
通常来说,在一次抓取过程中,YST 搜索程序只会对网站的每一个文件拷贝一次。但也有偶然情况,也就是说当抓取程序被中止并重新启动时,它会重新抓取最后一次拷贝的文件。但这类情况并不经常发生,也不会导致您的系统故障,请您放心。

热门栏目