查看: 741|回复: 0

SEO随身笔记:蜘蛛不一定喜欢所有的食物

[复制链接]

4301

主题

6529

帖子

2万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
20323
发表于 2019-1-5 18:36:25 | 显示全部楼层 |阅读模式
有的时候,一个网站并不是所有页面都希望被收录,如正在测试的页面,死链接,复制页面等等。这些页面抓取会消耗搜索引擎分配给网站的总抓取时间,造成真正有意义的页面反倒不能被抓取和收录。

如果通过检查日志文件发现这些无意义的页面被反复大量抓取,想要收录页面却根本没被抓取过,那应该直接禁止抓取无意义的页面。抓取和收录是不同的两个过程。要确保页面不被抓取,需要使用robots文件。
搜索引擎蜘蛛访问网站时,会先查看网站根目录下有没有一个命名为robots.txt的纯文本文件,robots.txt用于指令搜索引擎禁止抓取网站某些内容或指定允许抓取某些内容。

一.叔现在教大家使用几个常用的robots指令:
A:允许所有搜索引擎抓取所有页面和内容
User-agent:*
Allow:/
B:禁止所有搜索引擎抓取所有页面和内容
User-agent:*
Disallow:/
C:禁止网站某一个页面被抓取(比如该页面是“ xinwen”)
User-agent:*
Allow:/
Disallow/xinwen/
... ...
当然robots还有很多指令叔就不一一列举了,想要了解更多的请订阅叔。
robots文件一定要根据自身网站的抓取收录情况来设置,需要查看网站日志,看看蜘蛛抓取了哪些页面,这些页面是否对网站整体流量排名有作用?实际情况实际分析。
二.网站地图:

叔这里说的网站地图不是网站上面显示公司地址的百度地图。正解如下:
定义:网站地图,又称站点地图,它就是一个页面,上面放置了网站上需要搜索引擎抓取的所有页面的链接(注:不一定是所有页面),是网站所有链接的容器,蜘蛛非常喜欢网站地图。
形式:1.HTML版本,是用户可以在网站上看到的、列出网站上所有主要页面链接的页面。这个根据你网站的情况而定,如果导航太多,内容太多,可以列出一个主要页面的网站地图方便用户浏览。
2.XML版本,sitemap.xml。是搜索引擎蜘蛛抓取的地图,网站地图给蜘蛛爬行构造了一个方便快捷的通道。
作用:方便蜘蛛爬行;方便访客浏览网站;可以提高网站的权重同时提高网站的收录率。
生成网站地图:可以通过软件sitemapx生成,比较方便的软件,也可以通过百度站长工具去提交。
通过提交XML网站地图通知搜索引擎要收录的页面,只能让搜索引擎知道这些页面的存在,并不一能保证一定被收录,搜索引擎还要看这些页面的权重是否达到收录的最低标准。所以网站地图只是辅助的办法,不能代替良好的网站结构。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则 返回列表 发新帖

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

快速回复 返回顶部 返回列表