JB的测试之旅-SEO了解下

2,122 阅读24分钟

前言

最近在负责一个SEO的项目,一路上遇到很多坑,捅了不少篓子,可以说算是SEO的特性相关,因此想写一篇博客当总结,主要围绕2部分去展开:

1)什么是SEO
2)SEO的特性,或者说需要注意的点

SEO介绍

基本信息

那seo到底是什么?去度娘找了下资料,解释如何:
SEO(Search Engine Optimization):搜索引擎优化;

那是干嘛的?
是一种方式:利用搜索引擎的规则提高网站在有关搜索引擎内的自然排名

目的是什么?
为网站提供生态式的自我营销解决方案,让其在行业内占据领先地位,获得品牌收益

简单理解,就是在了解搜索引擎排序原理的基础上,对网站进行站内和站外优化,从而提升网站关键词排名概率,获取流量;

这样需要说明,seo不仅仅是排名,它是五个要素的集合,即搜索需求覆盖,收录,排序,展现以及数据分析。

一般高质量的站点,都会有以下特征:

1:站内关键词布局合理。有系统化的细分行业关键词库,可满足不同用户的关键词差异化搜索需求。
2:网站具备良好的收录比。大量有效的收录降低了无效页面的占比。
3:或品牌词,或长尾关键词,或次要关键词在搜索引擎中的位置合理。尤其是长尾关键词的流量占比更大。
4:网站布局合理,界面美观,视觉观感强,相应的互动功能齐备,能满足大多数细分用户的搜索需求,能留住点击进来的新用户,并转化为老用户。
5:网站打开速度稳定且快速,有良好的用户体验。
6:对于使用不同设备浏览网站的用户,针对性的对网站进行适配等设置,保障用户可方便,正常浏览。
7:网站外链呈自然增长态势。
8:网站内容受众大,内容质量度高。
9:具备良好的历史数据积累,在搜索引擎中有较大的品牌影响力。
10:用户有较好的访问深度,跳出率低,停留时间长。

404页面

什么是404页面

404页面是客户端在浏览网页时,服务器无法正常提供信息,或是服务器无法回应,且不知道原因所返回的页面。
404错误信息通常是在目标页面被更改或移除,或客户端输入页面地址错误后显示的页面。

404页面有什么用?

1.避免出现死链
网站设置404页面后,如果网站出现死链接,搜索引擎蜘蛛爬行这类网址得到“404”状态回应时,即知道该URL已经失效,
便不再索引该网页,并向数据中心反馈将该URL表示的网页从索引数据库中删除;

2.提升用户体验
404页面通常为用户访问了网站上不存在或已删除的页面,服务器返回404错误页面,告诉浏览者其所请求的页面不存在
或链接错误,同时引导用户使用网站其他页面而不是关闭窗口离开,提高用户体验;


3.避免被惩罚
有些网站由于应用了一些错误的服务器配置,导致返回的是200状态码或是302状态码,虽然这些状态码对访问网站的用户
没有影响,但是却会误导搜索引擎,使搜索引擎认为该页面是有效页面,从而抓取下来。如果404页面过多,就造成了大量
的重复页面,很有可能被搜索引擎认为是作弊而遭到惩罚;

从seo的角度来看404错误页面

搜索引擎通过HTTP状态码来识别网页的状态。当搜索引擎获得了一个错误链接时,网站应该返回404状态码,告诉搜索
引擎放弃对该链接的索引。而如果返回200或302状态码,搜索引擎就会为该链接建立索引,这导致大量不同的链接指向
了相同的网页内容。结果是,搜索引擎对该网站的信任度大幅降低。所以很多网站存在这个问题:404页
返回的是200或302状态码而不是404状态码;

百度权重

什么是百度权重

它是站长工具等第三方平台以当前网站关键词排名情况所带来的预估流量为标准,对网站划分等级,共10个级别,
如权重1,权重9等。需要注意的是,百度权重以关键词排名所带来的预估流量对网站进行评级。
而谷歌pr,搜狗sr是以网站的综合质量为基础进行评级。

影响百度权重的因素有哪些 影响百度权重的因素有多个维度,这些维度类似于相乘结果而不是相加结果。

1:网站外链的相关性,数量,广泛度,曝光度,质量。
2:网站内链的相关性,扁平化,浅层次化。
3:文章内容的质量度。
4:域名年龄。
5:网站历史数据的积累。
6:网站更新频率的稳定性。
7:服务器或空间的稳定性与快速性。
8:各类型关键词所带来的网站流量。
9:各类型关键词的排名情况,一般情况下,关键词排名越高,网站的权重就会越高。
10:收录,收录比越高,被检索的内容才会更多,权重才会越高。
11:有排名的关键词数量,海量有排名的关键词才会提升网站权重。
12:用户行为,用户点击概率越大,浏览深度越深,浏览页面越广,相应的权重会更高。

robots.txt协议文件(重点,这里踩坑了)

robots.txt协议文件有什么用

搜索引擎访问一个网站的时候,最先访问的文件就是robots.txt。她告诉搜索引擎蜘蛛,哪些网站页面可以被抓取,哪
些禁止抓取。表面来看,这个功能作用有限。从搜索引擎优化的角度来看,可以通过屏蔽页面,达到集中权重的作用;

设置robots.txt的原因

1:设置访问权限保护网站安全。
2:禁止搜索引擎爬取无效页面,集中权值到主要页面。

标准写法书写协议
例子如下:

User-agent表示定义哪个搜索引擎,如User-agent:Baiduspider,定义百度蜘蛛;
Disallow表示禁止访问;
Allow表示运行访问;

通过以上三个命令,可以组合多种写法,允许哪个搜索引擎访问或禁止哪个页面。

例子:

1、允许所有搜索引擎访问
User-agent: *
Disallow:
或者
User-agent: *
Allow: /

2、禁止所有搜索引擎访问
User-agent: *
Disallow: /
或者
User-agent: *
allow:

3、只允许搜索引擎E抓取网页和.gif格式图片
User-agent: E
Allow: .gif$
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .png$
Disallow: .bmp$
意思是只允许抓取网页和gif格式图片,不允许抓取其他格式图片

存放位置

需放置在网站的根目录,且对字母大小有限制,文件名必须为小写字母。
所有的命令第一个字母需大写,其余的小写。且命令之后要有一个英文字符空格;

比如:https://www.baidu.com/robots.txt

哪些时候需要使用该协议

1:无用页面,很多网站都有联系我们,用户协议等页面,这些页面相对于搜索引擎优化来讲,
作用不大,此时需要使用Disallow命令禁止这些页面被搜索引擎抓取。
2:动态页面,企业类型站点屏蔽动态页面,有利于网站安全。且多个网址访问同一页面,会造成权重分散。
因此,一般情况下,屏蔽动态页面,保留静态或伪静态页面。
3:网站后台页面,网站后台也可以归类于无用页面,禁止收录有百益而无一害。

sitemap.xml (重要的东西)

sitemap.xml作用

sitemap.xml是一个网站地图文件,方便爬虫寻找爬取路径的一个地图;
sitemap.xml的作用是给搜索引擎看的,当蜘蛛很难爬行我们更深层次的内容的时候,
只要有这个就能让蜘蛛按照顺序进行爬取了,加大蜘蛛对网站的任何,增加收录;

304

304 Not Modified

简单理解:
网站304错误状态码是当客户端尝试访问服务器同一页面的时候,如果二次访问的时候,页面
内容并没有发生改变,那么服务器就会返回304状态码,严格来说,这不是一个错误;

304产生的原因

1)页面长时间不更新
如果页面内容长时间不更新,比如静态页面,那么基本上就会直接返回302,及时是动态页面,
内容没有变化, 一样会返回304;
2)CDN缓存
当开启CDN加速的时候了,即使页面内容发生了变化,但是CDN缓存没有更新,仍然可能会产生这个问题,
解决方案就是设置CDN定期更新的时间;

304对SEO的影响

304不等同于404,理论上不会因为网站任何页面大量出现304状态码产生而产生惩罚行为,但如果页面长时间出现
304,那么会影响搜索引擎对网站的信任评级;

可能造成的影响:
1)百度蜘蛛抓取频率逐渐降低
2)新增内容页面, 收录缓慢,或者网站不收录
3)关键词排名逐渐平稳下降

关于304常见的问题

1)首页出现304,会被惩罚码?
不会被惩罚,但随着时间的推移会降低信任度
2)如何解决304问题
保持持续稳定的更新,注意网站结构设计,利用新增内容,以及随机内容,确保每个栏目都会更新

301

301是什么

页面永久性移走(301重定向)是一种非常重要的“自动转向”技术。网址重定向最为可行的一种办法。
当用户或搜索引擎向网站服务器发出浏览请求时,服务器返回的HTTP数据流中头信息(header)中的状态码的一种,
表示本网页永久性转移到另一个地址。

改版

一般来讲,网站改版分为两种。
一种是前端页面改版。另外一种是链接结构发生变化如更换建站系统的改版。
前者不用使用301,后者则必须使用301。
注:即使是前端页面的改版,也会对主网站的流量造成影响,
其中的原因应该是关键词的位置与频次因为页面的变化而发生了变化。

改版的建议

1)预估网站经历改版所造成的损失
2)确定一定以及肯定使用301永久重定向,不要使用301跳转
3)非常十分以及极其要求使用百度站长平台的“网站改版”工具
4)通过百度站长平台的链接提交工具,指引爬虫爬取更新后的网址url
5)注意观察百度站长平台的索引量数据

带www和不带www的域名重定向

一般域名都会解析成带www和不带www的URL,其实不带www的才是主域。
因为两个不同的访问地址都能访问主页,搜索引擎会认为这是两个相同的页面,权重分散。
至于把哪一个定位到另一个,因人而异。大多数人接受带www的网址,认为“比较专业”。
新购买的空间都有一个临时的访问地址,如果不小心向搜索引擎提交了该地址,
可是一件麻烦事,不仅影响到了真正主域名的权重,还不一定删除得了。

关键词

什么是关键词

从百科的定义来看,关键词是英文“keywords”的翻译结果,,指的是用户在搜索引擎中键入的,
表达用户个体需求的词汇。从wikipedia的定义来看,它的意思是用户获取信息的一种精简的词汇。
实际上,这两个定义所表达的意思是一样的,只是在表述上不同罢了。
假设你在使用百度,你想通过某个关键词获取信息,那么你键入的词汇都可以叫做关键词。

关键词和搜索引擎的关系

搜索引擎的工作原理,具体可概括为爬行和抓取—》建立索引—》搜索词处理—》排序;
搜索引擎蜘蛛无时无刻不在爬行和抓取新鲜网页内容,在此之后,会对有价值的网页内容建立索引,
当用户在搜索引擎中输入关键词后,会通过分词等技术了解用户的真实搜索意图,
并在结果中以排序的方式为用户提供列表型的结果。

一般而言,就是网站的TKD信息,即title、keywords、description;

测试网站速度的方法

相对精准的命令“ping”

Ping命令有两个作用,一是测试网络是否通畅,二是测试网站的加载速度。
使用方法也很简单,以Windows XP为例,点击开始–》点击运行–》在对话框中输入cmd,在点击确定。无
论什么系统,进入DOS是最重要的步骤。一旦进入DOS,
就需要键入ping 你的站点(注意中间有一个空格),此时就会出现相应界面。

从ping结果页面可以显示,你的站点ip是多少,有多少字节,发送数据包最短的时间,最长的时间与平均时间。
实际上,我们只需要查看倒数第二行,看数据包往返行程的平均时间即可,
此图中,平均时间为48ms(毫秒),速度较快。通过此命令,可以判断你需要测试的网站速度,推荐使用。

使用站长工具对网站进行速度测试
http://tool.chinaz.com/speedtest/

相对于本机,它提供多个地点ping服务器的功能,从理论上讲,测试结果会更加合理。
使用方法也较简单,打开站长工具相应页面,在输入框中输入你的站点,点击网站测速即可。如图:

优化

适配&兼容

综合考虑,采用跳转适配(两套模版,不同URL、相同TKD)相结合的方法实现多屏和多浏览器兼容。

  • 例子:首页:http://www.baidu.cn/,WAP首页:http://m.baidu .cn/
  • URL规则保持一致,除了域名前缀不同(前者www开头,后者m开头)
  • PC页面与WAP页面都有一 一对应关系

访问速度

  • 百度搜索在1.5秒内每慢500毫秒,降低3%的用户点击,意味着百度的收录或者是百度分发的流量就会减 少。所以,建议在速度体验上和用户体验上做MIP(点击查看MIP介绍)。
  • MIP解决了什么样的问题?首先它解决了网络的连接优化,重要的是MIP解决了页面不可用以及页面加 载速度慢的问题,包括资源缓存、代码的执行效率、页面的周期管理,这个是MIP解决的问题。
  • 由系统自动读取的内容,建议在凌晨(用户访问量较少)更新,减少服务器运行压力。用户访问网站时不 能出现异常,保证服务器稳定,页面加载的时间控制在1.5秒以内。

图片优化

  • 全站的图片,比如网站logo、栏目列表页的缩略图、详情页正文的图片等,均由程序自动添加alt,无需 title,除了网站logo,其他图片一般对应文章的标题。
  • 按钮式的图片,比如提交申请、免费注册、登录、查看等的文字包含在图片,不显示在html中。

链接优化

  • 全站使用绝对链接:比如 <a href=“http://www.baidu.cn/news/372.html" target="_blank">

  • 首选域设置:更新各个页面中指向首页的目标URL,比如导航菜单、面包屑(位置路径)、锚文本等。

    • PC首页:将以下URL通过301重定向到目标URL(http://www.baidu.cn/),包括 http://baidu.cn/,http://baidu.cn/index.html,http://www.baidu.cn/index.html等。
    • WAP首页:将所有能够访问WAP首页的URL(包括http://m.baidu.cn/index.html等)通过301重 定向到目标URL(http://m.baidu.cn/)。
  • 备注:301重定向表示永久性跳转,搜索引擎会把原来对于A页面的排名权重转移到B页面上去,平稳过 渡,然后在搜索引擎的数据库中删除A页面,替换成B页面。

  • 慎用二级域名:除了WAP站外,其他任何页面都不使用二级域名。

  • 以下文字或图片的(a)链接,需要添加nofollow:

    • A. 包括爬虫抓取不了的登陆、注册、收藏、个人中心等页面
    • B. 按钮式的提交申请、免费注册、登录等页面
    • C. 页面底部导出站外的备案、安全诚信等页面
    • D. 关于百贷宝、联系我们等页面
  • 一级导航菜单的链接,在当前窗口打开: (a href="#" target="_self")其他链接则在新窗口打开;(a href="#" target="_blank")

  • 除非链接中的文字显示不完整,需要由程序在(a)链接中添加title,否则不需要添加,如下图所示。 对于 "更多" 的(a)链接,由程序添加title,(<)a href="#" title="更多买房贷款攻略">)''

  • 空白区域不可点击

页面URL

  • 首页和频道首页为人工设置,栏目列表页和详情页则为程序生成,具体规则见Excel文档-URL部分。 建议:不要改变任何页面的URL规则!如需修改,必需与SEO顾问协商确认,避免操作不当被降权。

  • URL设置遵循:

    • A. 唯一性:同一页面只有一个URL。
    • B. 简洁性:采用伪静态化,命名方式统一(比如频道或栏目页以 "/" 结尾),URL长度及层级要简短。
    • C. 美观性:即语义化,方便访客及Spider能够通过URL快速判断出页面内容的主题。
  • WAP站首页:http://m.baidaibao.cn/,而WAP站内页的URL与PC站的内页相同。

页面TKD

  • 在html代码中连着一起,并位于靠前位置。

  • 原则上,所有页面的TKD不能频繁改变,如需修改,须与seo顾问协商确认,避免出现收录和排名下降。

  • A. 需要编辑设置的文章TKD,参考以下建议进行设置。to编辑:

    • 文章Title
      • A. 标题组合:主标题(长尾词)+ 副标题(长尾细分词or长尾近义词),两者之间用空格隔开。
      • B. 内容:精简、有较强的连贯性和可读性,符合文章的主题(长尾词)。
      • C. 字数:尽量不使用标点符号,控制在26字以内,例如: 公积金贷款能贷多少 个人住房公积金贷款额度是多少
    • 文章Keyword
      • 读取人工设置的长尾词,一般2~3个(必须有多篇攻略文章的标题中含有这个长尾词)。
    • 文章Description
      • A. 读取文章正文的首段内容。
      • B. 编辑在撰写首段内容时,需保证内容的可读性和连贯性,根据标题中的长尾词展开描述,语义完整、表 达简练、呼应主题。满足爬虫抓取需要,重要的是引导用户继续阅读全文。
      • C. 字数:建议80字以内,包含百贷宝字样。例如: 相对于商业贷款,个人住房公积金贷款因较低的利率而广受购房者亲睐,那么个人住房公积金贷款额度是 多少?多能贷多少钱?如何计算公积金贷款额度和利息?百贷宝将为你做详细解答。

404&死链接

  • 404错误页面

    • 尽可能引导用户访问其他页面而非关闭窗口。 返回的是“404”错误代码,而不是返回“200”或“302”,对搜索引擎是很重要的。所以,确认一下全 站的404页面返回状态码是否正确,另外404错误页面不要直接跳转到网站首页(影响首页收录和权重)。
  • 死链接

    • 与404错误链接是一样的,常见于网站改版后。
    • 网站服务器设置出现错误,会出现死链接。
    • 页面URL规则发生变化,且没有进行301重定向,原来的链接变成死链接。
    • 页面URL规则发生变化,有做301重定向,但网页中指向该链接的内容没有及时更新,会出现404页面。

Robots

  • robots.txt放在网站根目录下,链接形式如:http://www.baidu.cn/robots.txt
  • 通过Robots协议,告诉搜索引擎哪些页面能抓取,哪些页面不能抓取。可以屏蔽一些比较大的文件,节省 服务器带宽;还可以屏蔽一些死链接,提升搜索引擎收录的友好度。同时方便蜘蛛爬取网站地图页面。

Sitemap

  • 以下两个文件都放在网站的一级目录下,链接形式如:http://www.baidu.cn/sitemap.html
  • sitemap.html:站内地图,在底部添加链接入口,静态内容一次性添加,动态内容由程序读取。
  • sitemap.xml:为新页面制定满足爬虫收录的标准化内容,由seo顾问在改版上线前提供给爬虫抓取。

代码调用

  • 格式类似:
  • 把冗长的JS代码封装在一个文件中,从而简化页面代码,提升爬虫抓取内容的效率。 JS代码尽可能放在html的尾部(实现异步加载,加载完网页,再加载JS代码,提升爬虫抓取效率)。 同时,还可以将多个JS合并,降低js请求次数以提升加载速度。不过,百度统计代码建议不要合并。 另外,禁止使用flash、iframe、ajax、jquery等形式展示文字或图片。

强调标签

  • 请使用普通的css样式(如span、div等)定义。 相关建议:

    • h1:每个页面多只能有一个h1,通常用于定义页面主题,比如文章标题。 尽量简化H标签的样式内容,比如设置

      标题

      ,而不是

      标题

    • h2:一般用于强调版块标题,比如“贷款攻略”、“贷款利率”
    • h3:一般用于强调分类标题,比如“买房贷款攻略”“招商银行贷款利率”
    • strong:一般用于强调加粗的标题,比如加粗的文字链接、文章段落标题等。
  • Canonical标签

  • 对一组内容完全相同或高度相似的页面(比如列表分页),通过Canonical标签告诉爬虫哪个页面为规范 !4 网页,避免搜索结果中出现多个内容相同或相似的页面,解决重复内容的收录问题,避免权重的分散。

  • 在每个非规范版本的html页面的,添加 rel="canonical" 链接可指定规范网址: (link rel="canonical" href="http://www.baidu.cn/game/hot-0-0-0-0-0/"/)

关键字库

  • 所有文章页的正文第一次出现关键字时,由程序自动匹配锚文本链接到对应的页面,不重复添加链接。

  • 锚文本链接优先指向:

    • A. 行业词:贷款、贷款网、小额贷款、个人贷款等,链接到网站首页
    • B. 落地页产品词:买房贷款、购房贷款、房贷、买车贷款、购车贷款、车贷、信用卡贷款、信用贷等, 链接到对应频道页
    • C. 专题词:比如创业贷款、住房公积金、贷款利率、信用卡逾期、链接到对应的专题“标签页”
    • D. 地区词:热门城市(xxx代表城市名)--- xxx、xxx贷款等,链接到“{城市}贷款” 页面
    • E. 银行机构:根据文章所属的栏目分类,分别链接到“银行-房贷”“银行-车贷”“银行-信用卡”页面
    • F. 银行信用卡:链接到对应信用卡列表页 鼠标经过时出现推荐框:行业词、落地页产品词
    • 备注1--人工添加:行业词、落地页产品词、专题词(一级)……由SEO顾问提供
    • 备注2--程序初始化:专题、银行(全称&简称)、城市(贷款-房贷-车贷)
    • 备注3--链接优先级(左-右):XX(落地页-专题)、银行(机构页-信用卡列表页)、城市(贷款-房贷车贷)

内容生成

  • 预计半年后启动长尾关键词生成系统,需要网站累计较高的收录、权重(至少4+)

友链交换

  • 需要具备较丰富的内容、较多的收录、较高的权重,交换的成功率才高一些,预计上线3个月启动。

  • 交换优先级:PC首页、{城市}贷款频道、其他频道、其他页面。

  • 不同阶段的交换策略有所不同,体现在百度权重值的要求,以下规则将不定期更新。

  • 以下是友链交换的通用方案:

      1. 收录正常, 访问稳定, 不交换以nofollow、下拉框、js调用、iframe调用等形式的友情连接;
      1. 网站无病毒、无流氓性质的插件或弹窗, 不含有与政治、色情相关的内容;
      1. 交换的网站有较高的相关性(目标人群)或沾点边(潜在人群);
      1. 通过站长工具定期检查友链,及时删除无反链的友链;
      1. 友链查找:主动搜索关键词,或者挖掘相关网站底部的高权重网站列表。
  • ◇ PC站首页: 1

      1. 交换的网站首页/频道(二级域名),百度权重≥3,百度PC收录量≥1万
      1. 交换数量:40~50个,每天交换更新 1~2个,每周更换一次权重较低、相关性不高的友链
      1. 关键字比例:小额贷款(50%)、个人贷款(20%)、贷款/贷款网(20%)、百贷宝(10%)
  • WAP站首页:

      1. 百度权重≥3
      1. 交换数量:40~50个,每天交换 1~2个,每月更换一次权重较低、相关性不高的友链
      1. 关键字比例:小额贷款(50%)、个人贷款(20%)、贷款/贷款网(20%)、百贷宝(10%)
  • {城市}贷款频道:

      1. 交换的网站首页/频道/栏目/专题,必须同一城市,关键字排名第一页。
      1. 交换数量:每个频道40~60个。
      1. 交换关键字:广州贷款(80%)、广州小额贷款(20%)

其他

  • Meta:关于viewport、ua、移动适配等属性标签,注意合理使用。
  • 防作弊:通过IP地址等方式限制页面的点击量、评论数等数值在某个时间段内多次刷新多次计算。
  • 检索生成:因为页面庞大,需避免生成多余页面。
  • 百度统计代码:所有前端页面必须添加完整统一的百度统计代码。
  • 百度站长平台验证:将 baidu_verify_0WS3ng5Myj.html 上传到网站根目录下。

小结

花了点时间整理了下资料,有一半内容是公司有个SEO顾问整理的~ 通过这些资料,也算是对SEO整体有更多的认识,其中robots.txt是这次猜中的坑,直接影响是百度不会对网站内容进行收录,会导致之前的所有工作功亏一篑~

谢谢大家~