一、了解死链
1、死链都有哪些类型?
A:死链一般是指页面已经无效,无法对用户提供任何有价值信息的页面。包括协议死链和内容死链。
(1)协议死链:页面的TCP协议状态/HTTP协议状态明确表示的死链,常见的如403、404、503状态等。
(2)内容死链:服务器返回状态是正常的,但内容已经变更为不存在、已删除或需要权限等与原内容无关的信息页面。内容死链,服务器端返回HTTP状态码200,无法设置为404。
2、Q:死链是如何产生的?
A:死链可能存在以下来源:
(1)网站内部主动或被动添加了错误内容链接,发现后需要及时做404处理,如网站被恶意添加大量黄反内容等。
(2)网站服务器、空间或程序问题,导致网站短暂无法访问,如服务器不稳定。
(3)外部链接错误,用户或者站长在站外发布了错误URL。
(4)爬虫提取不完整的URL,个别爬虫在提取页面URL时,因为URL中有不规则字符,或者URL与后边的文字链接起来,导致URL失效。
(5)网站改版,网站改版后,之前的老域名页面直接删除,导致了大量的死链接。
3、Q:为什么要及时处理死链 ?不处理是否有影响?
A:(1)死链是页面无效,不能给浏览用户提供任何价值,但增加网站的管理成本。
(2)当网站死链数据累积过多时,且被展示到搜索结果页中时,对网站本身的访问体验和造成负面影响。
(3)百度蜘蛛会定期检测网站页面内容价值,若存在大量死链,可能会影响网站整体评价,从而不能更好的进行网站抓取和展现。
4、Q:如何发现网站中存在的死链接?
A:(1)搜索资源平台工具:抓取异常工具可以查看最近产生的死链,且支持导出功能。
(2)参考爬虫软件:此类工具可以爬取全站所有链接并分析页面状态,分析完成后,支持导出功能,提取死链接即可。
二、教你如何处理死链页面
1、Q:如何有效处理死链?
A:死链资源的更新,不同网站可能会存在不同周期。为保障及时更新死链,可以通过资源平台-【死链提交】工具,进行提交。
2、Q:如何使用平台工具处理死链?
A:使用【死链提交】工具有效的提交死链,需要以下步骤:
第一步:处理的页面设置404页面
将需处理的页面设置404页面,生成死链文件整理被黑、无效等需要被删除的资源,页面设置404,一定是404页面。
将需提交的404页面列表制作成一个待提交的文件,制作方法请参阅帮助文档:
(与sitemap格式及制作方法一致)
第二步:将文件放置在网站根目录下
将死链文件放置在网站根目录下,比如您的网站为example.com,您已制作了一个silian_ example.xml死链文件,则将silian_example.xml上传至网站根目录即example.com/silian_ example.xml。
第三步:登录百度搜索资源平台
登录搜索资源平台,找到【死链提交】工具。(若未站点验证,需要先完成站点验证,之后使用工具提交文件)。
第四步:提交死链数据
(1)【资源提交】-【死链提交】工具中提交死链文件。
(2)提交完成后,关注死链文件处理状态。