如果搜索引擎找不到你的网页,世界上所有的优化都将无济于事。任何人在关注SEO之前,必须要提高网站的可抓取性和可索引性,以便被搜索蜘蛛找到。这是网站获取搜索流量的基础,也是不容忽视的。
文章目录
- 网站可抓取性和可索引性
- 提高页面加载速度
- 加强内链结构
- 将站点地图提交给 Google 以及其它知名的搜索引擎
- 正确编写 Robots.txt 文件
- 检查规范标签
网站可抓取性和可索引性
关键字和内容可能是构建大多数搜索引擎优化策略的双支柱,但它们远非唯一重要的。
很少有人讨论但同样重要的——不仅对用户而且对搜索爬虫来说——是网站的可发现性。
互联网上有 19.3 亿个网站,大约有500 亿个网页。对于任何人类团队来说,这都太多了,因此这些机器人(也称为蜘蛛)发挥着重要作用。
这些机器人通过跟踪从网站到网站和页面到页面的链接来确定每个页面的内容。这些信息被编译成一个庞大的 URL 数据库或索引,然后通过搜索引擎的算法进行排名。
导航和理解网站内容的这个两步过程称为抓取和索引。
作为一名 SEO 专业人士,无疑已经听说过这些专业术语,但为了更清晰的描述,让我们对它们进行定义:
- 可抓取性是指这些搜索引擎机器人扫描和索引您的网页的能力。
- 可索引性衡量搜索引擎分析您的网页并将其添加到其索引中的能力。
正如可能想象的那样,这些都是 SEO 的重要组成部分。
如果网站的可抓取性较差,例如许多死链接和死胡同,搜索引擎爬虫将无法访问网站上所有内容,这会将其从索引中排除。
另一方面,可索引性至关重要,因为未编入索引的页面不会出现在搜索结果中。
既然已经介绍了这两个过程的重要性,那么看看网站中影响抓取和索引的一些元素 – 并讨论需要关注的5个基本方面。
提高页面加载速度
有数十亿个网页要编目,网络蜘蛛不会整天等待您的链接加载。也可以称为爬网预算。
如果网站未在指定的时间范围内加载,它们(爬虫)将离开您的网站,这意味着您将保持未抓取和未编入索引。如果网站存在这方面的问题,对于SEO来说是毁灭性的,采取其它任何措施都没用。
因此,定期评估页面速度并尽可能改进它是一个好主意。
可以使用 Google Search Console 或 GTmetrix 等工具来检查您网站的速度。
如果网站运行缓慢,请立即采取措施解决问题。这可能包括升级服务器或托管平台、启用压缩、缩小 CSS、JavaScript 和 HTML,以及消除或减少重定向。
通过查看 Core Web Vitals 报告,找出导致加载时间变慢的原因。
WordPress 网站强烈建议使用一款适合自己的页面缓存插件。
加强内链结构
良好的网站结构和内部链接是成功的 SEO 策略的基本要素。搜索引擎难以抓取杂乱无章的网站,这使得内部链接成为网站可以做的最重要的事情之一。
“内部链接对于 SEO 来说非常重要。我认为这是您可以在网站上做的最重要的事情之一,以引导 Google 并引导访问者访问您认为重要的页面。”
Google 的搜索倡导者 John Mueller
如果内部链接很差,还会面临孤立页面或未链接到网站的任何其他部分的页面的风险。由于没有任何内容指向这些页面,因此搜索引擎找到它们的唯一方法是从您的站点地图(Sitemap)中。
要消除此问题以及其他由结构不良引起的问题,请为站点创建一个合乎逻辑的内部结构,甚至是花些时间制作一个供自己审查的架构图。
另一件需要注意的事情是死链接,包括那些在 URL 中有拼写错误的链接。这会导致链接断开,从而导致可怕的404 错误。换句话说,找不到页面。
这些死链会严重损害网站的可抓取性。
仔细检查所有URL(可通过日志分析检查404的数量),尤其是在最近进行过网站迁移、批量删除或结构更改的情况下。并确保没有链接到旧的或已删除的 URL。
内部链接的其他最佳方法还包括拥有大量可链接内容(内容始终为王),使用锚文本而不是链接图像,以及在页面上使用“合理数量”的链接(无论这意味着什么)。
将站点地图提交给 Google 以及其它知名的搜索引擎
虽然很多网站在不提交站点地图(Sitemap)的情况下,搜索引擎也会抓取网站,但这样的消极态度对网站的搜索排名没有帮助。
站点地图是位于根目录中的文件,通常命名为Sitemap.xml。它作为搜索引擎的路线图,直接链接到网站上的每个页面。
这有利于可索引性,因为它允许搜索引擎同时了解多个页面。爬虫可能遵循五个内部链接才能发现深层页面,但通过提交 XML 站点地图,它可以通过一次访问您的站点地图文件找到所有页面。
如果有一个层级较深的网站,经常添加新页面或内容,或者网站没有良好的内部链接,则将站点地图提交给搜索引擎尤其有用。
正确编写 Robots.txt 文件
在网站创建一个robots.txt文件虽然不是必需的,但 99% 的网站将其用作经验法则。
它告诉搜索引擎爬虫如何爬取您的网站,主要用途是管理机器人流量并防止网站因爬虫频繁请求而过载。
在可抓取性方面派上用场的地方是限制搜索引擎抓取和索引的页面。例如,可能不希望被索引的目录、购物车和标签等页面。
但错误的实施 Robots.txt 会对SEO造成不利影响。
至少我们应该偶尔检查一下 robots.txt 文件是否无意中阻止了爬虫访问网页。
robots.text 文件中的一些常见错误包括:
- Robots.txt 不在根目录中。
- 通配符使用不当。
- 被阻止的脚本、样式表和图片。
- 没有站点地图URL,建议文件底部加上:
Sitemap: https://www.rrnav.com/sitemap.xml
检查规范标签
规范标签将来自多个 URL 的信号整合到一个规范 URL 中。这是一种有用的方法,可以告诉搜索引擎索引您想要的页面,同时忽略重复和过时的版本。
例如:/a.html
和 /a.html?ver
如果是相同内容,就应该使用规范标签,假设希望索引的是/a.html而排除后者,则可以在页面中添加以下代码:
<link rel="canonical" href="https://www.rrnav.com/a.html" />
如果不这样做,搜索引擎将抓取两个相同内容的网页(甚至更多,?a、?b、?c……),可能不会索引任何一个,因为它们是相同内容。
如果网站面向国际流量,即,如果将不同国家的用户引导至不同的规范页面,则需要为每种语言设置规范标签。这可确保网页以网站使用的每种语言编入索引。