几天前无聊在 Google 看对我这个站点的收录情况 (site:qingbo.net),结果让我很意外:
看截图,严重的重复内容!SEO 之大忌,这里有 Google 关于重复内容的解释。重复内容事实上是说不同的页面(即链接,URL)有相同或过度相似的内容。当然这对用户来说很不友好,而搜索引擎作为方便用户查找信息的工具,也当然不喜欢这样的站点。
不过我的站点被 Google 收录的所谓重复内容,实际上都是同一个页面即首页,只不过 Google 给首页加了参数 (?s=xxx) 之后来爬取,我在写程序的时候并没有考虑到。这确实不是爬虫普通的行为,出现这样的情况是因为我改了域名并且在 Google Webmaster Tools 里面使用了 Change of address 功能,而我又没有沿用原来的程序。Google 将原来存在的 url 替换了域名之后来爬取,就出了这样的问题。
解决的办法有多种,比如 canonicalization, 301 redirect, Parameter handling tool 等等。我修改了一下自己的程序判断 URL,如果不是正规的就 301 跳转一下,并且加了 canonical 标签,希望可以解决重复内容。
Leave a Reply