“抄袭网页”是被搜索引擎极其反感的搜索引擎作弊手段之一。百度和google均对复制网页的做法有明确的说明:
百度:如果你的站点上的网页,大量都是复制自互联网上的高度重复性的内容,那么,你的站点也有可能被百度丢弃。
Google:请不要创建包含大量重复内容的多个网页、子域或域……不要采用如联属计划 (affliate programs) 这类原创内容很少或几乎没有原创内容的饼干模子 (cookie cutter)方式。
那么,除了部分作弊者为了欺骗搜索引擎而故意复制网页的情况之外,还有哪些情况是网站在无知的情况下被搜索引擎认定为复制网页?
纽约举行的搜索引擎战略大会SES上,很多与会者就复制网页的问题进行了讨论。以下是各位搜索引擎专家的见解:
Anne Kennedy:复制网页的情况包括不同URL下拥有同样的网站内容,或同一首页下有同样的内容,如index.htm, index.html等后缀下都是同样的内容。
Shari Thurow:搜索引擎对于复制网页的识别和判断也做了大量努力,如搜索引擎在比较两个网页时会排除一些干扰因素如导航区域,headers等,直接分析正文内容部分,其次搜索引擎还会通过分析网页内部和外部链接以判断是否每个站点的链接都不同。
Jake Baillie:很多网站为了方便用户对每篇文章都有一个“打印友好页”的相同内容页面,还有很多产品介绍页面只有产品图片没有文字介绍的内容,都有可能被搜索引擎视为复制网页。
解决复制网页的办法除了简单地不要复制相同内容,还可以在不得已需要复制的网页上通过robots.txt文件让搜索引擎不要索引该页面,或使用301重定向将复制的网页转化成“真实”的网页。
在这次搜索引擎战略大会上,两大搜索引擎的代表也就复制网页问题发表了他们的看法。
Yahoo的代表Rajat Mukherjee说yahoo不会轻易对复制网页降级,而是尽力判断谁是原始内容的网页。Google代表Matt Cutts说,诚实的网站管理员常常担心他们是否不小心触犯了复制网页的禁忌,但他们大可不必担心。Google也是尽力发现复制网页中最原始的那个版本。Google不会对网页的“打印友好”版进行惩罚,同时他还说也不必担心同一顶级域名下不同后缀的网站拥有同样内容,如123.com或123.net。
尽管yahoo和google都表示他们能够对原始网页和复制页面进行明确判断,但专家们认为现实情况是如果某个内容率先出现在一个普通网站上,随后被“权威网站”所转载,Google往往认定权威网站的内容是原始内容站,而真正的原始站点被认为复制网页。不过Google通常情况下不会惩罚复制网页,除非这个网站太过极端,比如做了N多的镜像网站。