安度论坛 » 网站运营 » 对垃圾网站的精辟分析-绝了
本页主题: 对垃圾网站的精辟分析-绝了 打印 | 加为IE收藏 | 复制链接 | 收藏主题 | 上一主题 | 下一主题

黑白道
我一直在努力...
级别: 论坛版主

查看作者资料 发送短消息加为好友
精华: 0
发帖: 145
威望: 0 个
金币: 88 个
贡献: 0 个
银币: 5391 个
在线时间:18(小时)
注册时间:2007-08-15
最后登录:2007-12-21

对垃圾网站的精辟分析-绝了

中国的垃圾网站之多,估计一般人都不知道的,而百度、google等搜索引擎确一直深受垃圾网站的困扰。据我个人估计,垃圾网页可能占到中国总网页数的50%左右,虽然这个占总的比例在下降,但是垃圾网页的绝对数还是在继续增加中,本人在这里对垃圾网站做一下简单的分析。

一,垃圾网页的定义,本人此文中的垃圾网页泛指一切不是真为访客提供有价值内容或者信息为目的,而以欺骗搜索引擎、骗取点击获得利益的网页。主要指依靠采集工具大量复制抄袭其他网站内容的网页。


二,中国互联网垃圾网页横行的原因分析:

1,垃圾网页背后利益巨大。垃圾网站成本低,利润高,我来帮大家算算帐。目前市场上一个域名加2G的空间的一年的成本在人民币150元以下。如果在100hosting.net购买国外主机加CN域名,由于很多国外主机一个空间可以做无限站,那么一个垃圾网站的成本可以低到几十元每年。一个2G的空间可以存放约10万个静态网页,如果被百度的搜索全部收录,网站放google广告的话,每月的收入可以达到2000人民币。这个利润可是非常惊人的。
2,CMS与采集工具的大量使用,使得制作网站成为了体力活,而不是什么高深的技术活。很多垃圾网站制作者每天挂在电脑十几小时采集,厉害的一天就可以搞个5万网页左右的垃圾站。现在网络民工这一新称号主要就是指的这些人。
3,中国法律法规不健全,版权意思淡薄,复制抄袭别人原创内容得不到任何惩罚,使得垃圾网站制造者有持无恐,
4,垃圾网站的主要利润来源与搜索引擎,而目前搜索引擎是不可能绝对从技术方面封杀垃圾网站的。因为目前大部分垃圾网站的制作者都熟知一些SEO知识,,堆砌关键词这样的老套路已经没有人使用了。而是使用一些技术手段来与搜索对抗。


三,中国垃圾网站的过去及未来预测

由于以上原因,中国的垃圾网站可以说世界上最多的,而且可以说这几年是垃圾网站发展的黄金时期,前几年有超人利用关键词生成器类的工具制造垃圾网页,赚了数百万,而这两年依靠制作垃圾网站月收入在5位数以上的也不在少数。但是这样的好光景估计不会再有了。
1,整个个人网站将走向低谷,而垃圾网站自然会走向陌路,因为博客已经逐步取代个人网站成为互联网信息的源头。
2,百度对垃圾网站的反作弊手段比以前先进多了,加上适当的人工干预,垃圾网站想轻易的骗取百度而被收录不是那么容易了。而一向不采取人工干预的GOOGLE面对中国的国情也开始采取人工封站的手段来对方垃圾网站了。
3,国内个人网站大多依靠google adsense生存,由于目前Google在国内市场份额小,但是做adsense的网站却是这样的多导致google adsense的单价日益走低,使得中文站流量越来越不值钱。垃圾网站的收入也大为缩水。
4,面对已经非常成熟的中国互联网,中文网站已经可以说是前景暗淡,大量有远见的站长已经转向国际互联网,改做英文网站了。目前一个同样IP流量的英文网站,广告价值比中国网站高达10倍。


四,对制作垃圾网站站长的建议,制作垃圾网站可能会获得一时的利益,但是你确失去了一个培养常青树的机会,如果你能把你的时间利用起来,专注与某一个网站,如果成功的话你就相当与得到了一个聚宝盆获得持久而又丰厚的收益。

我一直在努力...
顶端 Posted: 2007-09-09 14:46 | [楼 主]
黑白道
我一直在努力...
级别: 论坛版主

查看作者资料 发送短消息加为好友
精华: 0
发帖: 145
威望: 0 个
金币: 88 个
贡献: 0 个
银币: 5391 个
在线时间:18(小时)
注册时间:2007-08-15
最后登录:2007-12-21

什么是垃圾站

在很多时候,我都听到这个名词”垃圾站点“。
这个词在不同的站长眼里有不同的解释,在不同的用户眼中也有不同的定义。基本上搜索引擎的看法就是网站质量差的,是垃圾站,那么同时这个网站质量的标准也提了出来,同样也是一千个人有一千个解释。

今天看到的WW上的一个帖子,列出了25个判断垃圾站的标准,其中有些的确是毫无疑问,有些我却不能苟同。

1)Reciprocal link request pages.
这个是链接请求页面,如果网站上有个链接请求页面,给其它的站长登入自己的站点,来建立链接。
个人认为,并不能一概而论,要看这个链接请求之后,是否自动建立链接,还是需要站长审核通过之后,才会建立链接。

2)No Privacy policy.
没有隐私政策,显然没有隐私政策的网站,可能就是一个个人站点。如果商业网站没有隐私政策,就显得很不可信。

3)Outdated copyright date or last modified date visible on the pages.
版权信息的日期不准确,还显示最后编辑日期在页面上,都不算是一个好的站点。

4)error pages that don't send 404 headers or send content regardless of the page requested/querystring entered.
用常规页面,或者一个不相关的页面来代替出错页面,却又不返回404错误的文件头。这个动作基本上属于欺骗搜索引擎和混淆用户。

5)Massive numbers of incoming links from link farms.
从链接工厂过来的巨量链接。
这个很明显,链接工厂的链接很多都是不相关的站点相互链接。

6)dead/404ing links.
太多死链接。这样的站点给人的感觉就是一个没有维护的站点,属于死站点。

7)High link churn.
高度的链接变动,是指在页面代码中链接的状态变化,所指向的页面的状态变化,非常快。一个站点的链接,很不稳定的话,其可靠度就低。

8)No published contact address, email address or phone number.
站点上没有一个通讯地址或者Email,联系电话。这样的站点,无法给人一个信任感,靠不住。

9)A high bounce rate (surfers clicking back on their browser and selecting another search result).
快速离开的站点,用户会很快点击返回按钮,选择另外的搜索结果。这样的站点很有可能通过欺骗搜索引擎,搞到排名,其实内容完全无关,用户不得不返回寻找合适的站点。

10)Too much duplicate content.
太多的重复内容,在一个站点内,很多页面的内容都是重复的话,这样的站点一定不是好的站点。

11)Whois info for the domain which is the same as other domains previously penalized or banned. (Could also be true of adsense publisher/affiliate ID's and other identifiable footprints)
域名注册信息与之前收到惩罚的站点相同。这个属于关联,很多AdSense发布者都有这样的体会。

12)Use of/links to affiliate programs that are known scams
使用或者链接到那些知名的垃圾站。这个属于近墨者黑的观感。

13)Domains previously used for spam or that are blacklisted.
域名之前被惩罚过,或者是曾经是一个垃圾站点。

14)Stagnation (Site never changes)
一个站点很久都没有更新,内容成就。

15)excessively long URI's/URL's (query strings or folder and file names)
如果站点的网站过分长,比如那个目录名和文件名都是很长的话,比较明显是对搜索引擎的过度优化。

16) A high percentage of affiliate links vs regular outbound links.
交换链接同普通导出链接之比例相当高,这也是过度SEO的症状。

17) No / very few outbound links.
没有或者很少导出链接,也是一个相当值得怀疑的现象。


18) No / very few inbound links.
没有或者很少导入链接,没有其它站点关注这个站点。现象就是这个站点的价值很低。


19) All inbound links are to homepage only
所有的导入链接都是很有规律的指向首页,那么很有可能这些链接都是统一作出来的。

20) Outbound links to questionable/spammy/crap sites.
导出链接指向那些垃圾站点,有问题的站点。

21) Profanity or explicitly adult language on a non-adult site.
在非成人站点,有很多过度暴露的语言,这也是一个不好站点的标志。因为站点的用户来自各个地方,各个年龄层次,如果站点有成人内容,那么就应当同非成人内容的部分区隔开。

22) Too many spelling errors.
文字有太多的拼写错误,这个问题比较容易知道,很有可能这个站点不太会讲英文的人做的,或者是抄袭的,他没有能力来校对。


23) Contains unrelated subjects (ex: a site that reviews toys and tries to sell insurance or viagra).
一个站点的内容混杂而没有一点的关联,比如一个评论玩具的站点,同时销售保险或者伟哥。

24) Lack of interest from social bookmarking sites.
几乎没有从社会化书签站点来的链接。

25) MySQL or PHP errors in the pages
数据库或者PHP错误。

上面的25点,有些是关于站长的能力,有些是故意的,有些是无意的。

如果你的网站有上面的情况,那么就赶快改正吧。
我一直在努力...
顶端 Posted: 2007-09-09 14:49 | 1 楼
黑白道
我一直在努力...
级别: 论坛版主

查看作者资料 发送短消息加为好友
精华: 0
发帖: 145
威望: 0 个
金币: 88 个
贡献: 0 个
银币: 5391 个
在线时间:18(小时)
注册时间:2007-08-15
最后登录:2007-12-21

垃圾站的简单定义

By David Yin on

我曾经谈论过什么是垃圾站,当时是根据Webmasterworld上的文章,给出了25种会被认为是垃圾站的情况。现在我要更为深入的来谈谈这个问题。

首先垃圾信息在英文中的说法是,spam。

那么垃圾站同垃圾信息有什么关系呢?简单的说,充满垃圾信息的网站,就是垃圾站点。
所谓垃圾信息分很多种,让DavidYin来一一说明。

1)内容垃圾
×有很多的隐藏文字
×关键词堆砌
×meta标签的堆砌
×门页
×通过采集Google的搜索结果,或者他人网站的内容,专门做成一个网站,只是为了在上面投放Google AdSense广告,或者其他的广告,所谓Made for AdSense的页面。通常这种网站充满了广告,或者会把用户重定向到其他的网站。

2)链接垃圾
×链接农场,就是把一堆网页互联。
×隐藏链接
×用不同的域名创立一群网站,或者是在各大Blogger网站申请Blog,互相链接,来提高链接数。
×通过在wiki类网站上建立指向自己网站的链接,通常这些链接所在的页面的内容同所指向的网站无关。
×在他人的Blog上留下无关的链接,或者是留言,或者是trackback
×购买过期域名,利用惯性流量指向自己的网站。

当然还有其他的一些比较复杂的垃圾链接的手法,就不讨论了。

在我看来,垃圾站,就是违反Google的网站质量指南的网站,因为上面的几点同Google的质量指南中所指出的几点基本吻合。而最近的Zac对Google的Matt Cutts访谈时,Matt回答的也是同样的答案。


当站点违反我们的质量指南时,Google称为垃圾(spam)。
---垃圾站的定义,就是这么的简单。

趁着这个机会,我也要澄清一个观点。
采集站是否就是垃圾站?
我的看法是不是,这两者不能画上等号。
在周五同网鹰,国宝讨论时,我们的看法也比较一致,采集并不是判断网站是否垃圾的一个标准。当然有相当一部分的采集站,就是垃圾站。判断采集站是否是垃圾站的一个重要原则,就是看站长是否在采集的基础上提供了附加的价值。
比如Google,作为一个搜索引擎,他的内容都是蜘蛛四处抓取回来的,同样也是采集,为什么没有人认为它也是采集站呢?因为它在采集的基础上,分析整合数据,提供给用户的是精准的搜索结果。它提供的是一种服务,而不是内容。

让我来做一个简单总结:


垃圾站的简单定义:违反Google的网站质量指南的网站。
垃圾站的直接目的:欺骗搜索引擎,以获取不符合实际的好排名和大量来自搜索引擎的流量。

垃圾站的间接后果:破坏搜索引擎的排名,影响了搜索的结果,危害了遵守网站质量指南的站长的利益。


注:本文的部分内容参考了维基百科的相关内容。
我一直在努力...
顶端 Posted: 2007-09-09 14:53 | 2 楼
安度论坛 » 网站运营