互联网网页资源现状
CNNIC2014 年年初发布的《中国互联网络发展状况统计报告》中称:截至 2013 年 12
月,中国网页数据为 1500 亿,相比 2012 年同期增长了 22.2%。2013 年中国单个网站的
平均网页数和单个网页的平均字节数均维持增长,显示出中国互联网上的内容更为丰富:平
均网站的网页数达到 4.69 万个,较去年同期增长 2.3%。
为了保证搜索质量、提高用户使用满意度,百度搜索引擎每周都会进行网页质量抽样评
估。然而从近一年的评估数据中我们发现,优质网页的绝对数量非常少,且几乎没有增长;
普通网页的占比在下降,相应的,质差网页的比例却有明显上涨。截至 2014 年 5 月,统计
数据显示,在百度网页搜索发现的海量网页中,优质网页仅占 7.4%,质差网页高达 21%,
其余普通网页为 71.6%。
优质 普通质差
百度网页搜索通过一系列筛选、识别、分析、赋权等工作,努力将更多优质网页呈现在
用户面前,每天约打击上万质量差网站,涉及网页达百万量级,尽可能减少质量差网页给用
户带来的干扰。从下图 2014 年 5 月的网页展现分析数据显示,目前展现在用户面前的网页
质量分布中,优质网页占比为40%,质量差网页降为11%——虽然这个变化已经非常明显,
但百度网页搜索还是希望能和广大站长一起努力,将质量差占比降到更低。
互联网全部网页 在百度搜索得到展现的网页
优质网页 7.4% 41%
普通网页 71.6% 49%
质量差网页 21% 11%
上述质量差网页包括低质网页和垃圾网页两部分,低质网页问题分布如下图所示:
广告体验差
内容空短
有权限限制
过期信息
资源低质
低质采集
低质搜索结果页
论坛水帖
排版差
我们看出
目前低质网页中其严重的问题即因广告过多、占据网页主要位置以及
超预期弹窗带来的浏览体验差,内容空短、网页需要权限才能获取资源和过期信息也是低质
网页的重要组成部分。
质量差网页中除了低质网页外,无任何质量可言的垃圾页面的问题分布如下图所示:
死链对用户、网站和搜索引擎来说都已没有存在的意义,垃圾网页中占比其大。其次是
对用户和搜索引擎伤害巨大的作弊网页,资源无效、有问无答和不相关搜索结果页这些极大
浪费用户时间的网页也是搜索引擎不希望呈现给用户的。