当前位置 : 主页 > 极光教程 > SEO优化 >

SEO数据分析之异常值分析

栏目分类:SEO优化  发布日期:2018-08-25    作者:哒哒

 

焦大一直觉得国外的书籍很有意思,比如深入浅出系列的教程,不仅仅图文并茂,而且很多都是和现实紧密相关,阅读起来也轻松愉快。我记得深入浅出统计学有这么个故事,大意是有个年龄30岁的人想进入一个武术班,要求是这个班的学员年龄大部分是和他差不多的,现在有A与B两个班可以提供选择,A班一共10人平均年龄是28岁,B班一共10人平均年龄是26岁。


乍一看,A群体年龄更加适合这个人,但是这里我看到的数据只是整体的一个数据,而且这个数据有个明显的特征是数据量小。数据量小意味着什么?意味着这个数据一旦有异常值,真实情况和平均结果数就有很大的出入。反之,如果这个数据量较大,比如A班有上百人甚或上千人,那么A班肯定是最好的选择,反之,也许B班是最好的选择。


接下来看具体数据,果不其然,A班有2个异常值,有2个年龄岁数非常大的人在A班,而B班年龄都是相差不大的。所以B班是这个人最好的选择而不是A班。里面具体的数据我忘记了,大意是A班有2个80岁的人,所以拖动了整体平均年龄的上升,而B班都是23到30岁左右的人。


这个故事或许是虚构的,但是折射出数据分析的一个很需要注意的问题:排除异常值后的数据才具有参考性。这个道理其实也可以放在我们seo的数据分析上,拿个最简单的例子来说,比如换友情链接吧。换链接的人大部分都会查询下对方网站的数据,然后依据一定的特征来决定是否和别人进行交换,比较常见的特征有PR值、百度权重、出链数量、收录数量、快照日期、site是否首页第一等等。相同的数据(或特征)对于seo深度理解不一样的人来说,可能取舍有很大的不同,比如有的人就认PR值高低,而有的人就认百度权重高低等等,而没有人从整体或者深度数据观的角度去思考一些问题。


比如PR值,我记得我2011年做seo的时候,还是PR横行的时代,与人交换链接时候没有PR值是很难的一件事。那时候我看到很多有趣的事情,比如有的站PR莫名的很高,但是用雅虎外链工具(那时候外链的最主要的参考工具)查询的时候却发现那些站却没有外链。我们做seo最基本一个常识是什么,PR是怎么来的,靠链接传递而来的,一个网站的PR很高却没有外链,这个网站的seo数据是不是很虚或者说这个PR压根就是一个大异常值嘛,可是一些网站站长却不管这些,只要你PR值高就牛逼了,哈哈。


现在人们逐渐从PR转向了百度权重,于是乎也出现了一些奇怪的网站,其百度权重值很高,但是这些站建站时间很短而且主要的是流量词都集中在1个或2个,有的流量词很多个,但是流量词都是一些很奇怪的词语,比如一些加有奇怪字符,有的网站流量都是品牌词的流量。对于正常性含有百度权重的网站,比如我的小站,百度权重都是1,但是流量词的来源却是有很多个,而且都是一些常规性seo搜索词,截图如下:


seo正常数据

而一些网站的seo数据很奇怪,比如下面一个网站百度权重为6的流量词排名:


seo异常数据


对于判读seo数据异常,我们如果略加思考,可以发现很多有趣的问题。比如有的站品牌词搜索量其高,而同行的很多人都没有听过这个品牌,这个品牌也没有做过广告投放,这个是不是一个异常值?一些站如果有很多奇怪字符的搜索,假使你是个正常人,会不会这么搜索呢?如果一个站搜索词很集中在几个词,甚至这些词确实是有人搜索的词语,但是网站title其他的长尾词都没有排名,单单一两个难度大的词有排名,这又是神马情况呢?

 
手机批发 手机批发