用数据说话:微博有多少僵尸粉?(新浪+腾讯)
36氪APP让一部分人先看到未来立即打开用数据说话:微博有多少僵尸粉?(新浪+腾讯)2011-05-16
:本文由
投递,文中使用程序统计了部分用户的僵尸粉丝比例,从而得出以下结论。
故事得从一个月前说起⋯
某日,我和300 PK粉丝数以我胜利告终,但是由于筹码过于昂贵(8点半起床买早餐一个月),300同学不服,认为如果扣去僵尸粉,应该他赢。这里插播下僵尸粉的非官方定 义:僵尸粉一般指极度不活跃的用户,多是被人注册来人为增加粉丝数或制造垃圾微博的账户。故事陷入僵局,总得有大侠救场:此时36Kr的LCC碰巧出 现!LCC同学提出一起做个工具来过滤掉僵尸粉,让我们可以客观公正的再比一次。于是,我们一起赶制了个僵尸粉统计器(请移步:
体验)。最后戏剧的结局是,临时参战的Mike以总粉丝最多,去掉54%僵尸粉后粉丝数最低而荣获冠军。再后来,我们意识到,这个小App可以做点更有趣的事情,于是就有了这篇文章。
#新的信息生产与”定价”
在4月中的文章《TWITTER IS THE HEART OF SOCIAL MEDIA》(
) 里阐述了一个观点,微博才是社交网络的核心。在我理解,核心==信息的制造和贩卖中心(因与本文主题无关,若有异议请私下与我讨论)。微博作为轻量级的应 用,用户在微博上消费/传播/生产信息的代价非常低,能够轻易造就信息繁荣,自然也容易成为信息生产中心。相信不少人看到有些门户的文章信息来源就是微 博,类似于“据某某在微博上表示…”的话也很多见。从商业价值方面,如何更好地组织这些信息,以便更好地定价?在以Twitter、sina和腾讯微博为 代表的实时网络语境下,Google的信息组织形式已然不适用,我们需要新的信息挖掘工具来更好的适应当前的信息生产模式。信息组织第一步,跟过滤垃圾邮 件类似,就是把那些恶名昭彰的垃圾制造者(Spammer)咔嚓掉。
#统计设定
实验环境
:sina SAE平台,
参会团队
:sina微博、腾讯微博
只要满足以下三条中的任意一条,基本上离僵尸粉不远了:
*已注销用户
*粉丝数低于5
*微博数低于5
注:判断标准可能过于粗犷,不过无碍于得出定性的结论。
队员风采:
为了能够让两个团队有可比性,我们从sina和腾讯微博的
里面挑选了10位加V的名人用户作为测试样例。选择加V的名人用户是因为容易确认他们的sina账号和腾讯账号对应的是同一个人。这些名人是:
用户
sina微博
腾讯微博
说明李开复
@
@
创新工场董事长兼首席执行官蔡康永
@
@
台湾知名节目主持人杨幂
@
@
艺人,《宫》的女主角郭敬明
@
@
作家,作品有《幻城》《梦里花落知多少》谢娜
@
@
湖南卫视当家主持人任志强
@
@
知名地产商陈光标
@
@
中国首善、江苏黄埔再生资源利用有限公司董事长郎咸平
@
@
极视智库——著名经济学家郎咸平李嘉欣
@
@
香港影星林俊杰
@
@
歌手,代表作《江南》、《曹操》潜在的不公平:
由于相对sina微博的API开放程度,腾讯微博实在不给力(至于有多不给力,请参见我队友@
的文章《
》),我们的小App只能分析一位用户330个粉丝中的僵尸粉比例,而对于sina这个数字是5000。因此,对于腾讯,我们的分析结果可能不够公平。不过,这个只能怪腾讯开放的不够。并且作为一篇非官方的私人的分析报告,为获得些感性的认识,这些数据也OK了。
#sina微博的统计结果
这些名人在sina微博养了多少僵尸粉呢?
平均这10位名人的数据来作为sina微博僵尸粉的总体情况:
如果过滤掉僵尸粉,各位名人真实粉丝的状况如何呢?
总体比例上,sina微博这10位名人用户的僵尸粉数目占了17%左右,似乎并不糟糕。但考虑到这10位名人的粉丝规模都是百万量级,17%也意味着几百万的僵尸粉。因此从绝对数量考量,sina的僵尸粉也应该有千万级别,不容乐观。
#腾讯微博的统计结果
在腾讯微博上,这些名人的僵尸粉状况如下面柱状图所示
似乎更加糟糕,平均这10位名人的僵尸粉状况来看看腾讯微博的总体情况:
同样移除僵尸粉,这10位名人真实粉丝的状况如下,
总体看来,在腾讯微博上,这10位名人用户的僵尸粉状况更加惨不忍睹。而且由于腾讯微博上用户规模高于sina微博,每位名人的粉丝团更在千万量级,结合这么高比例的僵尸粉比例,不活跃的僵尸用户规模大到了惊人的规模。
#直观上验证下
我们可以凭直观感觉体会下微博平台的僵尸粉状况。打开这些名人的粉丝列表,凭直观看看他们的粉丝军团里面哪些用户你觉得似乎还在用微博。
比如,腾讯微博上,以@刘翔的粉丝页面为例,如下图,这15位用户里面,只有2位看起来让我们可以相信TA还在用微博。
同样,以@姚晨 在sina微博上为例,下图20位注册用户里面,也就8位似乎是正经玩微博的,其他的大多像来打酱油路过的。
#结论
作为非官方统计,也不可能得到什么权威结论。从上面的数据可以看出,sina微博和腾讯微博的僵尸用户(或非活跃用户)状况已然很糟糕了,想想08 年Twitter也遇到类似问题,两家微博平台应该考虑大力整饬这一问题了。否则,微博生态环境恶化,会导致整个产业圈失去商业价值而被创业者抛弃,进而 恶性循环。
#PS
这篇文章所用的工具
,我们会持续开放。欢迎各位对数据钟爱的朋友基于它做些有趣的挖掘研究。如需添加什么新的功能,尤其是判定僵尸粉的准则,欢迎私信我(@
),我们一定抽时间鼎力支持。另外,在用腾讯微博的僵尸粉查询服务,如果遇到下图:
可能的原因是:
*腾讯微博开放平台给我们的配额被用完了,您可能需要再等1小时才能继续使用。
*输入的用户名,以李开复为例,不能是李开复,而应该是kaifulee,即李开复老师的腾讯微博的个性域名。(sina微博不受此限,可以直接输入名字)
我们开发主产品之外的时间做了很多小工具,会在将来陆续开放给大家免费使用,很多可是八卦利器,请持续期待^^
原创文章,作者:。转载或内容合作请点击 ,违规转载法律必究。
寻求报道,请 。
2好文章,需要你的鼓励评论区举报邮箱:jubao@36kr.com© 2011~2018 北京品新传媒文化有限公司 | | | 京公网安备11010502036099号