几个星期前,豆瓣推出了找朋友功能。我好奇的用gtalk & MSN 试了一下, 还真发现了一些联系人也在上豆瓣。但是这些人全部都是些连头像都没有的冬眠用户。
这让我觉得很有趣。可口可乐的谁谁谁说过,想象一下10亿中国人民每人花一元钱买我们的东西,这是一个多么庞大的市场。几个月前豆瓣刚宣布了注册人数超百万,据说豆瓣的用户黏着性高,受教育程度高,愿意花钱,想像这百万豆瓣用户每人花个几百买书买碟,这是一个多么庞大的市场。

但是,通过找朋友工具发现了这么多冬眠用户(其中还有马甲,囧),令我很好奇,豆瓣的百万注册用户中有多少活人?
下面我将对豆瓣用户进行分析以求得出较为令人(我自己)信服的数据:
首先,让我们做个假设1:
非冬眠用户会设置自己的城市
这点我觉得应该没什么争议,看下你的关注或者好友列表里有多少人没设置城市,有吗有吗,即使这些家伙可能半年都没出现在广播里。
好,认可了此点,让我们看下豆瓣里设置了城市所在地的人有多少。
中国(大陆) (177082)
香港 (2159)
United States (1391)
臺灣 (813)
Australia (765)

数据采集时间:公元2008年4月10日

这是前五名人数最多地区,显然,中国大陆占了绝大部分,第二名香港只有区区2159人,几乎可以忽略不记,更遑论三名以后。
经过估算所有地区加起来不会超过19W人口。考虑到极少数非冬眠但是不设置城市所在地的异类,我可以很大方的把这个数字加到20W。
好,这下子就把80万用户剔除去了。但是我们可以说这剩下的二十万就是活跃用户吗?俨然不行,至少在我的朋友加关注总共35人里——尽管他们都有头像有城市——就有超过7个处于人间蒸发状态,所以他们尽管非冬眠但绝非活跃
是否可以用我的朋友加列表的数据作为样本来进行下一步分析呢,结论是不行。理由有两个:
1.数据量太小,大凡学过数理统计的同学们都知道,样本量太小是不能得出可信结论的
2.能够让人关注的基本都是活跃用户。人们会去关注一个冬眠用户么,显然不会。所以这个样本不够客观。
那么,本着严谨求实的态度,吾惟另辟蹊径分析之(握拳)。现在是到了对“豆瓣活跃用户”做一个定义的时候了!
豆瓣是靠书评,影评,乐评起家,虽然他还有着诸如我去,小组,同城,日记等等越来越无用,哦不,华丽的功能,并且越来越向一个淫窝靠拢,但是我们要记住豆瓣的核心是清纯的清纯的清纯的,你说是不是是不是是不是(摇晃摇晃摇晃)
科科科~~

咳咳,刚才太激动了。现在提出假设2:
豆瓣活跃用户的主页一定是满当当而非空荡荡的。这一点不能像假设1那样显然易见,下面我将进行有理有据的证明。
把主页填满,就要访问豆瓣的内容(此处豆瓣的内容指的是上文证明的豆瓣核心内容)。
对豆瓣上内容的访问来源大约有三种:
1.通过google, baidu等搜索引擎。
2.通过豆瓣的搜索来查找某本书,电影。
3.经常蹲守在豆瓣上,看友邻的广播以及豆瓣猜你会喜欢。
再对这三种访问方式进行细分析:
第一种人很好推测,他通常是很精确的想了解某本书,电影来到豆瓣,看完就闪,不带走一片云彩。这种人的豆瓣主页一定是空荡荡的,显然是不属于“活跃用户”范畴内。
第三种人也很好推测,他起止是“活跃用户”,简直就是“骨灰用户”。他的豆瓣主页必然塞的满满当当。
需要详细分析的是第二种人。他的目的,不光是要了解,还有要添加“看过”,“想看”诸如此类的伟大目标。所以,他的豆瓣主页也是很满的。有人会说,也许这是个低调的用户,只看不添加,虽然活跃但是主页还是很空。唔,根据我最近看心理学与生活的心得,身为人类,每个人都有一颗不炫耀会死之心,但是在中国社会做人太高调会很惨,所以如果能遇上低调的炫耀机会,没有(中国)人会放弃!
你想啊,一个人他看完或者正在看《管锥篇》的序言,甚至只是想看,他会不会很想告诉别人我正在看一本值得阅读(炫耀)的书呢?但是,蹦出来抓住你遇见的每一个人说我看了啥啥啥是即高调又不靠谱还很没品的事情,哪能像豆瓣这样,轻轻一点,举手之劳间广播已经帮你润物细无声的昭告天下。再退一步,在豆瓣高度SNS化的今天,哪个用户不希望被来看主页的小MM当成一个有知识有文化有品位的人呢?综上所述,活跃用户的豆瓣主页必然是满的。对了,我正在看的心理学与生活也是非常非常经典的书哦,低调的说。
当然,对于比较严格的人来说,这个活跃用户至少还应该添加点item,写点评论虾米的,通常来说,这种创造用户顶多占用户群20%,号称用户参与度最高的第二人生创造者也不过30%,考虑到国人的围观性格,创造性用户的比列乐观估计10%,也就是2万人。这个数字也忒难看了,别说阿北,我都看不下去。所以还是按照比较宽松的标准:“豆瓣主页看起来很满”来判断是否活跃好了。
好了,第二个假设也证明完了,相信大家现在一定都心悦诚服,科科。但是由于缺乏第一个假设那样现成的,详尽的数据支持,我决定采用方差分析法来计算。真是学好数理化,走遍天下都不怕呀!

为了做好此次统计,我将采集6组数据,每组5人【注1】,来计算活跃用户在非冬眠用户中的比列:
非冬眠用户标准:有所在城市设定
活跃用户标准:主页可以往下拉一页,最后广播时间在08年后
采集方法:以“北京”,“上海”,“广州”,“昆明”,“西安”作为城市关键词搜索用户,并在每组中的第2,4,6,8,10页抽取最后一个人,计算单组比例
统计方法:方差计算
工具:Windows XP Pro SP2 32bit 自带的计算器


【注1】,为什么要采集三十个样本,而不是六十个,三百个,原因我想你知道,我很忙(懒)

这篇文章已经是我写blog有史以来最大的一坨了,所以就不浪费时间列举我具体选了那些人作为样本,相信也没人有兴趣知道这些,结论:
北京组:60%
上海组:80%
广州组:20%
昆明组:40%
西安组:20%
http://www2.blogger.com/img/gl.photo.gif
Add Image
数据采集时间:公元2008年4月10日

经过计算,最终方差均值数据是:44%

20W*44%=8.8W

好了,历尽千辛万险,克服重重阻碍,我们终于获得了可靠的豆瓣活跃用户数(远目)
为了奖励辛苦看到这里的同学,献上珍藏帅哥美图一张:

Comments (3)

On 四月 10, 2008 , blackey 说...

你完全抄袭了朱大的风格。。。

 
On 四月 12, 2008 , Unknown 说...

就是就是,唯一不同就是没有正妹图……

 
On 四月 15, 2008 , Hushlight 说...

这是称赞,我收了,谢谢

 
Related Posts Plugin for WordPress, Blogger...