变革家,专注创业项目分析,帮股权投资者把好第一关!最近,关于大数据的各种讨论不绝于耳。所有人都在谈论这种近乎神奇的新资源,它理应改变和提高商业生命周期的各个方面。
正确理解大数据
定义一个接一个,各类学者试图对大数据理论、模型、分析、解决方案等等提出自己的见解。但有2点是清晰的:
首先,关于大数据最常见,而且也是最佳的定义是由道格拉斯•兰尼(Douglas Laney)在2001年提出的。在为META Group撰写的一篇研究报告中,兰尼将大数据的特质总结为规模庞大的数据集合(volume)、高速(velocity)地累积和变化、以及广泛(variety)的来源种类。这就是我们如今仍在使用的经典的3V定义。虽然后来有人加入了更多的特性,尤其是“真实性”(veridicality),但这其实是一种分类错误。因为它谈的是人们从大数据中提取出的信息的性质,而不是从量化的角度考虑到大数据本身的特性。
其次,在2012年世界经济论坛上增加了第四个V:价值(value),将大数据作为一种新的经济资产。这没有改变大数据的定义,而是表明,无论大数据是什么,它都具有非常重要的价值。同年,IBM现任董事长兼CEO罗瑞兰(Ginni Rometty)在他的年度公开信中写道:“大数据不亚于一种新的自然资源。数据在我们当今时代的角色就像是蒸汽、电磁和化石燃料对之前时代的角色一样。它有潜力推动更高一层的社会进步和繁荣。”
现在基本没有人会怀疑大数据是一种非常真实的现象,并且是一种对任何组织来说都非常珍贵的资源。正如那句被用滥的比喻,许多重要特征让大数据成为新的石油,这其中有5大特征最为重要。
1、非竞争性(non-Rival)
与其他许多无形资产一样,大数据是非竞争性(non-Rival)的。与石油不同,它可以被许多消费者同时使用和重复使用。更确切地说,这意味着向个人提供大数据的边际成本是零。
2、持续增长(Rising)
与包括石油在内的其他资源不同的是,大数据还呈指数级增长(Rising)。易安信(EMC Corporation)的数据显示,在2013年之前的所有历史时期内,人类积累了4.4ZB的数据(1ZB是1000EB,1EB是1000PB,1PB是100万GB),但到2020年,我们将拥有44ZB(44万亿GB)的数据。90%的数据产生于过去2年,而在2015年产生的数据超过了过去5000年的总和。
此外,这种增长唯一的限制是物理学、人工智能和内存支持。现在这种资源的利用率只有1%,部分原因在于一些被大数据支持在遗忘或者忽略的成本。这些成本涉及获取和存储、可用性和处理模式、防护和安全、可及性、分析以及法律费用。然而,值得注意的是,得益于信息革命,人类成功发明了以极低成本产生巨量数据的技术。
3、精炼(Refinable)
这些海量数据很容易处理和精炼(Refinable)——精炼是大数据的第三个R特征。这意味着在某些情况下,大数据可能是反竞争的:一家公司越使用大数据,它的质量和价值就越高。
4、可再生(Renewable)
大数据是可再生的(Renewable),像太阳能一样。
5、可转变用途(Repurposable)
最后,大数据是可延展和转变用途的(Repurposable)。这是大数据一个伟大但却也令人沮丧的一个特征:只要你有正确的远见,出于一个目的收集的大型数据库可能被用于完全不同的另一个目的。数据转变用途的一个典型例子是不起眼的邮政编码。邮编最初是美国邮政局为了改善普通邮件投递而设计的,但它现在已成为处理无穷无尽的商业和社交应用的主力,与信封和邮票毫无关系。
另一个更近一些的例子是,Trip Advisor拥有巨量的网络数据,结果却被旅行社之类的机构用来评估某个地区饭店的健康和安全标准。
然而,正是因为无法预见大数据有哪些新的应用,你就很难完全明白你该如何处理获得的数据财富。实际上,一开始很难计划应该记录和处理哪一种大数据。
作为一种资源,大数据是非竞争性、不断增长、可精炼、可再生以及可转变用途的。这五个R让大数据在至少6个队任何企业都非常关键的主要应用领域成为一项伟大的资产。大数据可被用于:
1.改善服务、产品或流程(比如公司后勤),因为大数据可以帮助找到低效的地方;
2.为用户或客户量身定制产品或服务,因为大数据让公司更了解他们;
3.预测趋势发展方向,因为大数据可以表明历史是如何塑造未来的;
4.激发可能的战略,比如新产品的设计和发行、时间、方式、方式、目标人口等等,因为大数据能够让公司用电脑模拟实验,看到在设计的“如果”条件下的虚拟场景中会发生什么;
5.规划并决定替代方案,因为大数据支持实证选择;
6.最后,对产品和服务进行创新或革新,因为大数据可以帮助公司预测或只是找出新的、未被发现或者以其他方式无法察觉的需要、愿望和需求。
大数据的商业价值
显然大数据的价值极大。问题在于,当人们谈论大数据的实际价值的时候,事情变得混乱起来。让我们先从市场价值、市场价格或者经济价值的标准差别说起,这种差别非常重要。
假设一副画在eBay上拍卖,没有任何底价或者“一口价”选项。Alice是一位专家,她知道这幅画真正的基本价值应该是1000美元,这是它的市场价值,也是她准备支付的价格。
Bob不知道这幅画的市场价值,但他查看了同一画家其他作品的估价,估计这幅画当前售价通常会达到1500美元。这是其市场价格,也是Bob的最高出价。
Carol不知道这幅画的市场价值和价格,她所知道的是,自己只愿意为这幅画出价800美元。对她来说,这是这幅画的经济价值。
注意,这3个人的估值可能完全不同:Alice可能出价500美元,表明这是她所认为的这幅画的经济估值,即便她知道实际价值高出一倍,她可能想捡个大便宜。
正如你所看到的,他们的出价与Alice的知识、Bob的理性分析和Carol的需要和愿望都有点关系。一旦他们确定价格以后,不相关但是有联系的是这3个估值之间的比率。在这个例子里,Bob的市场价格高估500美元,而Carol的经济价值低估200美元。
这些之所以重要,是因为很难确定无形资产的市场价值和市场价格,比如品牌认知度、专利、商标、版权、商业模式甚至商誉(即良好的客户基础、客户关系和员工关系等等)。尽管根据Ocean Tomo发布的年度研究报告,2015年标普500指数中逾84%的价值由无形资产组成。
我们不知道这种价值有多少依赖公司所有的大数据。我们知道的是,确定此类无形资产的市场估值实际上是不可能的。这并非是因为缺乏度量工具。例如,就市场营销而言,人们可以努力使用客户终身价值(CLV)来预测与客户的未来关系带来的净利润。
而是因为人们不可能对一家公司的大数据的价值本身给出一个合理的近似值,除非他明确知道大数据的用途及如何成功运用。因此,合理的方法是谈论大数据的经济价值,这么做是为公司准备从大数据中获取信息付费时做一参考。这种新古典主义的方法有助于我们聚焦于大数据的真正用途,也就是人们准备付费的东西:小模式。
小模式为什么关键?
仔细想想看,如果一种模式或者趋势可以轻易被发现,你就不需要大数据了。正如NSA曾经说过的那样,你需要大海捞针。只有当模式或趋势很小的时候,你才需要海量的数据来发现它。
因此大数据就像是一个显微镜:一个分析企业中细小但是非常重要的特征的伟大工具,只要你知道你自己在找什么。由于如此多的数据现在可以非常快速而低成本地产生和处理,因此无论是亚马逊、Facebook、谷歌等数据新贵,还是银行、石油公司或者超市等老牌数据巨头,它们的压力是在庞大的数据库里找到具有真正附加值的新模式,以及如何才能最大程度利用这些模式创造财富。
小模式之所以关键,是因为从科学到商业、从治理到社会政策,它们都代表着竞争的最前沿。在一个竞争和开放的思想市场,如果其他人能够比你更快更成功地利用它们,你可能很快就会破产。就像柯达(Kodak)一样,错过利用根本性的创新;像施乐帕克实验室(Xerox PARC Lab)错过鼠标和图形界面解决方案(GUI)一样——而史蒂夫•乔布斯(Steve Jobs)将这种技术转化为商业上的成功。
当然,小模式也可能有风险,因为它们突破了可预测的极限。它们可能让一家公司预测并操纵人们的行为。这不仅是一个法律问题,而且还是一个道德问题。第一个注明的案例出现在2012年,主角是美国零售商Target。当时Target依靠对25种产品的购买模式分析,为每位顾客分配了“怀孕预测”指数,估计她们的预产期,并在其妊娠阶段及时寄送优惠广告信息。在一则引起轰动的新闻里,Target制造了大麻烦——它寄送的优惠广告让某位蒙在鼓里的家长发现他们还在读高中的女儿怀孕了。
至此,从大数据中获取价值似乎只需要有一个合理的战略找到能对企业产生积极影响的小模式。遗憾的是,事情并没有那么简单。小模式只有在做到以下几点的基础上才有意义:正确汇总,比如就会员卡和购物建议而言;进行比较,比如当一家银行可以使用大数据打击欺诈的时候;以及及时处理,比如在金融市场。
信息在匮乏的时候也有指示作用,因此可怕的消息是大数据之所以对于一家公司价值极大正是因为缺乏小模式。这看起来似乎有些矛盾:什么东西会因为其匮乏而有价值呢?想想福尔摩斯正是因为发现了本应狂叫的狗没有叫才最终侦破那个著名案件的吧。如果大数据在本应“叫”的时候没有“叫”,显然事出有因。困难就在于理解本应发生而没有发生的事情。
掌握数据科学的“黑魔法”
日益扩大的大数据海洋中有价值的“潜流”越来越多,但是对于没有计算能力的人来说是看不到的,因此更多更好的技能和技术将会有极大的帮助。当IT部门要求更多的资金的时候,它可能有非常好的理由。然而,仅靠他们一己之力,再多的数字技术和解决方案也依然不够用。没有能够自动从大数据中获取经济价值的方式,经济价值就是从大数据中找到的小但是重要的模式。如果你觉得只要等着更好更强大软硬件就能解决问题,你最好还是三思。单纯地储存数据没啥用。
从2007年起,世界产生的数据就超过了可用存储量。我们已经从思考“存储什么”转向了“清除什么”。有些东西必须被清除,而且从一开始就不应该记录。想想你的智能手机由于存储了过多的图片而变得空间不足,这已经是一个全球性的问题了。信息界多年前就已经用光了自己的储存空间,需要清空给自己的数据腾地方了。这并不像看起来那么坏。改写一句广告界俗语:一半的数据是垃圾,只是我们不知道是哪一半。
一家公司需要的是,前瞻性地深入理解哪些数据值得首先存储和处理。这就得明白现在或未来哪些问题会引起关注,从而找出相关的小模式。大数据只提供答案,但它们对该问的问题保持缄默。这些问题来自负责人的智慧。也就是说,由于大数据的价值是小模式,最终获胜的将是哪些“知道如何回答问题的人”。正如柏拉图2500年前在某部作品中写道的那样(Cratylus, 390c)。
只有那些知道怎么样提出正确问题的人才知道,哪些数据可能会回答问题有用和相关,从而值得收集和处理,目的是开发它们的宝贵模式。我们需要更多更好的技术和技能来发现大数据中的小数据模式,但我们更需要更多更好的思路来筛选有价值的模式。
大数据将会不断地增长。应对它的唯一方式是了解自己是谁和正在寻找什么。目前而言,此类技巧被当做分析学和数据科学的“黑魔法”教授和运用,并不完全是大学里的标准课程。这种情况将很快改变,因为对此类技术的需求正在堆积。而且因为我们如此多的业务、创新和福利都取决与数据科学,现在是时间开发一套系统地方法论了。谁知道,哲学家可能也会学习一些东西,教授一些东西。柏拉图应该会同意。
参与讨论