胡小明:两种视角的大数据思维

作者:胡小明发布日期:2015-11-15

「胡小明:两种视角的大数据思维」正文

一、迷雾中的大数据

1.望文生义的大数据

大数据是当今最热门的词汇,也是概念最混乱的词汇,基本词汇在不同场合出现时会有不同含义,澄清基本概念的含义及其含义变化的规律对于深入探讨大数据机会是非常必要的。

用耳熟能详的词汇代表一个全新的概念很容易造成理解上的混乱,人们太容易望文生义,以自己原有的理解去想象新概念而不去了解该词汇此时的新含义,望文生义是阻碍人们学习新知识的大敌,研究大数据必须先忘掉大数据习俗概念,从"大数据"形成的背景研究开始观察。

2.清晰概念的两条路径

清晰一个概念通常有两条路径,一条是查阅各种文字解释,不同的解释有助于形成概念的整体印象,若要领悟概念的精髓,还得走另一条路,即需要重复新概念形成的思维过程,要从对背景与大量案例的观察入手,从具体事例中抽象出新概念,反复用新事实考验自己的概念,使概念的内涵更加丰富。后一种方式虽然耗费时间,但能提高概念举一反三的创新能力,因为从文字解释获得的理解只能返回到文字中去,而从大量场景实例中抽象出来的概念很容易返回到应用实践中,这对于提高应用创新能力极为重要。

3.理解新名词背后的故事

仅靠名词解释学习新名词的重大缺陷是会忽视该名词的成语含义,当一个名词成为舆论热点时它已经有了自己的故事,变成了一个成语,已增添了时代背景赋予的新含义,这种新含义不是名词解释所能囊括的,而这个新含义正是我们理解新概念的关键。

在大数据出现之前,我们已有海量数据之称,仅从字面解释两词差别不大,但联想其出现背景可知两词含义大不相同,海量数据仅仅是形容数据量大并无新的内涵,而大数据不同,它代表着一个新时代的到来,史无前例的数据规模充斥着人类社会各个方面,意味着社会生产力发展的巨大机会。

4.从应用出发的大数据理念

使新理念成为社会热点的动力是利益,大多数人是从新理念能否为自己带来效益的视角决定是否欢迎这种理念。不同行业、不同背景的人对大数据理解的重点有所不同的,如IT技术部门理解的大数据是现有数据处理技术所处理不了的数据规模是大数据,这种视角有利于宣传技术优势;政府部门的大数据概念更多强调政府数据的综合应用,因为这是政府部门数据应用最迫切的课题;在工业领域中,大数据与智能化紧密联系在一起,典型如自动驾驶汽车等,与数据挖掘类的大数据应用的模式很不相同,智能设备直接依据数据操作,没有信息提取概念。准确理解不同用户不同场景下的大数据含义非常重要,这不仅有利于与不同的用户准确对话,也有利于发现不同场景下的大数据创新应用机会。

二、大数据的技术背景

1.数据充斥的新时代

与数据库时代海量数据只集中于大型机相比,互联网时代大规模数据已无处不在:人人都有手机,时刻处于连接,GPS随时定位,网上查询、购物、聊天、游戏不停,银行卡、交通卡、门禁卡不停地刷,视频监控、ETC等时刻记录过往车辆,智能化设备已经穿戴在身上,一切智能设备都是数据设备,当今时代不仅是数据爆炸时代,也是智能设备遍布各个角落的时代。

大数据时代是信息技术发展的必然结果,新技术出现不是人所能控制的,机会成熟了新技术将应运而生,你不发明别人会发明,技术就像生物,只要环境适当就会自然生长,大数据时代的到来不可抗拒。

2.摩尔定律缔造基础

与其说大数据是一种技术,不如说大数据是一种环境。大数据应用不是靠某项发明,而是社会信息环境的变迁的结果。大数据概念代表着社会性,没有信息技术大普及不可能生成如此多的数据,没有计算机存储能力的指数增长,大数据将无处存放,数据量的膨胀速率与摩尔定律是一致的。摩尔定律的贡献不仅是计算机硬件功能的指数增长,还使硬件成本的急剧降低,使智能手机迅速普及,使传感器成本极大下降,进而使自动化数据收集成本趋于微不足道,从而迎来大数据的爆发,摩尔定律是推动大数据的一大功臣。

3.网络推动了大连接

推动大数据时代的另一大功臣是通信的大发展,互联网与移动互联网的贡献甚伟。高速互联网连接了全球计算机设备,物联网将这种连接扩展到智能终端,一台台智能设备与整个互联网连接,自由地交换数据,将单台设备的数据能力升级到全球网的层次上,极大地提升了系统的智能潜力。

高效的通信网实现了更多的连接,梅特卡夫定律指出网络的价值与参与者的平方成正比,连接的增加就是机会的增加,也是全社会数据利用能力的增加,更是提高生产力机会的增加。

4.软件与新技术的创新

大数据应用的核心技术是软件,大数据的技术定义是"现有数据处理技术所不能胜任的大规模数据",此话引申含义是:大数据处理新技术是大数据应用的关键,没有新处理技术的大规模的数据只能是一堆垃圾,是软件技术的新发展才使垃圾变废为宝。

软件的作用不仅仅是大数据资源的数据挖掘,还是智能技术集成创新的粘合剂,将硬件设备、网络资源、传感器、控制器与数据组织成为能够实现目标的智能系统靠的就是软件,软件是智能系统的灵魂,软件工程的发展与软件工具的积累为大数据智能系统的大量涌现奠定了基础。

5.大数据生态环境

大数据所体现的已经不是一项一项的孤立的信息技术,而是多种信息技术共生的新生态环境。这些新技术包括传感器、高速网络、移动互联网、智能终端、云平台、大数据处理技术、地理系统技术等等,这些基础技术的出现为新技术、新应用的创新提供了良好的机会,我们知道,新技术出现的基本渠道是已有技术的集成创新,积累的技术越多创新机会就越多,这是一个正反馈循环,大数据时代是数据大爆发的时代,也是智能系统大爆发的时代。

三、信息驱动的大数据视角

1.互联网巨头的大数据理念

大数据概念的出现来自互联网巨头业务的推动,史无前例的庞大数据急剧地向谷歌、亚马逊、百度、阿里、腾讯等互联网巨头集中,几乎要撑爆一切现有的数据存储系统,互联网巨头们疯狂地扩充服务器数目(已达百万级),其数据量还在指数增长,如何利用如此庞大的数据成为一个新课题,由此产生了大数据最原始的定义:现有信息技术所不能处理的大规模数据称为"大数据"。

史无前例的数据规模推动了大数据技术的发展,这种新的处理技术使得互联网巨头聚集的大规模数据成为重要的资源而不是垃圾。这种超大规模的数据资源的利用改变了人们从数据中获取信息的理念,促成了大数据应用理念革命。

2.大数据理念革命

《大数据时代》作者迈尔-舍恩伯格将大数据理念革命的精髓概括为三点:

(1)不是抽样数据,而是全部数据;

(2)不是精确数据,而是模糊数据;

(3)关注相关性,而非追究因果性。

迈尔-舍恩伯格对大数据应用归纳的新理念入木三分,对长期处于小数据统计分析的人员如醍醐灌顶,大数据提供了一种挖掘信息的新思路,对于利用大数据资源获取信息的应用非常重要,大数据思维为科技探索提供了新模式。

3.信息驱动的大数据应用特点

迈尔-舍恩伯格的观点代表了最纯正的大数据理念,是真正拥有超大规模数据资源的机构需要认真体会的,对国内如BAT类互联网巨头们如何利用好自己的数据资源有着重要的指导意义,也是很多希望利用大数据资源获取信息的政府部门需要认真学习的。

迈尔-舍恩伯格描述的大数据理念是大数据的信息应用视角,关注的是如何从大数据中挖掘出更加准确、更加丰富的信息,目的是利用这些信息来指导和改进人们的工作,提高决策的水平,这是为人脑服务的大数据应用。人是靠信息决策的,这类大数据应用的目标是提取信息,可称之为信息驱动的大数据应用。

政府部门的大数据应用大都是信息驱动型大数据应用,它与传统的统计数据处理的目标是一致的,都是要从数据中提取信息供决策使用,都是面向人脑用户的大数据应用。

4.信息驱动的大数据应用难点

信息驱动型大数据应用的主要困难是缺乏可用的大数据资源。在传统的统计调查中,统计调查是由信息需求者设计的,调查得到的数据与所需要的信息密切相关,信息浓度高且容易处理。大数据应用尽管有很多优点,但却不可能为了获取信息而去设计大数据收集系统,因为其成本太高。大数据应用只能使用业务系统积累的数据资源(收集成本由业务系统承担),大数据应用是业务数据的副产品,信息使用者找到适用的业务数据资源并不容易。

目前拥有大数据的部门大都利用用户数据来优化本公司的销售业务,如亚马逊的商品推荐,电信部门的套餐推荐等等,但对没有大数据的企业要利用他人的数据注意还是很困难的,一是合适的数据资源并不好找,二是利用这些资源的成本并不低,是否值一做仍是一个问题,只有那些管理已十分精细的企业才有兴趣利用外部大数据资源改进自己工作。

四、政府官员心目中的大数据

1.政府官员心目中的大数据

人们对概念的理解与其工作背景密切相关,不少政府官员将大数据的理解为统计数据处理概念的延伸,对大数据与海量数据不加区分,他们认为将政府数据资源整合起来就是大数据,政府数据集中在一起就是大数据,大数据应用不过是政府数据资源的整合应用。

从多数部门目前的实际工作看,一时也没有区分大数据与海量数据必要,但是从长远来看区分两种概念还是必要的,海量数据的思维会把政府的数据视野局限在传统数据渠道之内,而大数据思维会引导政府拓展数据渠道,利用企业大数据、传感器数据、互联网数据等等,并向非结构化数据应用拓展,政府会考虑与外部机构的大数据合作,开放的思维能够提高政府的信息能力。

2.大数据并不适合大决策

利用大数据资源改善政府的信息能力提高决策水平是很多政府的目标,但是决策水平的提高是很复杂的事情,大数据能发挥作用有限,不能期望大数据能全面提高政府决策水平。大数据的长处是对具体业务进行改进,擅长解决的是小问题而不是大决策,它只对业务管理已经走上正轨的部门有所帮助,对于管理不善的部门无能为力。

大数据对重大决策帮助不大的原因来自以下两点:

(1)影响政府决策的重要因素大都是无法精确数字化的,例如整体形势、公众舆论、传统习惯、干部水平、社会需求等等都难以数字化;

(2)大数据只能产生于特定的环境中,其结论必然带有局限性,庞大的数据规模会诱使人们夸大其在决策分析中的权重,反而增加了片面性。

决策依赖于多方面信息的综合,大数据只是提升政府信息能力的工具之一,不能期望仅靠一项工具就能解决政府决策的诸多问题。

3.德鲁克反思IT对高层决策的影响

上世纪末,德鲁克在《21世纪的管理挑战》一书中对信息技术对高层决策的影响进行了反思,

上一篇 」 ← 「 返回列表 」 → 「 下一篇