内容简介
在大数据概念如此流行的今天,为什么要读这本书?中国大数据领军人、大数据创新与实践一线专家、百万级畅销书《大数据时代》中文版译者周涛,耗时三年,将海量真实案例披沙拣金呈现给广大读者。在本书中,您将看到大数据在智慧交通系统、个性化医疗、智慧学校以及金融和商业等领域的中国式创新实践,并为未来大数据的发展提供有可行性的路径指南。
什么样的人才能在下一个时代生存和发展?大数据3.0时代我们究竟要做些什么?数据交易如何让数据资源成为汇聚之地?每个企业又该如何成为大数据企业?周涛教授通过真实案例告诉读者:拥有大数据的理念,能够掌握数据和运用数据的人和企业,才能在“一切都被记录,一切都被分析”的数据化时代得以生存。无论现在从事什么行业,即便不能掌握一项特定的数据技术,了解大数据的理念、培养大数据的思维模式是非常重要的。学会用数据说话,用数据分析的结果来证明“哪个更好,哪个更坏”并指导我们作出正确决策。
这不是坚硬的学术专著,而是一部柔软的情怀之书!没有晦涩的文辞,枯燥的说教,字里行间洋溢着浓浓的数据情怀和拳拳的责任之心。周涛教授讲述了很多在大数据领域努力拼搏,希望有所创新的中国人的故事,相信这些故事背后的理念、技术和精神能够唤起更多年轻的创新者,为我们民族的复兴作出自己的贡献。
领跑大数据3.0时代,大数据创新实践的扛鼎之作!大数据1.0,是将自身业务上产生的大量数据,利用深入的分析使其不断优化,优化之后的业务产生更多数据的正向循环。大数据2.0,是如何把自身业务的数据用来解决业务以外的其它问题,或者如何用业务以外的数据解决自身业务的问题。大数据3.0,是如何在资本和文化的催化作用下,让数据、技术、需求和人才等大数据创新要素融为一体。三个版本强调的不是时间上的先后顺序或逻辑上的依存关系,而是就其与传统数据应用在理念上的差异程度进行的划分。
精彩书评
周涛是中国年轻有为的大数据专家,他不仅做大数据研究,而且将产、学、研融为一体,在大数据创新实践上一直卓有成效。在大数据渡过普及期的今天,更需要像周涛这样的一线专家与实践者为下一步大数据的创新指出方向:大数据3.0时代我们究竟要做些什么?数据交易如何让数据资源成为汇聚之地?每个企业又该如何成为大数据企业?
在他这本洋溢着浓浓的数据情怀与拳拳的责任之心的著作中,我们可以看到系统而清晰的路径指南!
——田溯宁
宽带资本董事长
当大数据的概念如此流行的時候,难得有本好书可以把实操、理论和理念都讲明白的,值得认真一读!
——曾鸣
阿里巴巴集团执行副总裁
文笔优雅,深入浅出,思维缜密,思想深远!
——杨强
香港科技大学教授
周涛用大数据分析的新视角,重新审视我们所面对的这个世界,他带领一群年轻人,在“大众创业,万众创新”的道路上,迈出了自己坚实的脚步。在大数据挖掘与分析,特别是网络数据的挖掘与分析方面做出了系统性的贡献,其创新成果解决了重大科学问题,突破了关键核心技术,产生了重大社会经济效益,显著改善了百姓生活。
——“2015年度十大科技创新人物”颁奖词
目录
自序:在麻瓜和魔法师之间做出选择
Part.1 大数据时代,用数据说话
01 从万物皆数到万事皆数 / 005
主动或被动,我们都是数据贡献者
一切都被记录,一切都被分析
四大方面,让数据指数级增长
02 从十数九表到数态万千 / 017
结构化数据
非结构化数据
03 从隔水相望到阡陌交通 / 029
地点数据
个人数据
数据与数据,1+1远大于2
大数据创新实践:
用购买记录给用户画像
04 大数据和云计算驱动新工业革命 / 039
计算:第三次工业革命中的新能源
数据:第三次工业革命中的新材料
证析:第三次工业革命中的先进工艺技术
个性化:大数据时代最显著的商业特征
大数据创新实践:
一张失败的公交卡
个性化医疗,安吉丽娜·朱莉和史蒂夫·乔布斯
Part.2 大数据1.0:分析
05 统计呈现洞见 / 055
抓出非法的MCC套用
打击“电老鼠”
“抓获”过度医疗和骗保行为
识别社交网络中的垃圾用户
新浪微博面临的三大问题
快递员的通话记录蕴藏哪些商机
付费节目点播最多的是什么
06 关联蕴含价值 / 075
关联规则挖掘
协同过滤
关联分析是寻找因果关系的利器
大数据创新实践:
谁最关注超声波洁面产品
发现“一月三电号”僵尸用户
07 预测指导决策 / 089
点击购买类预测
基于移动轨迹的位置预测
链路预测
大数据预测的主流方法是什么
大数据创新实践:
一张信用卡逾期不还款的概率有多大
签到记录预测用户的土著化指数
Part.3 大数据2.0:外化
08 寻求外部数据的帮助 / 109
从行为数据预测学生考试成绩
从食堂打卡记录中“定位”孤独人群
从社会计量标牌洞察人力资源管理
预测离职率和升职率
行为数据让非法集资无所遁行
09 自身数据的外部价值 / 129
45个关键词实时预测流感趋势
阿里巴巴的“淘CPI”指数
10 机器学习,数据外化最神奇的利器 / 139
机器学习三板斧1:特征
机器学习三板斧2:模型
机器学习三板斧3:融合
Part.4 大数据3.0:集成
11 交易市场:数据资源的汇聚地 /155
科研数据共享
政府数据开放
全国可流通数据的目录体系
12 数据城堡:数据人才的竞技场 / 175
Kaggle,数据科学之家
数据城堡,Kaggle模式的中国尝试者
13 创新工厂:数据技术的嘉年华 / 185
大数据创业公司困境
大型传统企业信息化的难题
构建大数据挖掘平台
建设大数据创新工厂
结束语 成为大数据企业 / 201
致谢 / 211
试读
[结束语]
成为大数据企业
什么样的企业可以称得上是大数据企业呢?恐怕没有人能够给出一个完美的答案。但是,直观地,我们可能觉得Google 更像是一个大数据的企业,阿里巴巴也像是一个大数据的企业,而中国银行似乎不太像一个大数据的企业,尽管它每天也一样浸泡在海量的数据中。除了具有处理大量数据的能力外,之所以Google 和阿里巴巴更像大数据的企业,是因为他们有深入的数据分析工具,利用数据分析的结果直接指导决策,而且经常推出基于数据分析的创新型应用,这还不包括类似于AlphaGo 这样的奇葩。
这是我第三次以文字的形式谈论如何成为一个大数据企业。一是很早以前在“科学网”上写的一篇博客,二是为一本名为Code Halos 的书写的序言。这个版本可以看作是上两个版本的补充和扩充,同时也是本书一些重点内容的重述(为了保证本文的独立性,可以不依赖本书直接阅读,少量书中给出过的文献和注释在本文中重复出现了)。然而遗憾的是,并没有一条放之四海皆准的通往大数据企业的康庄大道,更没有点石成金之术可以让一个企业快速Google化。这篇结束语只是提出一些看得见摸得着的建议,藏在这些建议背后的大数据理念,或许更加重要。
尽管我是用Step1、Step2 这样的说法来列举成为大数据企业的措施,但是这些步骤之间并没有严格的逻辑上谁决定谁或者时间上谁先谁后的关系。举个例子来说,最好的办法当然是先有了数据标准再整理采集数据,这样可以不走任何弯路,但实际上完全没有数据,企业不会有动力做标准建设,做出来的标准也可能是纸上谈兵,完全不实用。又比如,数据管理平台的建设能够帮助更好地进行全面数据化,但实际上它多半是全面数据化战略进行了一定程度之后才开始启动建设的。总体来说,写在更前面位置的,是更基础的,但是没有绝对的依赖关系。
Step 1. 全面数据化
“数据化”浪潮是整个大数据时代的起点,它强调数据就是资产,记录一切可以记录的数据,并相信这些数据一定会在某一天产生巨大的价值。显然,数据化是一个企业能够通过深入数据分析,实现自身优化的基础。
我去长虹集团调研的时候,他们告诉我,长虹电器在自己的生产线上,通过大量传感器,记录生产环境的温度、湿度、粉尘度、振动强度和噪音强度,等等,通过这些量化指标与产品质量的关联分析,得到影响产品优品率和良品率的关键因素,再进一步通过控制环境因素,明显提高了产品的优品率。企业在日常的经营管理过程中,通过办公自动化系统(OA系统),很多内部即时通讯、邮件往来、工作分配和业务文件上传下载等日志数据都被记录下来了。这些数据就是宝贵的财富!正如我在书中第三部分提到的,我们通过对这些数据的分析,能够更精确地预测员工的离职率和升职率,更精确地预测员工和部门的绩效水平,帮助企业员工通过基于关联用户和文本智能匹配快速找到对自己现有业务和客户有参考价值的案例和文件,等等。但是这些提升,都是建立在企业拥有相应数据的基础上。
总的来说,全面数据化要求企业采集并存储企业生产经营中的一切数据,形成企业数据资产的概念。
Step 2. 整理数据资源,建立数据标准,形成管理规范
很多企业已经有了一些数据储备,或者通过第一步,开始快速积累了一些数据。但是企业管理层,尤其是跨业态拥有多家子公司的集团运营的企业,一般而言,对于自己到底有哪些数据资源是没有清晰认识的,更拿不出一张较完备的数据目录。
企业要做的第一步,就是通过自顶向下的方式,成立数据委员会,在有必要的时候借助外部合作方的帮助,进行全面的数据调研,了解数据资源的整体情况并建立数据资源情况更新的流程和规范。
数据资源最基本的呈现方式是一个数据目录,我认为,企业管理团队至少要掌握整个企业数据的3级目录,而企业的主要技术团队应该掌握到4级目录。但数据资源又不仅仅是数据目录,因为还涉及到每一个数据项的完备性、更新程度、有效性和噪音源等描述。掌握了数据资源后,企业要根据自己业务发展的需求,建立数据标准,使现有数据和未来所有的新增数据都能够在同一个标准下统一管理,避免“信息系统建设越多,未来数据整合越难”的困境。业务中涉及大量数据的企业,尤其是涉及到用户隐私数据、国家安全数据和具有重要商业价值数据的企业,要形成数据全流程管理的规范,因为绝大部分数据隐私和数据安全的事件,都不是从外部由黑客或者敌方特定人员通过技术手段获得的,而是本单位人员蓄意或无意泄露的。数据全流程管理的规范就是要做到企业能够对数据进行分级分权限的管理,随时了解敏感数据存储在哪些服务器和终端设备上,对于敏感数据的任何处理,都能够留下数据日志并打上唯一的数据水印,使任何可能的数据泄露之后,都能够追根溯源知道是哪一位员工在什么时间点在哪一台设备上运
前言/序言
[自序]
在麻瓜和魔法师之间作出选择
我在中科大读本科的时候,上过一门关于“符号计算”的课程。当时授课的老师跟我们说,她以前曾经花很多年的工夫学习和研究过“怎么样在以穿孔纸带为输入方式的计算机上高效实现一些数值计算”。当时她的研究水平和成果在国内应该是领先的,本以为就靠此成就大业了,但是很快,这个世界上突然就再也找不到博物馆以外的穿孔纸带了——我们现在都用键盘和鼠标了。
带机的故事让我想起了一个有些悲伤的段子,我且用第一人称复述一遍。我有一个表哥,因为盗窃被抓。表哥负责藏赃销赃,团伙其他人不知道脏物在哪里,他也死活不承认自己知道,结果被重判了10 年监禁。坐牢之后老婆也跑了,亲戚朋友也散了,只有我还时不时去看望一下,带些东西。直到快出狱的时候,表哥才跟我说,等出狱了要带我一起发大财。我当时特别激动,经常在梦中被大富大贵的场景惊醒,也觉得自己真的是好心有好报。等表哥出狱的时候,我隆重地给他接风洗尘。表哥也迫不及待,当晚就买了两把大铁锹,拉我去郊外一个林子里挖宝。“是金条?是银元?”我激动不已,表哥却笑而不答。我们大半夜挖出了两个大铁箱,然后用铁锹把生锈的锁头劈开,哇,满满两铁箱的传呼机。
讲这两个例子,是想说我们这个时代变化太快——这个时代的特征就是有很多新时代层出不穷。而咱们中国人,最最悲哀的事情,就是经常以为自己是时代的精英,最终却成了时代的弃儿。N年以前最让人艳羡的一群人,不是大学生,而是国有企业的工人。他们或许没有想到有一天自己的“金饭碗”会被打破,贫病下岗。现在又有一大群人,削尖脑袋想挤进公务员或者事业单位人员的队伍,好一辈子守着公务员编制或者事业编制。对,就是这群扑火的人,会在未来编制改革的时候看清楚自己飞蛾的本体。
什么样的人才能在下一个时代生存和发展
那么,问题来了,什么样的人才能在下一个时代生存和发展呢?是那些拥有公务员编制或者事业编制的人吗?在下一个时代,自动化、定量化和个性化会成为主要的特征。恒河沙数的智能终端将会遍布这个世界——从农场到工业制造装置,从智能家居到人体内外。这些智能终端采集和产生的数据,经由数据挖掘和机器学习的手段加工分析,不仅能够提高传统农业、工业的效率,还能够为每一个人提供包括教育、零售、娱乐、金融和医疗等方面完全个性化的服务。驱动这个时代来临的关键力量是数据与数据化的思维。
拥有大数据的理念,能够掌握数据和运用数据的人,就是下一个时代的魔法师,反之,你就成了麻瓜!不管你今天从事的是什么行业,金融、医疗、教育甚至只是一个一线的产业工人或者服务人员,你所在的行业将来都很可能被颠覆,你现在的职业将来都可能变成一种自动化的服务。面对奇幻而又危险的未来世界,今天你就需要在麻瓜和魔法师之间做出选择!在一个麻瓜占绝大多数的世界里面,做一个麻瓜也没有什么不好的,然而很可能,未来的世界是一个魔法世界,你还满足于做一个麻瓜吗?
用数据说话,做最棒的魔法师
最棒的魔法师,是既深谙大数据的理念,又掌握着大数据的核心技术。但是,对于绝大部分人来说,后者是有困难的。我想特别强调的是,即便你不能掌握一项特定的数据技术,了解大数据的理念,培养大数据的思维模式,也是非常重要的——不管你从事什么工作,这种大数据的思维模式都是有帮助的。事实上,我一直觉得类似于统计学(包括概率论、数理统计、统计物理等)和机器学习的理念,对于我们理解这个世界都是有帮助的,应该有一些生动的科普书,把这些重要的理念用通俗的语言告诉大家。
数据化思维的核心是什么?就是定量化,或者说“用数据说话”。主观能动性当然是我们人类的重要能力,特别是行业专家的思路和判断往往非常重要,效果甚至好于机器学习的结果。但是,一切的评估都要定量化。举个例子来说,要证明一个营销行为B 比营销行为A 更好,必须要无偏地把用户划分成两个群,一个接受A 一个接受B,然后通过对比来验证两者的效果。政府做决策的时候,例如改变医保的规则,也需要充分的数据支撑,提前能够量化这个改变带来的效果,并且时时监督政策实施后的结果。学会用数据来说明“哪个更好哪个更坏”,是数据化思维的第一步。
作出让世界尊重的原始创新
当魔法师的另一个好处,就是我们可以进入魔法世界—




















