大数据日知录:架构与算法

    大数据日知录:架构与算法

     

    编辑推荐

    1.大数据领域技术专家、畅销书《这就是搜索引擎:核心技术详解》作者张俊林全新力作,历时3年,质量上乘

    2.《大数据》《信息检索导论》译者王斌、机器学习专家张栋、新浪微博平台及大数据总经理刘子正、盛大文学首席数据官陈运文、CSDN/《程序员》创始人蒋涛联袂力荐

    3.全面梳理大数据相关技术,从数据、算法、策略、应用和系统架构等多个维度进行剖析,包罗万象又深入浅出

    4.内容全部是干货,紧跟技术前沿,是作者理论与实践经验的总结,非常值得一读

    内容简介

    大数据是当前流行的热点概念之一,其已由技术名词衍生到对很多行业产生颠覆性影响的社会现象,作为明确的技术发展趋势之一,基于大数据的各种新型产品必将会对每个人的日常生活产生日益重要的影响。

    张俊林著的这本《大数据日知录:架构与算法》从架构与算法的角度全面梳理了大数据存储与处理的相关技术。大数据技术具有涉及的知识点异常众多且正处于快速演进发展过程中等特点,其技术点包括底层的硬件体系结构、相关的基础理论、大规模数据存储系统、分布式架构设计、各种不同应用场景下的差异化系统设计思路、机器学习与数据挖掘并行算法以及层出不穷的新架构、新系统等。本书对众多纷繁芜杂的相关技术文献和系统进行了择优汰劣并系统性地对相关知识分门别类地进行整理和介绍,将大数据相关技术分为大数据基础理论、大数据系统体系结构、大数据存储,以及包含批处理、流式计算、交互式数据分析、图数据库、并行机器学习的架构与算法以及增量计算等技术分支在内的大数据处理等几个大的方向。通过这种体系化的知识梳理与讲解,相信对于读者整体和系统地了解、吸收和掌握相关的技术有很大的帮助与促进作用。

    《大数据日知录:架构与算法》的读者对象包括对NoSQL 系统及大数据处理感兴趣的所有技术人员,以及有志于投身到大数据处理方向从事架构师、算法工程师、数据科学家等相关职业的在校本科生及研究生。

    作者简介

    张俊林,是技术书籍《这就是搜索引擎:核心技术详解》的作者,目前担任畅捷通智能平台总监。在此之前,张俊林曾经在阿里巴巴、百度商务搜索部凤巢广告平台以及新浪微博搜索部及数据系统部担任资深技术专家,新浪微博技术委员会成员,负责算法策略方向。张俊林还曾是智能信息聚合网站“玩聚网”的联合创始人之一。他的研发兴趣集中在:搜索技术、推荐系统、社交挖掘、自然语言处理与大数据算法架构等方面,并在以上领域有多年工业界实践经验。

    张俊林本科毕业于天津大学管理学院,1999年至2004年在中科院软件所直接攻读博士学位,研究方向是信息检索理论与自然语言处理,就学期间曾在ACL/COLING/IJCNLP等国际会议发表多篇学术论文,另外,他在此期间领导设计的搜索系统曾在美国国防部DARPA主持的TREC第二届高精度检索系统评测中在17只国际高水平研究团队激烈竞争中胜出并取得综合排名第一名的优异成绩。

    目录

    第0 章 当谈论大数据时我们在谈什么................ 1

    第1 章 数据分片与路由.............................................. 9

    第2 章 数据复制与一致性................................................20

    第3 章 大数据常用的算法与数据结构....................................51

    第4 章 集群资源管理与调度.......................................71

    第5 章 分布式协调系统...................................91

    第6 章 分布式通信..............................106

    第7 章 数据通道.........................................120

    第8 章 分布式文件系统....................................131

    第9 章 内存KV 数据库...................................168

    第10 章 列式数据库...........................................176

    第11 章 大规模批处理系统...................................199

    第12 章 流式计算........................................219

    第13 章 交互式数据分析...................................240

    第14 章 图数据库:架构与算法................................271

    第15 章 机器学习:范型与架构.........................................313

    第16 章 机器学习:分布式算法...............................337

    第17 章 增量计算..........................................366

    附录A 硬件体系结构及常用性能指标......................................378

    附录B 大数据必读文献....................................380

    前言

    前 言

    像移动互联网、O2O、可穿戴设备等概念一样,“大数据”从甫一提出到飓风般席卷并风靡全球,从最初的技术名词到形成渗透到各行各业的社会现象,所耗时间仅几年而已,其兴也勃焉。

    那么,大数据是否会像很多曾经火热现在已难觅踪迹的流行概念一样,将来某日,人们静心抬眼,发现风已去而水波不兴,徒留夕阳下波光粼粼的涟漪,让人不禁哀叹其亡也忽焉?

    本书的背景

    目前看仿佛有此迹象,当一个概念火爆到从街头随便抓一个路人,他都能跟你滔滔不绝地侃侃而谈;当一个新名词铺天盖地而来,让你熟悉到再见一次就要吐的程度,这些确实是典型的泡沫将破的征兆。目前业已出现越来越多的质疑声音,在这种狂热的氛围下,理性的质疑是难能可贵的,毕竟大数据归根结底是少数派的游戏,而现状好像是人人都处于大数据进行时的状态,这让其看上去显得不甚理性。

    但是,从社会发展趋势的角度,很明显大数据会是目前肉眼可及的视野范围里能看到的趋势之一。从传统IT业到互联网、互联网到移动互联网,从以智能手机和Pad为主要终端载体的移动互联网到可穿戴设备的移动互联网,然后再到万物互联的物联网,这一定是不可违抗的发展规律和前进方向。伴随着这个趋势必然有越来越多、形态越来越丰富的超量数据不断产生,而大数据明显是由此衍生出来的明确且必然的发展趋势。

    所以,归根结底,大数据概念是个短期内炒得过热,但是从长期来看炒得不足的领域。再过十年如果回望现在,也许会发现:我们今天正在巍峨群山的山脚徘徊,试图找出一条通往山顶的羊肠小道,如此而已。我们当然不能盲目跟风不断追逐切换热点,但是忽视趋势的力量同样也不是一个理性的选择。

    本书的内容

    以上所述是本书诞生的大背景,目前市面上陆陆续续已经有不少讲大数据的书,有面向大众的概念普及类图书,也有讲解大数据技术的书,本书属于第二类,专注于大数据处理有关的架构与算法,我相信这是一本比较全面地分门别类梳理大数据技术的书籍。从大约2010年年底起我开始关注并收集整理这方面的技术资料,当然那时还没有听说过大数据的概念,现在的所谓大数据已经是后来的事情了,最初引起我关注的是NoSQL相关的技术,尤其是Google和亚马逊的一系列相关工作,当时隐约地觉得这是一种新的技术发展趋势,甚至是一次技术范型的大转换,所以逐步开始投入越来越多的精力到其中,这包括将相关技术资料分门别类地进行收集、阅读和整理,利用业余时间开始一章一节地慢慢写本书,以及在实际工作中尽可能地应用这些技术和系统等若干方面。

    本书的写作

    断断续续完成本书花了大约3年左右的时间,和最初预估的时间还是比较吻合的,这一方面是由于我可投入的时间本身就不多,但是还是希望能够写出一本高质量的技术书籍,所以不得不慢工出细活;另外一方面是由于大数据处理作为一个新领域,其涉及的方方面面的技术点实在太多,而且正处于快速的发展过程中。这个领域是我接触过的领域中知识涵盖面很广的,从底层的硬件开始,到涉及基础理论、大规模数据存储系统、分布式架构设计、各种不同适用场景下的差异化系统设计思路、机器学习与数据挖掘并行算法、层出不穷的新架构和新系统等,说无所不包有些夸张但是所需掌握知识点之多确实是很少见的。而且因为其处于快速发展的过程当中,所以各种技术纷繁芜杂,并无一个成熟的知识分类体系可供参考,需要不断梳理相关知识点之间的相互区别和联系并进行分门别类,如何将纷杂多样的技术梳理成清晰合理的章节内容曾让我头疼不已,当然发展到目前,整个大数据技术体系脉络已经日渐明晰,我相信参考本书目录可以清晰地发现这一点。另外一个阻碍是可参考的资料和系统多而杂,且质量良莠不齐,需要从中汰劣余优,尽可能选出有代表性及有发展潜力的理论、方案和系统,这也是很耗费精力的过程,尽管本书每章后只列出了很少一部分参考资料,但是实际参考的文献与系统要数倍于此,只列出精华部分是为了节省读者选择高质量文献的过程。

    十几年前当我还在中国科学院读书的时候,就对互联网的蓬勃发展及其对生活和工作各方面的影响感慨不已,当时直观的感受是新的国际会议论文很容易获得,往往是会议一开完就能从网上下载到感兴趣的文献,有时候会议没开有些作者就把论文先放在网上供人参考。觉得有了互联网这么强大的全球范围信息便捷分享工具,尽管当时国内科研水平不算高,在好的国际顶级会议发表论文还是较难的事情,但是随着互联网的普及,科研水准应该能够获得极为快速长足的发展,因为从追踪新技术进展的角度看大家的起跑线是一样的,而中国人多的优势慢慢应该能够发挥出来,事实上也是如此,最近几年各种国际顶级会议中,国人发表的论文比例越来越高可以证明这一点,而很明显这个趋势还会进一步加快。之所以提这个,是因为大数据相关技术研发道理其实也是一样的,尽管目前国内在这方面的实力和国外相比还有很大的差距,优秀的系统和技术方案往往都是Google、亚马逊、Facebook、Linkedin等这些国际知名互联网公司提出的,国内工业界的技术水准大部分还仅仅停留在能把开源的大数据系统应用起来解决手头碰到的问题这个阶段,但是我相信在不远的将来,国内会逐步涌现出具有国际水准的大数据系统与解决方案,其中的道理与上面所举的学术进步的例子是一样的。目前大部分优秀系统是开源的,相关技术文献也很容易找到,作为有进取心的技术人员,现在所缺乏的不是没有可参考的学习资料,相反是资料太多良莠不齐反而让很多人无所适从,不知该如何下手。国内的技术人员只要肯下功夫、会下功夫,有好的职业发展环境和高的自我期许及技术理想,假以时日,越来越多的世界级水准的大数据处理系统出自国人之手是完全可以预料的,我期望本书对于这些技术人员在全面了解吸收并掌握大数据处理的优秀技术过程中,能贡献绵薄之力。沈利也参与了本书的部分编写工作。

    致谢

    感谢我的妻子、岳父、岳母,以及爸爸、妈妈,尽管历时3年才得以完成本书,但是若是没有你们的全身心支持,这本书2020年也无法面世。

    对了,还有我的女儿,亲爱的雪晴,从蹒跚迈出人生第一步,到咿咿呀呀说出第一句话,我总是想起,小小的你,迷茫地站在这遍布新奇的世界里,东张西望时无助的样子,这总是令人心疼。你无数人生的第一次带给我太多欢乐,而我陪你的时间又太少太少,每次听到你用小手咚咚敲着书房紧闭的门,这经常让我感到惶惑,不知道这么狠心对你是对还是错,但是又不得不狠下心来。我相信将来一定会后悔没有给你更多的时间,把你介绍给这斑斓而残酷的世界,嘱咐它在今后的日子里能善待你一些。我多想陪你甚至到你白发苍苍的岁月:在初秋的午后阳光下,看到你坐在院中的婆娑树影里,给你的儿孙讲故事,浅笑依然,仿似今天。我可以清楚地想象那时的场景,清晰得就像一切就发生在眼前。虽然我深切地知道这是永不可实现的奢望,但这个梦想会永远放在我心里,就像你清澈的目光和纯真的笑容一样。

    时间是我们的朋友,也是我们的敌人,希望你们能够原谅我。

    张俊林
    2014年3月

    获取正版《大数据日知录:架构与算法》直达购买
    • 微信号
    • 网站问题、用户注册登录请联系站长,看到第一时间及时回复。
    • weinxin
    • 公众号
    • 慧眼看每日荐书,关键字找书,新功能陆续增加中,敬请关注!
    • weinxin
    huiyan
    • 本文由 发表于 2019-09-1123:20:20
    • 转载请务必保留本文链接:https://www.huiyankan.com/20190911232303.html