大数据和区块链具有一个共同的关键词:分布式。

分布式的思想让大数据技术实现了分布式计算和分布式协同工作,技术手段也从权威垄断转向了去中心化。

而区块链技术作为分布式数据库的典型代表,也具有分布式的特点。

两者在这一点上的统一带来了融合发展的可能。

1.分布式:让大数据和区块链从技术权威向去中心化转变

从历史上的发展来看,IT技术发展呈现出一种集中与分布交替的螺旋式上升的形态

IT技术呈现螺旋化上升

在计算机诞生初期,技术是集中化的,这是因为技术的限制导致了使用模式只能是一对一的。

为了增加计算机的利用率,行业公司很快开始部署新的设计。

IBM公司引入了虚拟化的设计思想,将一台大型机在为多个客户服务时分割出多个虚拟的小型主机,这是一种十分复杂的集中式计算。

等进入到小型机和PC时代,虽然使用模式回归了一对一的模式,但是计算机设备已经分散到了各个地方。

等进入成熟的互联网时代,客户端和服务器已经运用了分布式计算的模式,只不过各个服务器之间还是分散的,没有连成网络。

进入云计算时代,计算能力又被统一管控起来。

虽然客户端和服务器依旧以分布式计算为技术基础,但服务器之间已经形成了分布式协同工作模式。

因为协同的特点,整体上这应该是一种集中式的计算服务。

到了以云计算为基础设施的大数据时代,IT技术中仍旧蕴含着分布式的核心思想。

以现在最常用的分布式计算技术的代表MapReduce来说,大数据需要MapReduce将任务分解后进行分布式计算,然后将结果合并。

分布式的技术形成了一种去中心化的系统,其中的每个组成部分都是同等重要的。

具有这个特点的区块链技术在这一点上也显得十分突出。从本质上看,区块链是一种去中心化的分布式账本。

区块链通过时间顺序将持续增长的数据整理成链式数据结构,系统中所有节点共同参与数据的记录。在“分布式”这一理念上,大数据和区块链技术取得了一致。

而分布式概念的出现,代表了一种从技术权威垄断到去中心化的转变。

在IT方面中的技术垄断更加指向具有垄断性质的大型互联网公司,假如某家公司掌握了所有互联网社交软件的技术,那么它就可以将整个社会舆论控制在手中。

普通民众因为要使用该公司提供的社交软件,根本无法顺利发出对该公司的质疑。

一家公司独大,甚至掌控了社会舆论,普通民众失去了发声、监管的权利,这显然是十分不利于社会安定的事情,也违背了互联网“网络自由”的初衷,各国政府也在反互联网技术垄断上做出了各种努力。

而当“分布式”的概念出现后,从根本上打破了技术权威垄断的情况,形成了“无中心”的新技术。

在分布式的系统中,所有参与者享有同等的权利。大数据的各个协同工作组件缺一不可,互相协调才能完成工作;

区块链的各个节点共同监督数据,每个节点都有质疑和被质疑的过程。

分布式的核心思想让区块链和大数据都具有了从技术权威到去中心化的特点。

区块链和大数据在分布式上的共同点有两个具体的领域:分布式存储和分布式计算

2.分布式存储:HDFS VS区块

分布式存储是相对集中式存储而言的。

在传统的数据存储技术中,数据被集中放置在一个特定的数据库中,就好比用一个篮子装所有的鸡蛋;

而分布式的存储则利用了多个数据库,共同存储数据,“鸡蛋”被分散在了各个容器中。

在存储数据上,区块链和大数据都采用了分布式存储的技术。

区块链存储数据的基本单元是区块,而大数据则是Hadoop分布式文件系统(HDFS)。

如果把区块链看作账本,区块链中的区块就是账本中的账页。

在比特币的区块链中,每一个区块都记录了一段时间内比特币的交易数据。

在中本聪创立比特币时,构建了第一个区块——创世区块。

对于区块链来说,计算机进入区块链中成为一个“区块”是没有什么特殊要求的,只要计算能力够强,就可以成为一个新的区块。

也就是说,这些区块的计算机设备可以出现在地球的各个角落。

那么这些原本分散的设备是怎么组合在一起形成“区块链”的呢?

在区块链的区块中,除了“创世区块”只有一个ID识别号之外,后续建立的区块都包含两个ID识别号,一个是属于自己的,一个是属于前一个区块的。

通过ID号码之间的指向,区块就按照时间顺序连成了区块链。

由于需要应对海量且在持续快速增长的数据,大数据在数据存储方面则更加注重性价比,实现存储容量弹性扩张。

HDFS是大数据应用程序中主要使用的分布式存储技术,能够满足商用硬件的高性价比的要求,因此在众多分布式技术中脱颖而出。

HDFS的特点

1).低成本

HDFS的分布式存储服务是依靠数百个甚至数千个服务器共同工作实现的,这样一来,在服务器出现故障时就只需要单独维修这一台机器就可以了。

如果是集中式的大型服务器,遇到故障的维修成本将要高许多。HDFS系统通过这种方式实现了低成本的目标。

2).高容错

由于HDFS是众多服务器协同工作,共同实现分布存储,HDFS给每个数据文件都准备了两个冗余备份,保证每个数据文件被存储三次。

这样即使某台服务器出现故障,HDFS也可以在备份数据的帮助下继续进行工作。

所以HDFS允许机器发生故障,具有高容错的特点。

3).高吞吐

HDFS的访问模型是“一次写入多次读写”式的,只能够在结尾追加描述数据的变动而不允许直接修改文件。

这样就简化了保证数据一致性的流程,实现了高吞吐的数据访问。

虽然区块链和大数据在存储数据的实现技术上采用了不同的方式,但不能否认它们都是基于“分布式”的思想出发的:通过利用多个计算机,实现数据的分布式存储。

这样的存储方式让大数据技术有能力应对庞大的数据量,也让区块链实现了去中心化的共治。

3.分布式计算:MapReduce VS共识机制

分布式计算是一种新的计算方式,是指两个或多个软件之间互相共享信息,合作计算。

分布式计算方式不要求这些软件在一台计算机上运行,可以在多台计算机上通过网络连接共同运算。

简单点来说,分布式计算就是将大量的数据分割成多个较小的单元,分派给多台计算机分工计算,最后将所有结果进行汇总。

这种计算方式是云计算的技术基础,对数据海量的大数据计算来说意义重大,因为创造一个算力足以应对PB级别的计算机几乎是不可能的。

分布式计算的理论在很早以前就已经有科研人员在研究,但实践方案并不多,也没有得到广泛应用。

直到谷歌公布了MapReduce之后,分布式计算的应用才开始得到广泛关注。

在大数据领域,分布式计算的成功案例就有MapReduce。

MapReduce是云计算的核心技术,适用于大规模数据集(大于1 TB)的并行运算,在大数据的分布式运算中具有良好的表现。

同时MapReduce也是一种简化的分布式编程技术,能够有效提高复杂问题的并行处理效率。

而在区块链中,分布式计算的思想体现在“共识机制”中。

区块链的共识机制是区块之间达成共识、写入数据的手段,也是防止数据篡改的手段。

区块链的共识机制有多种,比特币区块链采用的是“工作量证明”,意味着只有算力超过了51%的记账区块的计算机才有写入下一笔数据的权利,这也大大降低了篡改交易记录的可能。

分布式计算的核心在于不同计算机通过信息交换能够最终达成一致的结论,区块链的共识机制也刚好体现了这一点。

除了比特币区块链采用的“工作量证明”机制,“唐盛链”采用的GEAR协议也是共识机制的一种。

GEAR协议是由唐盛(北京)物联技术有限公司自主研发的共识协议,由轮转记账、集体评估和齿轮共识路由三个子协议组成。

该协议充分考虑了区块链上的数据结构特点和点对点沟通的信息交流模式,在实现数据同步共识时支持多种场景灵活运用。

把大数据和区块链两者的分布式计算应用结合起来看,会发现核心特点就在于数据的同步共享和负载平衡。

通过分布式计算,数据资源在所有的计算机上都有备份,方便实现稀有资源的共享;

也可以降低计算机的运行负载,减小计算机崩溃的可能;

同时还能够通过调配,把程序放在最合适的计算机上执行。

斯坦福大学化学系的戈尔哈姆·理查德·切尔曼教授曾说:“分布式计算将加快整个人类的科学进程。”

随着现代科技的进步,每个学科的科学研究都需要进行大量的计算:数学家希望得出圆周率的更精确值,生物学家希望计算机模拟出蛋白质的折叠过程,天文学家希望计算机分析天体轨迹……

人类未来社会的发展离不开各种数据的计算,而分布式计算成功在大数据领域和区块链领域得到实践应用将会对各界产生积极的影响。

无论是MapReduce还是共识机制,都充分展现了分布式计算的独特优点:便宜且高效。

区块链和大数据具有一个共同的关键词,那就是“分布式”。

两者在存储和计算运行的手段上虽然各有千秋,却都体现了分布式的思想。

通过分布式存储数据,区块链和大数据实现了降低成本和提高系统稳定性的目标;

通过分布式计算,区块链和大数据实现了数据共享和并行运算以解放计算机压力的目标。

因为区块链和大数据在分布式思想上具有很多的共同点,两者的共同发展也就有了基础,这也是区块链能够在大数据领域得到大规模应用的前提条件。

Loading

作者 aibbs