欢迎访问广东工业大学数据挖掘与信息检索实验室!
Alluxio软件工程师麦嘉铭应邀为DMIR实验室作学术报告
2022-10-27 22:44  

10月26日晚上,Alluxio软件工程师麦嘉铭应DMIR实验室蔡瑞初教授的邀请,通过线上形式为实验室师生作了题为“大数据的前世今生”的学术报告。


在本次报告中,麦嘉铭工程师首先介绍了一下大数据存储和发展的历史。大数据领域主要有两个任务,一是大数据的存储,二是大数据的计算。从还未出现计算机时,采用纸质文件进行数据存储,到出现计算机后,采用excel表格进行大量数据存储,再到现在发展出各种商业化的关系型数据库(如ORACLE,SQL Servel, MySQL等),大数据的存储变得越来越便捷,也更易于管理。但这些关系型数据库还是有一定局限,例如存储容量有限,存储和维护成本高。因此,麦嘉铭工程师又介绍了谷歌在2003年提出HDFS(Hadoop Distributed File System),它可以解决大数据存储的问题,以及MapReduce和Hive,可以解决大数据计算的问题。但它们查询过程太慢,由此麦嘉铭工程师引入了Spark的介绍,它进一步的提高了查询速度,且更加具有兼容性。


21B12

图1 | 麦嘉铭作分享报告


接着,麦嘉铭工程师介绍了SQL查询引擎的过程原理。从一个简单的SQL查询语句入手,来展示查询的各个具体环节。并以Hive和Presto作为例子,介绍SQL查询引擎处理SQL的过程原理。


然后,麦嘉铭工程师以Presto和Alluxio作为例子,来说明计算引擎和计算存储是怎么配合的。Presto的定位是SQL-on-Everything,它不依赖于存储,可以用来查询在任何位置的分散数据源,当Presto集成Alluxio后,通过让储存和缓存同步,可以加速查询。


最后,通过介绍业界大数据离线计算和实时计算的例子,如bilibili的交互式OLAP技术架构、TME(Tencent Music)、Wechat、众安保险等,麦嘉铭工程师给大家展示了业界是怎么做大数据处理的。基本的流程如下:从APP客户端获取数据,再进入消息队列(如基于kafka)中处理,再进入Flink和Spark等实时ETL,离线的数据先存储到仓库里面(Hive、HAFS),要用的时候再进入ClickHouse交互分析。


整个报告非常精彩,内容充实,引人入胜,让实验室师生们获益匪浅,很受启发,实验室同学们就感兴趣的问题与麦嘉铭工程师进行了深入交流,讨论热烈。

图2 | 实验室师生踊跃参与讨论



关闭窗口