我的上一篇BLOG《大数据处理的两种模式》,谈了大数据基于内存的流式处理和基于硬盘的存储处理。比较这两种处理模式,因为内存的处理性能是硬盘的N个量级,所以流式处理效率要远远高于存储处理,但是流式处理本身有一个缺点,或者说是隐忧,上次没有提到,今天来说一下。
其实我们可以想一下这个工作大概是什么流程,首先要写入hive,我们首先要从hive的元数据里拿到相关的hive表的信息,比如存储的路径是哪里,以便往那个目录写数据,还有存储的格式是什么,orc还是parquet,这样我们需要调用对应的实现类来进行写入,其次这个表是否是分区表,写入数据是动态分区还是静态分区,这些都会根据场景的不同而选择不同的写入策略。
因为我们是通过 imply 安装的,在 Base directory 输入绝对路径 /usr/local/imply/imply-2021.05-1/dist/druid/quickstart/tutorial , File filter 输入 wikiticker-2015-09-12-sampled.json.gz ,并选择 apply 应用配置,我们数据已经加载进来了。