一、Hive 小文件概述在Hive中,所谓的小文件是指文件大小远小于HDFS块大小的文件,通常小于128 MB,甚至更少。这些小文件可能是Hive表的一部分,每个小文件都包含一个或几个表的记录,它们以文本格式存储。
其实我们可以想一下这个工作大概是什么流程,首先要写入hive,我们首先要从hive的元数据里拿到相关的hive表的信息,比如存储的路径是哪里,以便往那个目录写数据,还有存储的格式是什么,orc还是parquet,这样我们需要调用对应的实现类来进行写入,其次这个表是否是分区表,写入数据是动态分区还是静态分区,这些都会根据场景的不同而选择不同的写入策略。
本文目录(本文约六万五千字)(一)基本概念、安装、数据类型(二)DDL数据定义、DML数据操作(三)查询、分区表和分桶表(四)函数、压缩和存储(五)企业级调优、Hive实战(一)基本概念、安装、数据类型1 基本概念1.