Hive
Last modified by Bin Chen on 2022/02/27 06:09
The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage using SQL. Structure can be projected onto data already in storage. A command line tool and JDBC driver are provided to connect users to Hive.
- Hive是一个构建在Hadoop上的数据仓库平台。
- Hive可以将类似SQL的HQL语句转译成MapReduce作业,并在Hadoop上执行,实现查询。
- 在Hive中,可以建数据库,库中可以建表。表分内部表和外部表,内部表由Hive管理,外部表则指向一个HDFS地址(uri)。一个内部表对应一个目录,如果有分区,每个分区值对应一个子目录。
- Hive不是为在线事务处理而设计,不适合实时查询。它最适合用于传统的数据仓库任务(海量数据,对执行实时性不高)。
参考:
Hive入门与实战
https://wenku.baidu.com/view/8e33571ebb4cf7ec4afed0de.html
hive入门学习线路指导
https://www.cnblogs.com/snowbook/p/5723767.html
官方Tutorial
官方
https://hive.apache.org/
原理
Import from Mysql
Incremental Import from Mysql
Hcatalog