Hive

Last modified by Bin Chen on 2022/02/27 06:09

The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage using SQL. Structure can be projected onto data already in storage. A command line tool and JDBC driver are provided to connect users to Hive.

Hive是一个构建在Hadoop上的数据仓库平台。
Hive可以将类似SQL的HQL语句转译成MapReduce作业，并在Hadoop上执行，实现查询。
在Hive中，可以建数据库，库中可以建表。表分内部表和外部表，内部表由Hive管理，外部表则指向一个HDFS地址（uri）。一个内部表对应一个目录，如果有分区，每个分区值对应一个子目录。
Hive不是为在线事务处理而设计，不适合实时查询。它最适合用于传统的数据仓库任务（海量数据，对执行实时性不高）。

参考：

Hive入门与实战

https://wenku.baidu.com/view/8e33571ebb4cf7ec4afed0de.html

hive入门学习线路指导

https://www.cnblogs.com/snowbook/p/5723767.html

官方Tutorial

官方

https://hive.apache.org/
原理
Import from Mysql
Incremental Import from Mysql
Hcatalog

Tags:

Created by Bin Chen on 2019/11/16 08:04

Applications

More applications

Need help?

If you need help with XWiki you can contact:

京ICP备19054609号-1

京公网安备 11010502039855号