The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage using SQL. Structure can be projected onto data already in storage. A command line tool and JDBC driver are provided to connect users to Hive.

  • Hive是一个构建在Hadoop上的数据仓库平台。
  • Hive可以将类似SQL的HQL语句转译成MapReduce作业,并在Hadoop上执行,实现查询。
  • 在Hive中,可以建数据库,库中可以建表。表分内部表和外部表,内部表由Hive管理,外部表则指向一个HDFS地址(uri)。一个内部表对应一个目录,如果有分区,每个分区值对应一个子目录。
  • Hive不是为在线事务处理而设计,不适合实时查询。它最适合用于传统的数据仓库任务(海量数据,对执行实时性不高)。

参考:

Hive入门与实战

https://wenku.baidu.com/view/8e33571ebb4cf7ec4afed0de.html

hive入门学习线路指导

https://www.cnblogs.com/snowbook/p/5723767.html

官方Tutorial

官方

https://hive.apache.org/
原理
Import from Mysql
Incremental Import from Mysql
Hcatalog

Tags:
Created by Bin Chen on 2019/11/16 08:04
    

Need help?

If you need help with XWiki you can contact:

京ICP备19054609号-1

京公网安备 11010502039855号