博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Hive 数据库操作(HQL语法详解)
阅读量:3959 次
发布时间:2019-05-24

本文共 1916 字,大约阅读时间需要 6 分钟。

数据库操作

创建数据库(CREATE DATABASE)

在Hive数据库是一个命名空间或表的集合。此语法声明如下:

CREATE DATABASE|SCHEMA [IF NOT EXISTS] 

示例:

hive> CREATE DATABASE IF NOT EXISTS t_log;

创建的数据库位于在hive-site.xml中设定的参数hive.metastore.warehouse.dir所指向的目录。

数据库切换(use database)

语法声明如下:

use database;

示例:

use t_log;
删除数据库

此语法声明如下:

DROP DATABASE [IF EXISTS] 

示例:

drop database if exists t_log;

数据表操作

创建表

Create Table是用于在Hive中创建表的语句。创建表语法和示例如下:

Create [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment] [PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)] [CLUSTERED BY (col_name, col_name, ...) [SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS] [ROW FORMAT row_format] [STORED AS file_format] [LOCATION hdfs_path]

关键字详解

  • CREATE TABLE 创建一个指定名字的表。如果相同名字的表已经存在,则抛出异常;用户可以用 IF NOT EXIST 选项来忽略这个异常。
  • EXTERNAL 关键字可以让用户创建一个外部表,在建表的同时指定一个指向实际数据的路径(LOCATION),Hive 创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径,不对数据的位置做任何改变。在删除表的时候,内部表的元数据和数据会被一起删除,而外部表只删除元数据,不删除数据。
  • [ROW FORMAT DELIMITED]关键字,是用来设置创建的表在加载数据的时候,支持的列分隔符
  • [STORED AS file_format]指定文件存储格式,默认是TEXTFILE,如果文件数据是纯文本,就是使用 [STORED AS TEXTFILE],然后从本地直接拷贝到HDFS上.
  • 有分区的表可以在创建的时候使用 PARTITIONED BY 语句。一个表可以拥有一个或者多个分区,每一个分区单独存在一个目录下。
  • 表和分区都可以对某个列进行 CLUSTERED BY 操作,将若干个列放入一个桶(bucket)中。也可以利用SORT BY 对数据进行排序。这样可以为特定应用提高性能。

创建一个普通表:

create table test_table (id int,name string,no int) 	row format delimited 	fields terminated by ',' 	stored as textfile ;

指定了字段的分隔符,hive只支持单个字符的分隔符。hive默认的分隔符是\001

修改表列类型
ALTER TABLE table_name CHANGE [COLUMN] col_old_name col_new_name column_type 	[COMMENT col_comment] [FIRST|AFTER column_name]

如上述代码建立了一个数据表,修改no这一列的列名为num,数据类型不变。代码实现如下

alter table t_log change column no num int;

hive文件存储格式包括以下几类:

  1. TEXTFILE:默认格式,数据不做压缩,磁盘开销大,数据解析开销大。
  2. SEQUENCEFILE:Hadoop API提供的一种二进制文件支持,使用方便、可分割、可压缩的特点
  3. RCFILE:RCFILE是一种行列存储相结合的存储方式
  4. 自定义格式:当用户的数据文件格式不能被当前 Hive 所识别的时候,可以自定义文件格式。用户可以通过实现inputformat和outputformat来自定义输入输出格式。

转载地址:http://vzqzi.baihongyu.com/

你可能感兴趣的文章
快速打开菜单附件中的工具
查看>>
Windows系统进程间通信
查看>>
linux exec的用法
查看>>
C语言中如何使用宏
查看>>
Http与RPC通信协议的比较
查看>>
Source Insight的对齐问题
查看>>
ubuntu设置开机默认进入字符界面方法
查看>>
chrome 快捷键
查看>>
Linux下buffer和cache的区别
查看>>
程序员不应该再犯的五大编程错误
查看>>
utf8中文编码范围
查看>>
oracle中文(utf8)按拼音排序的简单解决方案
查看>>
[转载][转帖]Hibernate与Sleep的区别
查看>>
Linux系统的默认编码设置
查看>>
Linux系统调用
查看>>
Linux 信号signal处理机制
查看>>
Linux 信号signal处理函数
查看>>
perror简介
查看>>
signal( SIGINT, SigIntHandler )
查看>>
linux signal 处理
查看>>