2019-01-14

tools

Apache Hive - 数据仓库软件

项目简介

Apache Hive是建立在Apache Hadoop之上的数据仓库软件，它提供了一个类似SQL的查询语言HiveQL来查询和管理大型数据集。Hive最初由Facebook开发，用于处理其海量的日志数据，后来成为Apache软件基金会的顶级项目。

Hive将结构化的数据文件映射为数据库表，并提供SQL查询功能，使得熟悉SQL的用户可以轻松地对Hadoop中的数据进行分析。它特别适合数据仓库任务，如ETL操作、报告和数据分析。

主要特性

SQL接口：提供HiveQL，类似于标准SQL
大数据处理：处理PB级别的数据集
多种数据格式：支持文本、Parquet、ORC等格式
可扩展性：用户自定义函数(UDF)支持
多种执行引擎：支持MapReduce、Tez、Spark
元数据管理：集中式的元数据存储和管理

项目原理

核心架构

Hive架构
├── Hive Client (客户端)
│   ├── Hive CLI
│   ├── HiveServer2
│   └── JDBC/ODBC
├── Hive Services (服务)
│   ├── Driver (驱动器)
│   ├── Compiler (编译器)
│   ├── Optimizer (优化器)
│   └── Executor (执行器)
├── Metastore (元数据存储)
│   ├── Schema信息
│   ├── Table定义
│   └── Partition信息
└── Storage Layer (存储层)
    ├── HDFS
    ├── HBase
    └── Cloud Storage

HiveQL执行流程

解析阶段：将HiveQL解析为抽象语法树
编译阶段：将语法树转换为逻辑计划
优化阶段：对逻辑计划进行优化
物理计划：生成MapReduce/Tez/Spark作业
执行阶段：提交作业到集群执行

数据模型

Database（数据库）：

表的命名空间
对应HDFS上的目录

Table（表）：

具有相同schema的数据集合
存储在HDFS上

Partition（分区）：

表的子集，基于分区键划分
提高查询性能

Bucket（桶）：

分区内的进一步划分
基于哈希函数分布数据

使用场景

1. 数据仓库ETL

进行大规模数据的抽取、转换和加载操作。

2. 报表分析

生成定期的业务报告和统计分析。

3. 日志分析

分析Web日志、应用日志等大量日志数据。

4. 数据挖掘

进行大数据集上的数据挖掘和机器学习预处理。

5. 即席查询

对历史数据进行临时性的分析查询。

具体案例

案例1：基本表操作和查询

-- 创建数据库
CREATE DATABASE ecommerce
COMMENT 'E-commerce data warehouse'
LOCATION '/user/hive/warehouse/ecommerce'
WITH DBPROPERTIES ('creator'='data_team', 'created'='2023-01-01');

-- 使用数据库
USE ecommerce;

-- 创建用户表
CREATE TABLE users (
    user_id BIGINT,
    username STRING,
    email STRING,
    first_name STRING,
    last_name STRING,
    registration_date DATE,
    age INT,
    gender STRING,
    city STRING,
    country STRING
)
COMMENT 'User information table'
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE
LOCATION '/user/hive/warehouse/ecommerce/users';

-- 创建分区表 - 订单表
CREATE TABLE orders (
    order_id BIGINT,
    user_id BIGINT,
    order_date DATE,
    total_amount DECIMAL(10,2),
    status STRING,
    payment_method STRING,
    shipping_address STRING
)
COMMENT 'Orders table partitioned by year and month'
PARTITIONED BY (year INT, month INT)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS PARQUET
LOCATION '/user/hive/warehouse/ecommerce/orders';

-- 创建桶表 - 产品表
CREATE TABLE products (
    product_id BIGINT,
    product_name STRING,
    category STRING,
    price DECIMAL(10,2),
    brand STRING,
    description STRING,
    created_date DATE
)
COMMENT 'Products table with bucketing'
CLUSTERED BY (product_id) INTO 10 BUCKETS
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS ORC
TBLPROPERTIES ('orc.compress'='SNAPPY');

-- 创建外部表
CREATE EXTERNAL TABLE web_logs (
    ip_address STRING,
    timestamp STRING,
    method STRING,
    url STRING,
    http_status INT,
    bytes_sent BIGINT,
    user_agent STRING
)
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.RegexSerDe'
WITH SERDEPROPERTIES (
    "input.regex" = "^(\\S+) \\S+ \\S+ \\[([\\w:/]+\\s[+\\-]\\d{4})\\] \"(\\S+) (\\S+) \\S+\" (\\d{3}) (\\d+) \".*\" \"(.*)\".*"
)
LOCATION '/data/web_logs';

-- 数据查询示例

-- 基本查询
SELECT user_id, username, email 
FROM users 
WHERE country = 'China' 
  AND age BETWEEN 25 AND 35;

-- 聚合查询
SELECT 
    country,
    COUNT(*) as user_count,
    AVG(age) as avg_age,
    MIN(registration_date) as first_registration,
    MAX(registration_date) as last_registration
FROM users 
GROUP BY country 
HAVING COUNT(*) > 1000
ORDER BY user_count DESC;

-- 分区查询
SELECT 
    order_id,
    user_id,
    total_amount,
    status
FROM orders 
WHERE year = 2023 
  AND month = 12 
  AND status = 'completed';

-- 连接查询
SELECT 
    u.username,
    u.email,
    COUNT(o.order_id) as order_count,
    SUM(o.total_amount) as total_spent
FROM users u
LEFT JOIN orders o ON u.user_id = o.user_id
WHERE o.year = 2023
GROUP BY u.user_id, u.username, u.email
HAVING COUNT(o.order_id) > 5
ORDER BY total_spent DESC
LIMIT 100;

-- 窗口函数
SELECT 
    user_id,
    order_id,
    order_date,
    total_amount,
    ROW_NUMBER() OVER (PARTITION BY user_id ORDER BY order_date DESC) as order_rank,
    SUM(total_amount) OVER (PARTITION BY user_id ORDER BY order_date 
                           ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW) as cumulative_amount
FROM orders
WHERE year = 2023;

-- 子查询和CTE
WITH monthly_sales AS (
    SELECT 
        year,
        month,
        COUNT(*) as order_count,
        SUM(total_amount) as monthly_revenue
    FROM orders 
    GROUP BY year, month
),
sales_growth AS (
    SELECT 
        year,
        month,
        monthly_revenue,
        LAG(monthly_revenue, 1) OVER (ORDER BY year, month) as prev_month_revenue,
        (monthly_revenue - LAG(monthly_revenue, 1) OVER (ORDER BY year, month)) / 
        LAG(monthly_revenue, 1) OVER (ORDER BY year, month) * 100 as growth_rate
    FROM monthly_sales
)
SELECT 
    year,
    month,
    monthly_revenue,
    ROUND(growth_rate, 2) as growth_percentage
FROM sales_growth
WHERE growth_rate IS NOT NULL
ORDER BY year, month;

案例2：复杂ETL处理

-- ETL示例：用户行为分析

-- 1. 创建临时表处理原始日志
CREATE TEMPORARY TABLE raw_user_events AS
SELECT 
    get_json_object(event_data, '$.user_id') as user_id,
    get_json_object(event_data, '$.event_type') as event_type,
    get_json_object(event_data, '$.product_id') as product_id,
    get_json_object(event_data, '$.timestamp') as event_timestamp,
    get_json_object(event_data, '$.session_id') as session_id,
    CAST(get_json_object(event_data, '$.value') as DOUBLE) as event_value
FROM raw_events
WHERE dt >= '2023-01-01' 
  AND get_json_object(event_data, '$.user_id') IS NOT NULL;

-- 2. 数据清洗和转换
CREATE TABLE user_behavior_daily 
PARTITIONED BY (dt STRING)
AS
SELECT 
    user_id,
    COUNT(DISTINCT session_id) as session_count,
    COUNT(CASE WHEN event_type = 'page_view' THEN 1 END) as page_views,
    COUNT(CASE WHEN event_type = 'add_to_cart' THEN 1 END) as add_to_cart_count,
    COUNT(CASE WHEN event_type = 'purchase' THEN 1 END) as purchase_count,
    SUM(CASE WHEN event_type = 'purchase' THEN event_value ELSE 0 END) as purchase_amount,
    COUNT(DISTINCT product_id) as unique_products_viewed,
    MIN(CAST(event_timestamp as TIMESTAMP)) as first_activity,
    MAX(CAST(event_timestamp as TIMESTAMP)) as last_activity,
    CAST(from_unixtime(unix_timestamp(event_timestamp, 'yyyy-MM-dd HH:mm:ss'), 'yyyy-MM-dd') as STRING) as dt
FROM raw_user_events
GROUP BY 
    user_id,
    CAST(from_unixtime(unix_timestamp(event_timestamp, 'yyyy-MM-dd HH:mm:ss'), 'yyyy-MM-dd') as STRING);

-- 3. 用户分群分析
CREATE TABLE user_segments AS
SELECT 
    user_id,
    AVG(session_count) as avg_daily_sessions,
    SUM(page_views) as total_page_views,
    SUM(purchase_count) as total_purchases,
    SUM(purchase_amount) as total_purchase_amount,
    COUNT(*) as active_days,
    CASE 
        WHEN SUM(purchase_amount) > 1000 AND COUNT(*) > 20 THEN 'high_value'
        WHEN SUM(purchase_amount) > 200 AND COUNT(*) > 10 THEN 'medium_value'
        WHEN SUM(purchase_count) > 0 THEN 'low_value'
        ELSE 'browser_only'
    END as user_segment
FROM user_behavior_daily
WHERE dt >= '2023-01-01' AND dt < '2024-01-01'
GROUP BY user_id;

-- 4. 漏斗分析
CREATE TABLE conversion_funnel AS
WITH funnel_events AS (
    SELECT 
        session_id,
        MAX(CASE WHEN event_type = 'page_view' THEN 1 ELSE 0 END) as has_page_view,
        MAX(CASE WHEN event_type = 'add_to_cart' THEN 1 ELSE 0 END) as has_add_to_cart,
        MAX(CASE WHEN event_type = 'checkout' THEN 1 ELSE 0 END) as has_checkout,
        MAX(CASE WHEN event_type = 'purchase' THEN 1 ELSE 0 END) as has_purchase
    FROM raw_user_events
    GROUP BY session_id
)
SELECT 
    'page_view' as funnel_step,
    1 as step_order,
    COUNT(*) as session_count
FROM funnel_events
WHERE has_page_view = 1

UNION ALL

SELECT 
    'add_to_cart' as funnel_step,
    2 as step_order,
    COUNT(*) as session_count
FROM funnel_events
WHERE has_page_view = 1 AND has_add_to_cart = 1

UNION ALL

SELECT 
    'checkout' as funnel_step,
    3 as step_order,
    COUNT(*) as session_count
FROM funnel_events
WHERE has_page_view = 1 AND has_add_to_cart = 1 AND has_checkout = 1

UNION ALL

SELECT 
    'purchase' as funnel_step,
    4 as step_order,
    COUNT(*) as session_count
FROM funnel_events
WHERE has_page_view = 1 AND has_add_to_cart = 1 AND has_checkout = 1 AND has_purchase = 1

ORDER BY step_order;

案例3：自定义函数(UDF)

// Java UDF示例
import org.apache.hadoop.hive.ql.exec.UDF;
import org.apache.hadoop.io.Text;

public class EmailDomainExtractor extends UDF {
    
    public Text evaluate(Text email) {
        if (email == null || email.toString().isEmpty()) {
            return new Text("");
        }
        
        String emailStr = email.toString();
        int atIndex = emailStr.indexOf("@");
        
        if (atIndex != -1 && atIndex < emailStr.length() - 1) {
            return new Text(emailStr.substring(atIndex + 1));
        }
        
        return new Text("");
    }
}

// 地理距离计算UDF
public class GeographicDistance extends UDF {
    
    public Double evaluate(Double lat1, Double lon1, Double lat2, Double lon2) {
        if (lat1 == null || lon1 == null || lat2 == null || lon2 == null) {
            return null;
        }
        
        final double R = 6371; // 地球半径（公里）
        
        double latDistance = Math.toRadians(lat2 - lat1);
        double lonDistance = Math.toRadians(lon2 - lon1);
        
        double a = Math.sin(latDistance / 2) * Math.sin(latDistance / 2)
                + Math.cos(Math.toRadians(lat1)) * Math.cos(Math.toRadians(lat2))
                * Math.sin(lonDistance / 2) * Math.sin(lonDistance / 2);
        
        double c = 2 * Math.atan2(Math.sqrt(a), Math.sqrt(1 - a));
        
        return R * c; // 返回距离（公里）
    }
}

// 用户行为评分UDAF
import org.apache.hadoop.hive.ql.exec.UDAF;
import org.apache.hadoop.hive.ql.exec.UDAFEvaluator;

public class UserEngagementScore extends UDAF {
    
    public static class Evaluator implements UDAFEvaluator {
        
        public static class PartialResult {
            int pageViews = 0;
            int purchases = 0;
            double totalSpent = 0.0;
            int sessionCount = 0;
        }
        
        private PartialResult partial;
        
        public void init() {
            partial = new PartialResult();
        }
        
        public boolean iterate(String eventType, Double value, String sessionId) {
            if (eventType != null) {
                switch (eventType) {
                    case "page_view":
                        partial.pageViews++;
                        break;
                    case "purchase":
                        partial.purchases++;
                        if (value != null) {
                            partial.totalSpent += value;
                        }
                        break;
                }
                partial.sessionCount++;
            }
            return true;
        }
        
        public PartialResult terminatePartial() {
            return partial;
        }
        
        public boolean merge(PartialResult other) {
            if (other != null) {
                partial.pageViews += other.pageViews;
                partial.purchases += other.purchases;
                partial.totalSpent += other.totalSpent;
                partial.sessionCount += other.sessionCount;
            }
            return true;
        }
        
        public Double terminate() {
            if (partial.sessionCount == 0) {
                return 0.0;
            }
            
            // 计算综合评分
            double engagementScore = 
                (partial.pageViews * 1.0) +
                (partial.purchases * 10.0) +
                (partial.totalSpent * 0.1) +
                (partial.sessionCount * 2.0);
            
            return engagementScore;
        }
    }
}

-- 使用自定义函数

-- 注册UDF
ADD JAR /path/to/hive-udfs.jar;
CREATE TEMPORARY FUNCTION extract_email_domain AS 'com.example.EmailDomainExtractor';
CREATE TEMPORARY FUNCTION geo_distance AS 'com.example.GeographicDistance';
CREATE TEMPORARY FUNCTION engagement_score AS 'com.example.UserEngagementScore';

-- 使用UDF分析邮箱域名分布
SELECT 
    extract_email_domain(email) as email_domain,
    COUNT(*) as user_count,
    COUNT(*) * 100.0 / SUM(COUNT(*)) OVER() as percentage
FROM users
GROUP BY extract_email_domain(email)
ORDER BY user_count DESC;

-- 使用地理距离UDF找到附近的用户
SELECT 
    u1.user_id,
    u1.username,
    u2.user_id as nearby_user_id,
    u2.username as nearby_username,
    geo_distance(u1.latitude, u1.longitude, u2.latitude, u2.longitude) as distance_km
FROM user_locations u1
JOIN user_locations u2 ON u1.user_id != u2.user_id
WHERE geo_distance(u1.latitude, u1.longitude, u2.latitude, u2.longitude) < 10
ORDER BY u1.user_id, distance_km;

-- 使用UDAF计算用户参与度评分
SELECT 
    user_id,
    engagement_score(event_type, event_value, session_id) as user_engagement_score
FROM user_events
GROUP BY user_id
ORDER BY user_engagement_score DESC;

案例4：性能优化配置

-- 启用向量化执行
SET hive.vectorized.execution.enabled = true;
SET hive.vectorized.execution.reduce.enabled = true;

-- 启用Cost-Based Optimizer (CBO)
SET hive.cbo.enable = true;
SET hive.compute.query.using.stats = true;
SET hive.stats.fetch.column.stats = true;

-- 优化Join操作
SET hive.auto.convert.join = true;
SET hive.mapjoin.smalltable.filesize = 25000000; -- 25MB
SET hive.auto.convert.join.noconditionaltask = true;

-- 启用动态分区
SET hive.exec.dynamic.partition = true;
SET hive.exec.dynamic.partition.mode = nonstrict;
SET hive.exec.max.dynamic.partitions = 1000;

-- 优化聚合操作
SET hive.map.aggr = true;
SET hive.groupby.skewindata = true;

-- 使用Tez引擎
SET hive.execution.engine = tez;
SET hive.tez.container.size = 4096;

-- 压缩设置
SET hive.exec.compress.output = true;
SET mapred.output.compression.codec = org.apache.hadoop.io.compress.SnappyCodec;
SET hive.exec.compress.intermediate = true;

-- 优化查询示例
-- 使用分区裁剪
EXPLAIN 
SELECT COUNT(*) 
FROM orders 
WHERE year = 2023 AND month IN (11, 12);

-- 使用桶连接
EXPLAIN 
SELECT /*+ MAPJOIN(p) */ 
    o.order_id, 
    p.product_name, 
    o.total_amount
FROM orders o
JOIN products p ON o.product_id = p.product_id
WHERE o.year = 2023 AND o.month = 12;

-- 使用索引（如果可用）
CREATE INDEX order_user_idx ON TABLE orders (user_id)
AS 'org.apache.hadoop.hive.ql.index.compact.CompactIndexHandler'
WITH DEFERRED REBUILD;

ALTER INDEX order_user_idx ON orders REBUILD;

案例5：数据管理和维护

-- 表统计信息管理
-- 计算表统计信息
ANALYZE TABLE users COMPUTE STATISTICS;
ANALYZE TABLE users COMPUTE STATISTICS FOR COLUMNS;

-- 分区统计信息
ANALYZE TABLE orders PARTITION(year=2023, month=12) COMPUTE STATISTICS;

-- 查看统计信息
DESCRIBE FORMATTED users;
SHOW TBLPROPERTIES users;

-- 数据治理
-- 创建数据血缘跟踪
CREATE VIEW order_summary AS
SELECT 
    year,
    month,
    COUNT(*) as order_count,
    SUM(total_amount) as total_revenue,
    AVG(total_amount) as avg_order_value
FROM orders
GROUP BY year, month;

-- 数据质量检查
-- 检查空值
SELECT 
    'users' as table_name,
    'user_id' as column_name,
    COUNT(*) as total_rows,
    COUNT(user_id) as non_null_rows,
    COUNT(*) - COUNT(user_id) as null_rows,
    (COUNT(*) - COUNT(user_id)) * 100.0 / COUNT(*) as null_percentage
FROM users

UNION ALL

SELECT 
    'users' as table_name,
    'email' as column_name,
    COUNT(*) as total_rows,
    COUNT(email) as non_null_rows,
    COUNT(*) - COUNT(email) as null_rows,
    (COUNT(*) - COUNT(email)) * 100.0 / COUNT(*) as null_percentage
FROM users;

-- 检查重复数据
SELECT 
    email,
    COUNT(*) as duplicate_count
FROM users
GROUP BY email
HAVING COUNT(*) > 1;

-- 数据归档
-- 创建归档表
CREATE TABLE orders_archive 
LIKE orders;

-- 归档旧数据
INSERT INTO orders_archive
SELECT * FROM orders 
WHERE year < 2022;

-- 删除旧数据
ALTER TABLE orders DROP PARTITION (year=2021);

-- 压缩表
ALTER TABLE orders_archive CONCATENATE;

最佳实践

1. 表设计优化

选择合适的文件格式（ORC、Parquet）
合理设计分区策略
使用桶表优化Join操作
设置合适的压缩算法

2. 查询优化

使用分区裁剪减少数据扫描
利用列式存储的投影下推
合理使用索引和统计信息
优化Join顺序和类型

3. 资源管理

配置合适的内存和CPU资源
使用队列管理控制资源使用
监控作业执行性能
合理设置并发度

Apache Hive作为Hadoop生态系统中的数据仓库解决方案，其SQL接口和强大的数据处理能力使其成为大数据分析的重要工具。通过合理的表设计和查询优化，Hive可以为企业提供高效、可扩展的数据仓库服务。

编外计划 - 日志

To be or not to be,--that is question.