2. Flink 阅读BatchPaimon
发布时间:2025-06-24 19:34:50 作者:北方职教升学中心 阅读量:996
1. 流写Paimon。
支持 Paimon 表格与其他类型数据湖格式的关联查询。
# docker启动 镜像docker run -v /Users/xxx/bigdata_env/docker_path/data:/home/zzz/data -p 9030:9030 -p 8030:8030 -p 8040:8040 -itd --name quickstart starrocks/alllin1-ubuntu:3.2.11# docker启动MySQLdocker exec -it quickstart \mysql -P 9030 -h 127.0.0.1 -u root --prompt="StarRocks > "
由于容器内外的文件系统「不互通」,因此,
内容概况。
支持基于 Paimon 表构建物化视图实现透明加速,查询重写等。
# cp外部文件到容器内docker cp ~/bigdata_env/paimon_path quickstart:/home/zzz/data/。2. Flink 阅读BatchPaimon。
组件。 | |
40。 | 1000。 支持 Data Cache 加速查询。 |
300。 | |
Flink。 | |
50。 支持 Paimon 表和 StarRocks 内表相关查询。 1.1 启动FlinkSQL。 | 635。相对于查询速度『。直接查询 Primary Key 在表的情况下,若 Primary Key 表中包含了未完成的内容 Compaction 数据,StarRocks 里会通过 JNI 调用 Java 读取这部分内容,性能会有一定的损失。 能力介绍。 |
1740。提升88%。
通过SR(StarRocks)「外表」查询Paimon。
- 单机版,小数据量,『。
环境介绍。
对于 Primary Key 表型,Paimon 社区对 Read Optimized 系统表完善性能优化,可以与 Append Only 充分利用表格 Native reader 能力,直接查询 Paimon 数据的最佳性能。』效率。
支持 Paimon 表开启 Delete Vector 加速查询。
1.3 创建paimon表 & datagen写入。
CREATE CATALOG my_catalog WITH ( 'type'='paimon', 'warehouse'='file:/Users/xxx/bigdata_env/paimon_path');SHOW CATALOGS;USE CATALOG my_catalog;USE test_paimon_db;
1.3 创建paimon表 & datagen写入。
当前 StarRocks x Paimon 能力主要包括:
支持各种存储系统包括 HDFS 以及对象存储 S3/OSS/OSS-HDFS。单机版,小数据量『。
OLAP性能对比。SR+Paimon OLAP。
单机环境安装配置可参考上一篇文章:Flink+Paimon+Hadoop+StarRocks(Doris)单机环境安装部署。
1. 流写Paimon。
./bin/start-cluster.sh ./bin/sql-client.sh。
-- 创建paimon catalog(一次性)CREATE EXTERNAL CATALOG paimon_catalogPROPERTIES("type" = "paimon","paimon.catalog.type" = "filesystem","paimon.catalog.warehouse" = "file:/home/zzz/data/paimon_path/");-- test SELECT * FROM paimon_catalog.test_paimon_db.word_count;-- queryselect name from paimon_catalog.test_paimon_db.paimon_tbl_partial_updates_test2 where dt='2024-10-17' and (country like '�%' or region like '�%');
OLAP性能比较。
支持 Paimon 查询系统表,常见例如 Read Optimized 表,snapshots 表等。
- 后记:
- 单机环境安装配置可参考上一篇文章:Flink+Paimon+Hadoop+StarRocks(Doris)单机环境安装部署。
- ;
需要结合集群环境进一步测试大数据量。 |
Quick Start。
支持 Paimon 的 Primary Key 和 Append Only 查询表类型。』。
文章还对「Flink 阅读BatchPaimon」和「Starrrocks阅读Paimon」做了一些性能比较。
环境介绍。 本文主要基于单机/本地大数据湖仓环境,测试FlinkSQL + Paimon + StarRocks/ Doris实时(分钟级)入湖数据并通过StarRocks/Doris查询Paimon秒级OLAP查询。
本文主要基于单机/本地大数据湖仓环境,测试FlinkSQL + Paimon + StarRocks/ Doris实时(分钟级)入湖数据并通过StarRocks/Doris查询Paimon秒级OLAP查询。
CREATE TABLE IF NOT EXISTS paimon_tbl_partial_updates_test2 ( uuid bigint, name VARCHAR(15), country VARCHAR(15), region VARCHAR(15), address VARCHAR(35), gender VARCHAR(5), company VARCHAR(25), job VARCHAR(25), age int, ts TIMESTAMP(3), dt VARCHAR(10), PRIMARY KEY (dt, uuid) NOT ENFORCED ) PARTITIONED BY (dt) WITH ( 'merge-engine' = 'partial-update', 'changelog-producer' = 'full-compaction', 'file.format' = 'orc', 'scan.mode' = 'compacted-full', 'bucket' = '2', 'sink.parallelism' = '2', 'sequence.field' = 'ts' );show tables;SET 'execution.runtime-mode' = 'streaming'; -- !CREATE TEMPORARY TABLE IF NOT EXISTS source_a2 ( uuid bigint PRIMARY KEY NOT ENFORCED, name VARCHAR(15), country VARCHAR(15), region VARCHAR(15), address VARCHAR(35), gender VARCHAR(5), company VARCHAR(25), job VARCHAR(25), age int, ts TIMESTAMP(3)) WITH ( 'connector' = 'datagen', 'fields.uuid.kind'='sequence', 'fields.uuid.start'='0', 'fields.uuid.end'='100000', 'rows-per-second' = '1' );SET 'execution.checkpointing.interval' = '10 s';insert into paimon_tbl_partial_updates_test2(uuid, name, country, region, address, gender, company, job, age, ts, dt) select uuid, name, country, region, address, gender, company, job, age, ts, date_format(ts,'yyyy-MM-dd') as dt from source_a2;
2. Flink 阅读BatchPaimon。
3. Starrocks阅读Paimon外观。
通过docker部署SR,镜像容器需要通过docker启动。
-- use tableau result modeSET 'sql-client.execution.result-mode' = 'tableau';-- switch to batch modeRESET 'execution.checkpointing.interval';SET 'execution.runtime-mode' = 'batch';-- olap query the tableSELECT * FROM paimon_tbl_partial_updates_test2 WHERE dt='2024-10-17';-- select name from paimon_tbl_partial_updates_test2 where dt='2024-10-17' and (country like '�%' or region like '�%');
在 localhost:8081 的 Flink-UI 历史执行:
3. Starrocks阅读Paimon外观。能力介绍。
1.2 创建paimon catalog。
1.2 创建paimon catalog。
目录。1.1 启动FlinkSQL。
支持 HMS 以及阿里云 DLF 元数据管理系统。
Quick Start。