2. Flink 阅读BatchPaimon

发布时间:2025-06-24 19:34:50  作者:北方职教升学中心  阅读量:996


1000。1000。FlinkBatch+Paimon。FlinkBatch+Paimon(ms)。SR+Paimoon(ms)。747。90。

1. 流写Paimon。25000。

  • 支持 Paimon 表格与其他类型数据湖格式的关联查询。1000。

    # docker启动 镜像docker run -v /Users/xxx/bigdata_env/docker_path/data:/home/zzz/data -p 9030:9030 -p 8030:8030 -p 8040:8040 -itd --name quickstart starrocks/alllin1-ubuntu:3.2.11# docker启动MySQLdocker exec -it quickstart \mysql -P 9030 -h 127.0.0.1 -u root --prompt="StarRocks > "

    由于容器内外的文件系统「不互通」,因此,


    内容概况。14732。

  • 支持基于 Paimon 表构建物化视图实现透明加速,查询重写等。687。110。3000。60。100。

  • Paimon+IDEA参考:新一代数据湖存储技术Apache Demooon进入Paimon 。测试数据量。702。需要在docker容器中挂载或将copy文件夹到!!!

    # cp外部文件到容器内docker cp  ~/bigdata_env/paimon_path quickstart:/home/zzz/data/。

    2. Flink 阅读BatchPaimon。50。

  • 组件。
    40。1000。

  • 支持 Data Cache 加速查询。

  • 300。
    Flink。
    50。

  • 支持 Paimon 表和 StarRocks 内表相关查询。

    1.1 启动FlinkSQL。

  • 635。相对于查询速度『。直接查询 Primary Key 在表的情况下,若 Primary Key 表中包含了未完成的内容 Compaction 数据,StarRocks 里会通过 JNI 调用 Java 读取这部分内容,性能会有一定的损失。

    能力介绍。

    1740。提升88%。506。

    通过SR(StarRocks)「外表」查询Paimon。980。1000。0.8.2。

    • 单机版,小数据量,『。

      环境介绍。

            对于 Primary Key 表型,Paimon 社区对 Read Optimized 系统表完善性能优化,可以与 Append Only 充分利用表格 Native reader 能力,直接查询 Paimon 数据的最佳性能。』效率。

  • 支持 Paimon 表开启 Delete Vector 加速查询。768。1000。1.17.2。

    1.3 创建paimon表 & datagen写入。

    CREATE CATALOG my_catalog WITH (    'type'='paimon',    'warehouse'='file:/Users/xxx/bigdata_env/paimon_path');SHOW CATALOGS;USE CATALOG my_catalog;USE test_paimon_db;

    1.3 创建paimon表 & datagen写入。

    当前 StarRocks x Paimon 能力主要包括:

    1. 支持各种存储系统󿀌包括 HDFS 以及对象存储 S3/OSS/OSS-HDFS。单机版,小数据量󿀌『。80。

      OLAP性能对比。SR+Paimon OLAP。

      单机环境安装配置可参考上一篇文章:Flink+Paimon+Hadoop+StarRocks(Doris)单机环境安装部署。

      1. 流写Paimon。

      ./bin/start-cluster.sh ./bin/sql-client.sh。600。100000。

      -- 创建paimon catalog(一次性)CREATE EXTERNAL CATALOG paimon_catalogPROPERTIES("type" = "paimon","paimon.catalog.type" = "filesystem","paimon.catalog.warehouse" = "file:/home/zzz/data/paimon_path/");-- test SELECT * FROM paimon_catalog.test_paimon_db.word_count;-- queryselect name from paimon_catalog.test_paimon_db.paimon_tbl_partial_updates_test2 where dt='2024-10-17' and (country like '�%' or region like '�%');

      OLAP性能比较。3.2.11。90。StarRocks。90。

    2. 支持 Paimon 查询系统表,常见例如 Read Optimized 表,snapshots 表等。

      • 后记:
      • 单机环境安装配置可参考上一篇文章:Flink+Paimon+Hadoop+StarRocks(Doris)单机环境安装部署。
    需要结合集群环境进一步测试大数据量。

    Quick Start。917。

  • 支持 Paimon 的 Primary Key 和 Append Only 查询表类型。』。1000。120。

            文章还对「Flink 阅读BatchPaimon」和「Starrrocks阅读Paimon」做了一些性能比较。总计。

    环境介绍。

            本文主要基于单机/本地大数据湖仓环境,测试FlinkSQL + Paimon + StarRocks/ Doris实时(分钟级)入湖数据�并通过StarRocks/Doris查询Paimon秒级OLAP查询。140。

    CREATE TABLE IF NOT EXISTS paimon_tbl_partial_updates_test2 ( uuid bigint, name VARCHAR(15), country VARCHAR(15), region VARCHAR(15), address VARCHAR(35), gender VARCHAR(5), company VARCHAR(25), job VARCHAR(25), age int, ts TIMESTAMP(3), dt VARCHAR(10),  PRIMARY KEY (dt, uuid) NOT ENFORCED ) PARTITIONED BY (dt)  WITH (    'merge-engine' = 'partial-update',    'changelog-producer' = 'full-compaction',     'file.format' = 'orc',     'scan.mode' = 'compacted-full',     'bucket' = '2',     'sink.parallelism' = '2',     'sequence.field' = 'ts' );show tables;SET 'execution.runtime-mode' = 'streaming';  -- !CREATE TEMPORARY TABLE IF NOT EXISTS source_a2 ( uuid bigint PRIMARY KEY NOT ENFORCED, name VARCHAR(15), country VARCHAR(15), region VARCHAR(15), address VARCHAR(35), gender VARCHAR(5), company VARCHAR(25), job VARCHAR(25), age int, ts TIMESTAMP(3)) WITH ( 'connector' = 'datagen',  'fields.uuid.kind'='sequence', 'fields.uuid.start'='0',  'fields.uuid.end'='100000',  'rows-per-second' = '1' );SET 'execution.checkpointing.interval' = '10 s';insert into paimon_tbl_partial_updates_test2(uuid, name, country, region, address, gender, company, job, age, ts, dt) select uuid, name, country, region, address, gender, company, job, age, ts, date_format(ts,'yyyy-MM-dd') as dt from source_a2;

    2. Flink 阅读BatchPaimon。40。

    3. Starrocks阅读Paimon外观。

    通过docker部署SR,镜像容器需要通过docker启动。

    -- use tableau result modeSET 'sql-client.execution.result-mode' = 'tableau';-- switch to batch modeRESET 'execution.checkpointing.interval';SET 'execution.runtime-mode' = 'batch';-- olap query the tableSELECT * FROM paimon_tbl_partial_updates_test2 WHERE dt='2024-10-17';-- select name from paimon_tbl_partial_updates_test2 where dt='2024-10-17' and (country like '�%' or region like '�%');

    在 localhost:8081 的 Flink-UI 历史执行:

    3. Starrocks阅读Paimon外观。

    能力介绍。

    1.2 创建paimon catalog。515。120。Paimon。40。

  • 基于Paimon主键表的多流拼接:Flink+Paimon多流拼接性能优化实战。

    1.2 创建paimon catalog。120。

    目录。

    1.1 启动FlinkSQL。100。即使在这种情况下,在收到用户反馈时,平均还是会有相对的 Trino 性能提升3倍以上。版本。

  • 支持 HMS 以及阿里云 DLF 元数据管理系统。

    Quick Start。675。