2025 年功能更新
2025.9 引擎发布 V1.3 版本
用户定义函数(UDF)支持
支持使用 SQL、PL/pgSQL 和 PL/Python 编写用户定义函数,将复杂计算逻辑下沉至数据库执行;PL/Python 提供向量化执行能力,并支持会话级临时函数,提升批量处理效率与使用灵活性。参考文档 UDF 管理、使用 PL/pgSQL 开发 UDF、使用 PL/Python 编写 UDF。
外表与数据接入能力增强
file_fdw 新增对 IMPORT SCHEMA 的支持,可自动探测 S3 / 对象存储中的目录结构,批量导入 Parquet、ORC 格式的外部表。支持 public schema 导入及目录级过滤,降低外部表定义与维护成本,提升数据湖场景下的接入效率。参考文档 file_fdw。
分析能力增强
SQL 分析能力新增对 CUBE、ROLLUP 以及 GROUPING SETS 的支持,能够更高效地表达多维聚合分析逻辑,简化复杂聚合查询的 SQL 编写方式,提升分析类查询的可读性与开发效率。参考文档 Grouping Sets。
空间数据能力支持
新增 PostGIS 数据类型支持,支持常见的 PostGIS 聚合函数,可满足基础地理空间数据分析与空间查询需求。支持 geometry 和 geography 数据类型,支持空间关系判断(ST_Contains、ST_Intersects、ST_Within 等)、空间测量(ST_Distance、ST_Area 等)和几何操作等功能。参考文档 PostGIS 地理信息检索。
物化视图能力增强
物化视图新增对 Schema Evolution 的支持,支持通过 CREATE OR REPLACE MATERIALIZED VIEW 对物化视图结构进行调整,降低上游表结构变更对分析模型维护的影响,提升物化视图使用的灵活性。参考文档 ALTER MATERIALIZED VIEW、物化视图。
向量与 AI 能力增强
向量索引新增 Product Quantizer 量化支持,通过向量压缩优化索引存储与检索效率,提升大规模向量相似度搜索场景下的性能与资源使用效率。参考文档 向量检索。
PostgreSQL 兼容性增强
支持在 pg_temp schema 下创建会话级临时函数(CREATE FUNCTION pg_temp.xxx),临时函数仅在当前会话内可见,连接结束后自动清理,行为与 PostgreSQL 保持一致,有助于提升临时计算、工具接入及 PostgreSQL 生态兼容性。
可观测性与运维能力增强
新增数据库与表大小查询相关系统函数,支持 pg_database_size、pg_table_size 以及 pg_relation_size,便于用户查看数据库与表的存储占用情况,提升容量管理与运维可观测性。参考文档 System Administration Functions。
查询性能优化
对点查查询、分析型查询以及 JSON 查询场景进行了性能优化,提升整体查询执行效率与系统稳定性,改善混合负载场景下的使用体验。
2025.8 平台发布 Teleport 支持适配"无损变更"能力
当上游数据库采用 Aliyun DMS 进行数据结构变更时,支持 Teleport 作业适配"无损变更"能力,该模式下,ProtonBase 不会产生临时表,不会修改 table id,不会改变视图依赖。
2025.7 平台发布 Teleport 导出到 Kafka 能力
支持将 ProtonBase 的数据变更事件实时推动到下游 Kafka 中,支持整库同步,支持 Maxwell 和 KVS 两种格式。
2025.5 引擎发布 V1.2 版本
SQL 引擎优化
-
新增两种事务隔离级别:Read Committed(读已提交)和 Repeatable Read(可重复读),这些隔离级别比 Read Uncommitted(读未提交)更严格,但比 Serializable(可串行化,默认)更宽松,可以在 TP 场景支持更高的 TPS。参考文档 事务处理。
-
查询优化器支持高效的 Runtime Filter,通过在查询执行过程中动态生成和应用过滤条件,显著减少了数据扫描量、I/O 操作和网络传输开销,在大表 Join 小表的场景下,能够带来显著的性能提升。
-
优化 SQL 执行引擎的 Spill 能力,支持自适应 Spill,提高大作业稳定性。
-
改善分区表使用体验,支持 truncate 父表,支持为不同的分区设置不同的存储格式(冷热分层),支持在分区父表上订阅 CDC。参考文档 分区表。
-
增强 pg_hint_plan 能力,支持通过配置 hint_table 动态改变运行时的 Query 行为。参考文档 SQL Hints。
增量物化视图优化
-
优化增量物化视图刷新体验,减少刷新过程的表级锁依赖,加速物化视图并行刷新效率。
-
增量物化视图增加更多聚合算子,包括 string_agg(DISTINCT) / 近似去重 approx_count_distinct / 近似分位数 approx_percentile,参考文档 近似计算。
-
增量物化视图支持动态修改存储格式,ALTER MATERIALIZED VIEW mv_name SET ACCESS METHOD columnar/row/hybird,支持为物化视图动态创建索引。参考文档 物化视图。
多模检索优化
-
向量检索中 HNSW 索引支持向量量化,支持 int8/fp16 两种量化类型,通过将原始浮点向量转换为更紧凑的类型表示,减少类型占用位数来压缩数据,可以显著影响索引的性能和内存使用。参考文档 向量检索。
-
Feature Store 场景优化,增量物化视图支持常见特征计算算子,包括以下窗口函数:排名函数 ROW_NUMBER,RANK,DENSE_RANK,NTILE;聚合函数 SUM OVER,AVG OVER,COUNT OVER,MIN OVER,MAX OVER;分布函数 PERCENT_RANK,CUME_DIST;位置函数 FIRST_VALUE,LAST_VALUE;滞后/领先函数 LAG,LEAD;支持总体标准差 stddev_pop/ 样本标准差 stddev_samp/ 总体方差 var_pop/ 样本方差 var_samp 等函数。
-
增加 PostGIS 扩展支持,支持地理信息检索,允许在 SQL 中运行空间查询,包括空间关系判断、空间测量、几何操作等。参考文档 PostGIS 地理信息检索。
-
全文检索场景优化搜索排名能力。参考文档 全文检索。
-
改善 JSON 使用体验,支持更多 JSON PATH Query 下推优化,支持索引对使用 CAST 进行过滤场景的加速,支持对 JSON 稀疏字段的 Partial Index,改善执行效率。
数据湖优化
-
支持 Delta Lake 格式,支持集成 Databricks Unity Catalog。参考文档 配置 Unity Catalog 外部表。
-
改善数据湖使用体验,支持 Parquet 和 ORC 的 Array 类型。参考文档 外表数据类型映射。
2025.4 平台发布 Cache 能力
为什么需要 Cache 能力?支持针对冷存和数据湖数据的加速访问。使用详情参考 缓存 Cache。
2025.4 平台发布 Warebase 自动暂停能力
为什么需要自动暂停能力?针对长时间未访问的 Warebase 实例,可以启动自动暂停功能,节约计算资源。
2025.3 平台发布 Catalog 能力
为什么需要 Catalog 能力?支持基于共享存储的多 Warebase 隔离机制,可以实现灵活的读写隔离、写写隔离、读读隔离,更适合不同业务团队共享 Database,独立加工,独立服务的场景。使用详情参考 多 Warebase 负载隔离。
2025.1 引擎发布 V1.1 版本
本次引擎更新包含以下更新:
-
发布增量物化视图(Incremental Materialized View),通过物化视图增量刷新机制,以更低的数据加工资源实现物化视图的近实时更新,提升数据的时效性和查询效率,支持 COUNT、SUM、MIN、MAX、COUNT DISTINCT、方差、标准差等聚合算子;支持 Having 表达式;支持 WITH 表达式;支持全面的多表连接,包括 Inner/Left Outer/Right Outer/Full Outer 连接方式。使用详情参考 物化视图。
-
完善分区表运维体验,支持灵活的 ATTACH、DETACH 分区操作,支持数据直接导入分区父表。使用详情参考 分区表。
-
优化数据湖支持,支持对接 Iceberg REST Catalog,支持数据导出到 ORC、Parquet、Iceberg(V2) 格式的外表。使用详情参考 外部表。
-
支持数据冷热分层存储,平衡性能和成本,降低用户存储成本。使用详情参考 存储分层。
-
支持列级权限控制,细粒度控制 SELECT、UPDATE 权限。请用详情参考 列级权限控制。
-
向量检索新增 HNSW 类型索引,针对海量数据集,支持更高召回精度和查询性能。使用详情参考 向量检索。
-
完善 Statements 统计分析,支持 pg_stat_statements 扩展。使用详情参考 Statements 统计分析。
-
支持 SQL Hints 机制,支持 pg_hint_plan 扩展。使用详情参考 SQL Hints。
-
新增 mysql_compatible 扩展,改善与 MySQL 兼容程度。使用详情参考 MySQL 兼容。
-
COPY 支持 Binary 协议,改善数据导入导出效率。使用详情参考 COPY。
-
支持临时表。使用详情参考 临时表。
-
支持数据类型转换相关操作,包括 CREATE CAST、DROP CAST 等操作。
-
丰富数组能力,支持多维数组结构。使用详情参考 Arrays。
-
优化生态对接能力,与 ByteBase、AirByte、dlt、dbt 改善兼容度。
-
改善 JSON 类型查询效率,优化列剪裁和字典编码。
-
改善内存使用,更合理高效,提升系统运行稳定性,减少 OOM。