OpenLineage最初由WeWork开发。后来被贡献给开源社区,由Amundsen、DataHub、Pandas和Spark等其他开源项目的贡献者共同维护。项目地址为:https://github.com/OpenLineage/OpenLineage一、主要功能1.数据血缘追踪 精确追溯上下游关系:能精准记录数据从产生到最终使用的完整路径,清晰展示数据的来源、流经的各个处理环节以及最终的去向。比如在一个数据仓库系统中,可追踪原始数据从业务数据库抽取,经过ETL(Extract,Transform,Load)作业进行清洗、转换,再加载到数据仓库的具体表中的全过程,明确每个环节对数据的操作和影响。