登录
主页
 文章
Yunque(云雀):数据集成工具,实现异构数据源的整合,帮助企业构建数据仓库、数据湖等应用架构。其框架设计采用 client 端和 server 端分布式架构,master-slave 的架构模型。master 负责接受用户的请求,通过轮询的方式,将任务转发给 slave 进行数据处理,其中 server 端一个 thread 负责一个 task 进行任务处理。server 端的架构分为 reader、channel、writer 三部分。reader 作为数据源,可以通过实现共同的 reader 接口,以 sql 的方式对数据进行抽取操作;channel 作为队列,可选的队列有默认的 linkedblockingqueue,也可使用 kafka,通过使用 kafka 做到一次写入多次读取;writer 作为目标数据源,可以通过实现共同的 writer 接口,以 sql 的方式对数据进行下沉操作。
977
7
8
- Restic:支持 Linux、macOS 和 Windows 等操作系统,是一个快速、安全的开源备份程序。Restic最初是由开发者MichaelEischer发起的个人项目。其设计目标是提供一种快速、高效、安全且开源的备份解决方案,以满足不同用户和场景对数据备份的需求。在项目早期,Restic专注于核心功能的开发和完善,包括备份与恢复机制的构建、数据加密算法的选择与实现等。通过不断优化代码和算法,Restic逐渐提高了备份和恢复的速度与效率,同时确保了数据的安全性。
963
2
2
Streamsets 是一款企业级的开源数据集成平台。通过拖拽式的可视化界面实现数据管道的设计和定时任务调度,数据源支持 MySQL、Oracle 等结构化和半/非结构化,目标源支持 HDFS、Hive、HBase、Kudu、Solr、Elasticsearch 等。- 2014年:Streamsets由Informatica前首席产品官Girish Pancha和Cloudera前开发团队负责人Arvind Prabhakar创立。他们成立该公司主要是应对来自动态数据(Data in Motion)的挑战,包括数据源、数据处理和数据本身(“数据漂移”问题)。同年推出了第一款产品StreamSets Data Collector(SDC),被数百家公司用于构建复杂的任意数据流,客户涵盖金融服务、制造业、医疗、媒体、制药和技术等多个行业。
948
4
6
纯钧(chunjun)是一款稳定、易用、高效、批流一体的开源数据集成框架,目前基于实时计算引擎 Flink 实现多种异构数据源之间的数据同步与计算,已在上千家公司部署且稳定运行。“纯钧”被记载于《越绝书》,书中描述其为越王勾践所藏宝剑,由铸剑大师欧冶子所铸。此剑被形容为 “手振拂,扬其华,淬如芙蓉始出。观其钣,烂如列星之行;观其光,浑浑如水之溢于塘;观其断,岩岩如琐石;观其才,焕焕如冰释。”
650
5
1
Debezium 是一个开源的分布式平台,主要用于捕获数据库的变更事件,并将这些变更实时地流式传输到其他系统,以实现数据同步、监控和集成等目的。2016 年:Debezium 正式开源,支持 MySQL 数据库的变更捕获,这是其第一个支持的数据库。通过抽取数据库日志来获取变更,实现了对 MySQL 数据的全量读取和增量读取。
586
5
5
Dbsyncer 是一款开源的数据同步中间件。为用户提供了在多种数据库和数据源之间进行同步的解决方案。 - 支持多种同步场景,包括常见的关系型数据库(如 MySQL、Oracle、SQL Server、PostgreSQL),以及非关系型数据库(如 Elasticsearch)、Kafka、文件等,满足不同场景下的数据同步需求。
1076
2
11
Canal 是阿里巴巴开源的一款基于数据库增量日志解析,提供增量数据订阅和消费的工具。一、主要功能1. 数据同步 - 可以实时同步 MySQL 数据库的变更数据到其他系统,如数据仓库、搜索引擎、缓存系统等。实现数据的实时备份和多系统间的数据一致性。 Canal 是基于 MySQL 数据库的主从复制原理实现的,通过解析 MySQL 的 binlog 日志来获取数据库的增量变更。
720
2
5
Scidavis是一款免费、开源的跨平台科研绘图软件,主要用于科学数据的分析和可视化。Scidavis开发始于2007年,是qtiplot的分支,而qtiplot则是科研绘图软件Origin的克隆。qtiplot开发于2004年,由Ion Vasilief发起,直到2006年5月Knut Franke和Tilman Hoener zu Siederdissen加入该项目,之后Roger Gadiou正式加入成为主要的文档撰写人。目前,Scidavis在功能上不断完善和增强,支持多种操作系统,如Windows、macOS和Linux等。其界面简洁直观,操作容易上手,且原生支持中文等十几种语言。它可以进行基本的绘图功能,如生成多种类型的2D图(符号/线条、条形、饼图等),支持交互式3D绘图输出,内置多种分析操作,还能广泛支持拟合线性和非线性函数的数据等。并且,它允许用户根据需求对软件进行定制和扩展。
693
7
1
Duplicati是一款免费、开源、跨平台的备份软件。Duplicati最初是作为一个开源项目启动,旨在为用户提供一种免费、灵活且功能强大的备份解决方案。它支持多种操作系统,包括Windows、macOS和Linux,这使得不同平台的用户都能使用它来进行数据备份。随着时间的推移,Duplicati不断添加新的功能和特性。例如,它支持AES-256加密技术,对备份的数据进行加密处理,保障数据的安全性和隐私性;实现了增量备份功能,首次备份时上传完整数据,之后只上传修改过的部分,节省带宽和存储空间;还具备定时任务功能,用户可以设定自动备份计划。Duplicati能够将数据备份到本地硬盘、网络文件服务器,还支持众多云存储服务,如Amazon S3、Google Drive、OneDrive、Dropbox、FTP、SFTP等,以及腾讯云对象存储(COS)等。这大大扩展了用户的备份选择,满足不同用户在各种场景下的备份需求。
1038
4
14
DataX 是阿里巴巴集团推出的一款开源的异构数据源离线同步工具。致力于实现包括关系型数据库、HDFS、Hive、ODPS、HBase、FTP 等各种异构数据源之间稳定高效的数据同步功能。一、主要功能1. 强大的数据抽取和加载能力 - DataX 可以从各种异构数据源中抽取数据,包括关系型数据库(如 MySQL、Oracle、SQL Server 等)、非关系型数据库(如 MongoDB、HBase 等)、文件系统(如 CSV、Excel、JSON 等格式的文件)等。
655
0
7
Bitsail 是一个开源的分布式数据集成引擎。字节跳动于 2022 年 10 月 26 日正式在 GitHub 开源,为更多的企业和开发者带来便利,降低数据建设的成本,让数据高效地创造价值。BitSail支持20多种异构数据源间的数据同步,并提供离线、实时、全量、增量场景下的全域数据集成解决方案,目前服务于字节内部几乎所有业务线,包括抖音、今日头条等大家耳熟能详的应用,同时也支撑了火山引擎多个客户的数据集成需求。
534
2
1
Kettle(也称为 Pentaho Data Integration)是一款功能强大的开源 ETL(Extract, Transform, Load)工具,主要用于数据仓库和商业智能领域。Kettle最早可追溯到本世纪初,当时ETL工具种类繁多。Kettle的作者Matt Casters在2001年有了开发自己的ETL工具的想法,他每天忙于咨询工作,为不同项目不断修改ETL代码和框架,部署各种ETL工具的代码生成器。随着时间的推移,Kettle不断适应数据处理领域的新需求和技术发展趋势,在数据源支持、数据转换能力、性能优化、易用性等方面不断改进和提升,如今仍然是ETL领域广为人知且被广泛使用的工具之一。
611
7
4
Airbyte 是一个开源的 ELT(Extract-Load-Transform)平台,帮助用户轻松地从各种数据源中提取数据,并将其加载到目标数据仓库或数据库中,同时支持在加载过程中进行一定程度的转换操作。创立于2020 年,Michel Tricot(曾是 Liveramp 和 Rideos 的前工程总监兼集成负责人)和 John Lafleur(专注于开发工具和 B2B 服务的连续创业者)共同创立了 Airbyte。最初他们想专注于营销公司的数据连接,后来转向数据整合赛道。
948
2
2
Metabase是一个开源的数据分析和可视化工具,旨在帮助用户轻松地探索和理解数据。Metabase的发展历程如下:起源于2015年,目标和愿景是让公司能快速将辛苦收集的数据提供给最能利用它的人,使其成为每个公司获取数据的第一步。它在数据源支持、数据分析和可视化等方面不断发展,为用户提供了便捷、高效的数据分析工具。
624
3
1
数据质量工具(Great Expectations) 是一个用于数据验证、测试和文档化的开源数据工具。Great Expectations 最初由一些数据工程师和科学家开发,旨在为数据团队提供一种有效的方式来定义和验证数据质量。它的设计目标是提供一种简单而灵活的方法,使数据从业者能够对数据进行全面的质量检查,并确保数据符合预期的标准和业务规则。
760
5
9
RapidMiner是一款功能强大的数据挖掘和机器学习工具,它提供了从数据预处理、建模、评估到部署的一系列流程 。它最初由德国多特蒙德工业大学的人工智能部门开发,原名Yale,后更名为RapidMiner 。RapidMiner以其图形用户界面(GUI)和拖拽式操作而闻名,这使得即使是初学者也能快速上手进行数据分析 。
649
8
6
Weka(Waikato Environment for Knowledge Analysis)是一款免费的、开源的机器学习和数据挖掘软件,主要用于解决实际的数据挖掘问题。Weka的开发始于20世纪90年代初,由新西兰怀卡托大学的Ian H. Witten和Eibe Frank等学者发起。Weka主要专注于数据挖掘算法的研究和实现,涵盖了分类、聚类、关联规则挖掘等基本的数据挖掘任务,逐渐在学术界获得认可。
1085
8
7
KNIME(Konstanz Information Miner)是一款功能强大的开源数据分析、可视化和部署工具。KNIME 的发展始于 2004 年 1 月,由康斯坦茨大学的软件工程师团队作为专有产品开发。其原始开发团队来自硅谷的一家公司,最初目标是创建一个模块化、高度可扩展和开放的数据处理平台,以便轻松集成不同的数据加载、处理、转换、分析和可视化探索模块,而不必关注特定的应用领域。
1072
7
1
Apache Spark 是一个开源的分布式计算系统,广泛用于大数据处理和分析。它提供了一个快速、通用和可扩展的数据处理平台,能够处理各种数据源和数据类型。Apache Spark 的发展历史始于2009年,当时它是加州大学伯克利分校AMP实验室的一个研究项目,目的是解决大规模数据处理问题 。2010年,Spark 作为开源项目对外发布,并因其简化的MapReduce编程模型和高效的分布式计算能力迅速受到关注 。2013年,Spark 加入Apache软件基金会,并成为Apache的顶级项目 。
682
7
11
随着企业业务流程自动化需求的日益增长,流程引擎作为实现业务流程管理(BPM)的核心组件,其重要性不言而喻。开源流程引擎因其灵活性高、成本低的特点,成为众多企业和开发者的首选。流程引擎可以被看作是一个 “流程指挥官”,它以特定的规则和逻辑来控制业务流程的流转。它通常包含一系列的模型、算法和数据结构,能够理解、解释和执行流程定义。这些流程定义可以用图形化的方式进行设计,描述了业务活动的顺序、条件分支、并行执行等各种情况。例如,在一个订单处理系统中,流程引擎可以定义从订单接收、库存检查、支付处理到发货通知等一系列步骤的执行顺序和逻辑关系。
1158
9
0
- -
© 2021 - 现在 杭州极深数据有限公司 版权所有 联系我们 
浙公网安备 33018302001059号  浙ICP备18026513号-1号