登录
主页
 文章
 我们熟悉IT是信息技术(Information Technology)是以控制管理、积累数据为主。DT(Data technology)时代,它是以数据创新、激发生产力为主的技术。DT时代依托于大数据采集,采用传统大数据加工转变为快数据加工。优先丰富精准的指标体系形成推动社会进步、提升幸福指数的深数据
604
7
5
Apache Gobblin:一套分布式数据集成框架,旨在简化大数据集成工作当中的各类常见任务,包括数据流与批量生态系统的提取、复制、组织与生命周期管理 。主要用于大规模数据的抽取、转换和加载(ETL)。一、主要特点1. 高可扩展性 - 能够处理大规模数据集,通过水平扩展可以轻松应对不断增长的数据量和处理需求。
776
9
10
Apache Camel:一个开源框架,用于数据集成和企业应用集成,支持多种协议和数据格式,可以轻松地与现有的系统和应用程序集成 。一、主要特点1. 多样化的集成方式 - 支持多种传输协议和数据格式,如 HTTP、FTP、JMS、AMQP 等,可以轻松地在不同的系统和技术之间进行通信和数据交换。
660
3
3
AntV是蚂蚁金服全新一代数据可视化解决方案。需要一定的技术含量进行二次开发。它采用的 the grammar of graphics 语法,与其他可视化库相比有其独特之处,为用户提供了专业可靠、具有无限可能的数据可视化实践。一、主要产品及功能 - G2:基于图形语法理论,是面向常规统计图表的可视化工具。它以数据驱动,让用户无需关注图表的繁琐实现细节,就能使用 canvas 或 svg 构建出各种可交互的统计图表。基于 G2 还孵化了开箱即用的 G2Plot 统计图表库,其易用性进一步提升,图表类型更丰富,在蚂蚁的各类数据消费场景业务中广泛应用。
565
6
1
Pyecharts是当数据分析遇上 Python 语言时诞生的一个数据可视化库。Echarts 是一个由百度开源的数据可视化库,而 Pyecharts 以 Python 为基础,对 Echarts 进行了封装和扩展。特点:以其高度灵活的配置项,使用户可以轻松搭配出精美的图表。它结合了 Python 的强大数据处理能力和 Echarts 的优秀可视化效果,为 Python 开发者提供了便捷的数据可视化工具。
1068
7
3
DataGear是开源免费的数据可视化分析平台,采用浏览器 / 服务器架构。功能特点:支持运行时接入多种数据源,包括常见的关系数据库以及 Elasticsearch、ClickHouse、Hive 等大数据引擎;支持创建多种格式的数据集,如 SQL、CSV、Excel、HTTP 接口、JSON 等,并可设置为动态的参数化数据集;内置丰富的图表类型,如折线图、柱状图、饼图、地图等,且支持自定义图表配置项和编写上传自定义图表插件;数据看板采用原生的 HTML 网页作为模板,支持导入任意 HTML 网页,方便用户进行自由编辑和个性化设计。
592
1
8
数据可视化平台可以将复杂的数据以图表、图形等直观的形式展现出来,使数据的结构、趋势和关系一目了然。例如,通过柱状图可以清晰地比较不同类别数据的大小;折线图则能直观地反映数据随时间的变化趋势。帮助非专业数据分析师的用户,如企业管理者、业务人员等,快速理解数据的含义,无需深入了解数据的底层结构和复杂的统计分析方法。
641
5
3
Talend Open Studio是一个强大的数据集成平台,提供了丰富的功能和工具,用于设计、开发和管理数据集成流程。它支持多种数据源和数据格式,具有可视化的设计界面,方便用户进行数据转换和集成操作。此外,Talend Open Studio 还提供了数据质量检查、数据清洗等功能,帮助用户确保数据的准确性和完整性。
978
7
13
Clonezilla是一个开源的系统克隆工具,它可以对整个系统或单个分区进行克隆。由台湾的NCHC自由软件实验室开发。Clonezilla Live:适用于单台计算机,可以将存储介质或单个分区镜像到多种类型的存储位置,包括SSH服务器、Samba网络共享等。它还支持直接将一个存储介质上的数据克隆到另一个存储介质上。
847
2
14
TimeShift是Linux 系统备份程序,类似于 Windows 中的系统还原和 macOS 中的 Time Machine,通过定期获取文件系统的增量快照,可将系统恢复到以前的状态,提供 rsync 模式和 btrfs 模式。Timeshift 允许用户创建系统快照,以便在出现问题时能够恢复到之前的状态。Timeshift 支持使用 Rsync 或 BTRFS 两种方式来创建快照,提供了类似于 Windows 系统中的系统还原功能和 macOS 中的时间机器工具。
1167
9
11
Apache InLong(应龙):一站式的海量数据集成框架,提供自动、安全、可靠和高性能的数据传输能力,方便业务构建基于流式的数据分析、建模和应用。InLong 能够方便业务快速构建基于流式的数据分析、建模和应用,广泛应用于广告、支付、社交、游戏、人工智能等各个行业领域。InLong 项目最初由腾讯大数据团队捐献到 Apache 孵化器,并于 2022 年 6 月正式毕业成为 Apache 顶级项目。目前,InLong 正服务于上千个业务,其中高性能场景数据规模超百万亿条/天,高可靠场景数据规模超十万亿条/天。
1159
0
6
Apache NiFi 是一个易于使用、功能强大而且可靠的数据处理和数据分发系统。基于 web 图形界面,通过拖拽、连接、配置完成基于流程的编程,实现数据采集等功能。一、主要特点1. 可视化编程 - NiFi 提供了一个基于 Web 的用户界面,用户可以通过拖放、连接不同的处理器来构建数据处理流程,无需编写复杂的代码,使得数据处理流程的设计和修改变得直观和便捷。
506
2
5
Bup:基于 git packfile 格式,提供快速增量存储、全局重复数据删除,适用于 Linux、FreeBSD、NetBSD、macOS、Solaris 或 Windows(带有 Cygwin 和 WSL)等。一、主要特点1. 高效性 - 采用先进的算法,能够快速备份大量数据,节省时间和系统资源。无论是小文件还是大型数据集,都能迅速完成备份任务。
714
6
8
Apache SeaTunnel:分布式、高性能、易扩展的数据集成平台,架构于 Apache Spark 和 Apache Flink 之上,用于海量数据(离线&实时)同步和转化。前身是 waterdrop(中文名:水滴),2021 年 10 月 12 日更名为 SeaTunnel,2021 年 12 月 9 日正式成为 Apache 孵化器项目,2022 年 3 月 18 日社区发布首个 Apache 版本 v2.1.0 ,截至目前已发布了 39 个版本,并经过大量企业生产使用。
602
7
3
Addax:异构数据源离线同步工具,最初来源于阿里的 DataX,致力于实现包括关系型数据库、HDFS、Hive、HBase、FTP 等各种异构数据源之间稳定高效的数据同步功能。一、功能特性 - 并行处理:采用多线程并行处理策略,能根据数据源和目标的特性灵活分配任务,还可智能切分文件与表,实现数据读取与写入的最大化并发,从而提高数据迁移速度。
907
5
13
BackInTime:易于使用的 GNU/Linux 文件和文件夹备份工具,提供命令行工具和 QT5 GUI,使用 rsync 手动或计划执行快照,并可通过 SSH 在本地或远程存储快照。一、主要特点- 多种备份方式:提供了命令行工具和基于Qt5的图形界面(Back In Time-qt),用户可以根据自己的需求和使用习惯选择适合的方式进行操作。
578
1
9
TIS:基于批量数据处理(DataX)和流式数据处理(Flink-CDC、Chunjun)一体,提供简单易用的操作界面,降低用户实施各端(MySQL、PostgreSQL、Oracle、Elasticsearch、ClickHouse、Doris 等)之间数据同步的实施门槛。一、功能特点1. 高效的数据同步 - 能够实时捕获数据源的变化,并将其快速同步到目标系统中。无论是批量数据的周期性同步,还是流式数据的即时传输,TIS 都能确保数据的准确性和及时性。
907
7
0
- MinerU:一站式、开源、高质量的数据提取工具,支持多种功能,如提取 PDF、markdown 等格式的内容。一、特点1. 多源数据支持:可以从各种数据源中提取数据,包括数据库、文件系统、网页等。无论你是需要从企业内部的数据库中获取销售数据,还是从互联网上抓取特定信息,MinerU 都能胜任。
805
0
2
Griffin:是一个开源的大数据数据质量解决方案,支持批处理和流模式两种数据质量检测方式,可以从不同维度度量数据资产,从而提升数据的准确度、可信度。它的数据源可以是 Hadoop、RDBMS、Kafka 等,能够定义对数据的精确度、合法性、一致性、时间序列、完整性等进行检测,其检测任务运行在 Spark 基础上。
1189
9
10
DataHub:是一个用于数据发现、元数据管理和数据治理的开源平台。它提供了一个集中式的元数据存储库,支持多种数据源和数据格式。DataHub 具有强大的搜索和浏览功能,使用户能够轻松发现和理解数据资产。此外,它还提供了数据 lineage(数据血缘)跟踪、数据质量监控和数据治理工作流等功能,帮助企业更好地管理和利用其数据资产。
1038
1
4
- -
© 2021 - 现在 杭州极深数据有限公司 版权所有 (深数据® DEEPDATA® 极深®) 联系我们 
浙公网安备 33018302001059号  浙ICP备18026513号-1号