登录
主页
 文章
sego是一个 Go 语言的中文分词库。词典用双数组 trie(double-array trie)实现,分词器算法为基于词频的最短路径加动态规划。支持普通和搜索引擎两种分词模式,支持用户词典和词性标注,可运行 jsonrpc 服务,分词速度较快。早期为 Go 语言开发者提供了一种高效的中文分词解决方案。它的出现满足了 Go 语言在中文自然语言处理方面对准确分词的需求,尤其是在处理大量中文文本数据时,其性能优势逐渐受到关注。
1061
9
2
HanLP是一个由模型与算法组成的 Java 汉语言处理包,由大快搜索主导并完全开源。它不仅提供中文分词功能,还具备索引全切分模式、用户自定义词典、兼容繁体中文、词性标注、命名实体识别、关键词提取、自动摘要等众多自然语言处理功能。需要先下载相关的模型文件,然后使用相应的 API 进行文本处理。例如,使用其提供的中文分词功能时,可以先初始化分词器,然后对文本进行分词操作。
870
7
5
jieba是一款非常受欢迎的中文分词工具, jieba 最初是由开发者 Sun Junyi 开源的一个 Python 中文分词项目。一开始,jieba 就具备了基本的中文分词能力,能够将中文文本按照一定的规则拆分成词语。随着项目的发展,开发者不断对 jieba 的核心分词算法进行优化。除了 Python 版本外,jieba 逐渐推出了其他编程语言的版本,如 C++、Java、iOS 等,使得在不同的编程语言环境下都能够方便地使用 jieba 进行中文分词,扩大了其应用范围。
892
2
11
OnlyOffice 是一个免费、开源、跨平台的办公套件,它提供了文本编辑器、表格工具和演示软件,支持共享文件实时协作编辑、修改痕迹记录查看以及制作可供填写的表格等高级功能。OnlyOffice 的用户界面模仿了微软 Office 365 功能区的设计风格,能让用户快速上手。OnlyOffice最先是在2009年推出了TeamLab社区,后来发布了自己的文档编辑软件。在2014年,将TeamLab Office更名为OnlyOffice,并开放了源代码。经过多年发展,其在全球的用户数量不断增加,如今已被广泛使用。
617
6
11
Stirling PDF:这是一个基于Web的PDF处理工具,可以在本地通过Docker托管。它提供了拆分、合并、转换、重新组织、添加图像、旋转、压缩等功能。一、功能 - 页面操作方面: - 查看与修改:支持查看多页 PDF,并提供自定义的查看排序和搜索功能。用户还可以在页面上进行编辑操作,如添加注释、绘图、添加文本和图像等。
961
9
9
Apache Ozone是基于Hadoop的可扩展、冗余和分布式对象存储,适用于容器环境,如Kubernetes和YARN。Ozone支持多协议,包括S3和Hadoop文件系统API 。一、基本概念 - 存储元素构成: - Volumes(卷):类似于账号的概念,只有管理员有权限创建或删除卷,管理员会为组织或团队创建卷。
1045
8
14
LibreOffice是一个非常流行的开源办公套件,它包括了文本文档、电子表格、演示文稿、绘图、数据库等组件。LibreOffice 支持多种操作系统,包括 Windows、GNU/Linux 和 macOS,并且提供了丰富的功能和良好的文件格式兼容性。它还支持多种语言,并且有一个活跃的社区,为用户提供支持和资源。LibreOffice 是微软 Office 的优秀替代品,对于个人和企业都是免费使用的 。
538
0
0
Apache OpenOffice 是一个开源办公套件,包括文本文档、电子表格、演示文稿、绘图和数据库管理。它支持多种语言,并且可以在所有普通计算机上工作。Apache OpenOffice 同样是基于国际开放标准格式存储数据,并且可以读写其他常用办公软件包的文件 。1985 年,StarDivision 公司发布了私有办公软件套装 StarOffice。StarOffice 包含了文字处理、电子表格、演示文稿等多种功能,是办公软件领域的早期产品之一。 2000 年,Sun Microsystems 公司将 StarOffice 的源代码公开,随后 OpenOffice.org 诞生。这是一个开源的办公软件项目,旨在为用户提供免费的办公软件解决方案。2011年Apache 基金会接手。它在开源办公软件领域具有一定的历史地位和影响力,但近年来面临着激烈的竞争和发展挑战。
972
5
11
FreeNAS可以安装在几乎任何硬件上,将其转变为网络附加存储(NAS)设备。除了文件共享和快照外,FreeNAS还提供了一系列数据保护功能。FreeNAS 项目历史可追溯到 2005 年 10 月,由 Olivier Cochard-Labbé 基于 m0n0wall 嵌入式防火墙和 FreeBSD 6.0 开发。2010 年,FreeNAS 项目被 ixSystems 公司收购,但依然保持开源免费,并且因为有专业公司技术团队的全职维护,其版本迭代速度较快。
864
8
11
MuPDF:这是一个专注于提供快速、小巧且功能强大的PDF处理能力的开源PDF阅读器和解析库。它支持多种操作系统,提供了C API,便于其他编程语言的绑定。一、核心技术与功能: - 强大的解析引擎:MuPDF 的核心是一个轻量级的 PDF 解析引擎,能够实现 PDF 规范的大部分功能,包括对文本、图像、图形以及表单等元素的准确渲染。这意味着无论是简单的文字文档,还是包含复杂图形、图表、表单的 PDF 文件,MuPDF 都能很好地解析并展示其内容。
1167
5
12
CloudStack设计用于部署和管理大量虚拟机的开源软件,作为可扩展的基础设施即服务(IaaS)云计算平台 。一、功能特点1. 虚拟机部署与管理 - 可以快速部署虚拟机,支持多种操作系统。你可以根据需求选择不同的虚拟机配置,如 CPU、内存、存储等。 - 对虚拟机进行启动、停止、重启等操作,方便你对资源进行灵活调配。
1179
0
1
MinIO:一个高性能的开源对象存储服务,兼容Amazon S3 API,适合存储大容量非结构化数据。它非常轻量级,易于与其他应用程序集成,如Kubernetes、etcd、Docker等。MinIO以其快速的读写速度(最高可达183GB/s读取和171GB/s写入)和简单的部署方式而闻名 。MinIO 是一个基于 Apache License v2.0 开源协议的对象存储服务。
1036
6
12
IBM InfoSphere QualityStage可在内部部署或云中使用,为数据清理和管理提供了广泛而全面的方法。具有深度数据分析工具,能够帮助用户理解数据的内容、质量和结构;利用机器学习技术可以自动标记数据并识别潜在问题。提供 200 多个内置的数据质量规则,用于控制不良数据的接收,还可以将问题路由到合适的人进行处理。数据分类功能能够识别个人识别信息,有助于保护数据安全和消除重复记录。
725
6
0
SAS Data Management是一款行业领先的数据管理解决方案,建立在数据质量平台之上,能够帮助用户提高、整合数据质量。它提供了强大的数据集成、转换和清洗功能,可以处理各种复杂的数据质量问题。同时,SAS 具有良好的数据分析和报告功能,能够为用户提供详细的数据质量报告和分析结果,帮助用户更好地了解数据质量状况。适用于对数据分析和数据质量要求较高的企业,如医疗、科研等行业。在数据挖掘、统计分析等项目中,SAS Data Management 能够为用户提供高质量的数据支持,帮助用户发现数据中的潜在规律和趋势。
895
8
6
Alteryx可以加速或自动化业务流程,并支持地理空间和预测解决方案。其平台有助于组织快速、高效地回答业务问题,可作为数字化转型或自动化计划的重要组成部分。在数据质量方面,Alteryx 提供了数据清洗、转换和验证的功能,能够帮助用户快速处理和优化数据。此外,它还具有直观的可视化界面,方便用户进行操作和分析。
530
0
14
Informatica Data Quality提供全面的数据质量解决方案,擅长数据标准化、验证、丰富、重复数据消除和整合。对于企业级的数据质量治理项目,它能够确保在整个组织内实现数据质量的统一管理和监控。具有基于角色的功能、异常管理、对问题的人工智能洞察、预构建的规则和加速器等功能,可帮助用户快速发现和解决数据质量问题。此外,还提供了针对云数据的版本,适用于将数据存储在 Microsoft Azure 和 AWS 等云平台的企业。
893
0
11
Talend Data Quality提供全面的数据质量评估、清洗和监控功能。能够检测和修复数据中的错误、不一致性和重复数据,确保数据的准确性和完整性。一、主要功能 - 数据剖析:能够快速识别数据质量问题,发现隐藏模式和异常情况,并通过汇总统计和图形化表示呈现出来,帮助用户快速了解数据的整体状况和潜在问题。
973
0
0
ZooKeeper 是一个开源的分布式协调服务,主要用于分布式系统中的配置管理、命名服务、分布式同步、集群管理等。以下是关于 ZooKeeper 的详细介绍:ZooKeeper 最初是由雅虎公司开发,后来成为 Apache 软件基金会的一个顶级项目。它的设计目标是为分布式应用提供一个高可靠、高性能、一致性的协调服务。
627
9
5
Apache Kafka:分布式流处理平台,可用于实时数据集成和流数据处理。支持高吞吐量的数据传输和处理,适用于实时数据分析和事件驱动架构。最初由LinkedIn开发并开源,于2011年开始投入使用,后来成为Apache软件基金会的一个顶级项目。其设计初衷是为了满足LinkedIn公司内部对大规模实时数据处理和传输的需求。
933
9
14
ETLCloud:一款国产的集成了ETL/ELT/CDC的全域数据集成平台,提供了广泛的应用及数据库链接器,能够满足对离线和实时数据集成的需求 。一、功能特性 - 多种数据集成模式: - 离线数据集成:平台提供ETL和ELT双引擎模块。ETL模式可实现复杂的数据集成场景以及数仓反向集成业务系统的ETL过程,快速实现业务数据到数仓及数据湖的抽取。ELT模式则在数据抽取、加载后再进行转换操作,用户可根据不同业务场景灵活选择使用。
523
4
14
- -
© 2021 - 现在 杭州极深数据有限公司 版权所有 (深数据® DEEPDATA® 极深®) 联系我们 
浙公网安备 33018302001059号  浙ICP备18026513号-1号