Awesome2Vec是一个开源项目，收集并分类了大量的 2 维向量相关的工具、论文、教程和代码实现。核心是 2 维向量模型，通过对大量文本数据进行学习，将词汇或更复杂的语义单元映射到高维空间中的连续向量，使得词汇之间的语义关系可以通过简单的数学运算来度量。Awesome2Vec 项目不仅包括经典的词嵌入模型，如 Word2Vec 和 GloVe，还涵盖了最新的预训练模型（如 BERT、RoBERTa）以及多模态表示方法。通过这个资源库，你可以快速找到适合你的应用场景的模型，并且了解其背后的技术原理。

540

自然语言分析包（Stanza）

Stanza是斯坦福大学开源的 Python 自然语言分析软件包，包含了可以在处理流程中使用的多种工具，能够将包含人类语言文本的字符串转换为句子和单词列表，生成单词的基本形式、词性、词法特征、句法结构依赖性解析以及识别命名实体等。分析包由高度精确的神经网络组件构建而成，支持多种语言，并且在多种语言上都有较好的性能表现。该工具包被设计为使用“通用依赖”关系，可以在 70 多种语言之间并行处理。

2024-10-04

1005

开源BI解决方案（Pentaho）

Pentaho是一个流行的开源商业智能软件。一、主要特点1. 以工作流为核心：Pentaho 以工作流为核心的设计理念，使得用户可以将数据处理、分析和报表生成等任务组织成一个工作流，实现自动化的数据处理和分析流程。例如，用户可以设置一个每天定时执行的工作流，自动从数据源抽取数据、进行转换和分析，然后生成报表并发送给相关人员。

2024-10-03

1171

通用的文档查看器（Okular）

Okular是KDE 社区开发的一个通用开源文档查看器，支持多种文件格式。提供了丰富的用户界面，包括批注PDF文件的功能。遵循 GPL-2.0-only 或 GPL-3.0-only 许可。一、特点1. 支持的格式丰富： - 文档格式：支持 PDF、EPUB、DjVu、MD 等常见的文档格式。对于科研学术人士来说，无论是阅读学术论文的 PDF 文档，还是查看 EPUB 格式的电子书籍，Okular 都能很好地满足需求。

2024-10-02

829

依存关系解析库（Redshift）

Redshift是一个专为自然语言处理设计的依存关系解析库，由 Python 编写，并利用了 Cython 以提高性能。虽然目前处于维护模式，但仍能提供快速和准确的解析服务，尤其适用于已预处理的文本。依存关系分析作用是分析句子中词语之间的依存关系，即一个词对另一个词的依赖或修饰关系。例如，在 “我喜欢这本书” 中，“喜欢” 是核心动词，“我” 是 “喜欢” 的主语，“这本书” 是 “喜欢” 的宾语。依存关系分析有助于理解句子的语义和逻辑结构，对于机器翻译、文本生成等任务有重要意义。

2024-10-02

872

自然语言处理工具（Spacy）

Spacy是一个开源的自然语言处理Python库，支持多种语言的处理，提供了高效的句法分析功能以及其他自然语言处理功能，如词性标注、命名实体识别等。具有较高的效率和准确性，其依存关系分析功能可以帮助用户快速准确地理解句子的结构和词语之间的关系。一、核心功能

2024-10-01

948

自然语言处理工具包（NLTK）

Natural Language Toolkit（NLTK）是一个非常流行的自然语言处理工具包（Python），提供了多种自然语言处理功能，包括句法分析。它在学术界和研究领域广泛使用，拥有丰富的文档和教程资源。提供了基于规则的句法分析器以及一些预训练的模型，可以进行词性标注、句法分析等任务。用户可以根据自己的需求定义句法规则，对文本进行分析。

2024-10-01

725

开源语言技术平台（LTP）

LTP由哈工大开源，是一系列中文自然语言处理工具的集合，提供了分词、词性标注、命名实体识别、语义角色标注、依存句法分析等多种功能。LTP功能较为全面，对于中文文本的处理能力较强，其依存句法分析功能可以帮助用户分析句子中词语之间的依存关系，为进一步的文本理解和分析提供支持。

2024-09-30

931

语义分析工具（OpenHowNet）

OpenHowNet由清华大学自然语言处理实验室（THUNLP）开发。它在传统的 HowNet 基础上进行了扩展和更新，使用“概念”和“属性”来描述词的意义，每个概念都有具体的意义和上下文，属性描述概念间的关联。利用深度学习模型自动标注数据，提供了简洁易用的 API，方便开发者将其集成到应用或研究中。可用于自然语言理解、文本生成、情感分析等，能帮助 AI 更好地理解人类语言，提升聊天机器人、问答系统、语音识别等应用的理解能力，也可以辅助分析文本的情感倾向。

2024-09-30

1083

自然语言处理工具包（Stanford CoreNLP）

Stanford CoreNLP：斯坦福大学开发的自然语言处理工具包，提供了词性标注、命名实体识别、依存句法分析等功能，可以用于从文本中抽取知识并进行预处理，为构建知识图谱提供基础数据。一、主要功能 - 分词（Tokenization）：将输入的文本分割成一个个独立的单词或符号，这是自然语言处理的基础步骤。例如，对于句子“我爱自然语言处理技术！”，它会将其分割成“我”“爱”“自然”“语言”“处理”“技术”“！”等独立的词。

2024-09-29

1189

嵌入式分析型数据库（DuckDB）

DuckDB是一款集轻量级、高性能于一体的嵌入式分析型数据库。在单机内存不断增大以及 SSD 存储逐渐普及的背景下，大部分数据处理工作可以在单机上完成，且很多 OLAP（在线分析处理）场景也能在单机上进行。DuckDB 就是为了满足这种在单机环境下进行高效数据分析的需求而诞生的。它是荷兰 CWI 数据库组的一个项目，学术气息浓厚，架构清晰，适合学习和研究。

2024-09-29

1148

数据去重工具（Dedupe）

Dedupe主要用于数据去重和实体识别，可以帮助在构建知识图谱时处理数据中的重复信息，提高数据的质量和准确性。一、主要功能1. 重复数据检测 - 能够快速准确地扫描大量数据集，找出重复的记录。它可以比较不同字段的值，如姓名、地址、电话号码等，以确定哪些记录是重复的。

2024-09-29

913

中文分词工具包（pkuseg）

pkuseg是由北大开源的基于 Python 的中文分词工具包，由北京大学语言计算与机器学习研究组研制推出。不同于以往的通用中文分词工具，它致力于为不同领域的数据提供个性化的预训练模型，目前支持新闻领域、网络文本领域和混合领域的分词预训练模型，用户也可以使用全新的标注数据进行训练，以获得更高的分词准确率。

2024-09-28

894

实体关系抽取工具包（OpenNRE）

OpenNRE是一个用于关系抽取的开源工具包，能够从文本中自动抽取实体之间的关系，支持多种关系抽取模型和算法，方便用户进行知识图谱的关系构建。OpenNRE由清华大学刘知远老师及其团队开发，是自然语言处理领域中用于从文本中抽取实体之间关系的重要工具。其目的是为研究人员和开发者提供一个统一的框架，以便实现各种神经网络模型进行关系抽取，帮助构建知识图谱等需要实体关系信息的应用。

2024-09-28

911

中文分词的技术发展

中文分词是将一个汉字序列切分成一个一个单独的词的过程。准确的分词是理解文本语义的基础。只有将句子正确地分割成词，才能进一步分析词语之间的关系、提取关键信息，从而准确把握文本的含义。例如，在信息检索中，只有对用户输入的查询语句进行准确分词，才能与数据库中的文档进行有效的匹配，提高检索的准确性。

2024-09-28

696

中文分词器（jcseg）

jcseg是基于 mmseg 算法的一个轻量级 Java 中文分词器，同时集成了关键字提取、关键短语提取、关键句子提取和文章自动摘要等功能。它提供了多种切分模式，包括简易模式、复杂模式、检测模式、检索模式、分隔符模式和 NLP 模式，以满足不同的应用场景需求。可以从官方网站或开源代码托管平台获取 jcseg 的 JAR 包或源代码。

2024-09-27

780

中文分词工具包（IKAnalyzer）

IKAnalyzer是一个开源的、基于 Java 语言开发的轻量级中文分词工具包。它采用了特有的“正向迭代最细粒度切分算法”，支持细粒度和智能分词两种切分模式，具有较高的分词速度和较小的内存占用，同时支持用户词典扩展定义。在 Maven 项目中添加相关依赖后，即可使用 IKAnalyzer 进行中文分词操作。作为一个基于 Java 语言开发的工具包，它可以很方便地集成到各种 Java 项目中，与其他的 Java 技术和框架进行配合使用。无论是在 Web 应用、桌面应用还是企业级应用中，都能够轻松地集成 IKAnalyzer 进行中文分词处理。

2024-09-26

1133

中文分词库（sego）

sego是一个 Go 语言的中文分词库。词典用双数组 trie（double-array trie）实现，分词器算法为基于词频的最短路径加动态规划。支持普通和搜索引擎两种分词模式，支持用户词典和词性标注，可运行 jsonrpc 服务，分词速度较快。早期为 Go 语言开发者提供了一种高效的中文分词解决方案。它的出现满足了 Go 语言在中文自然语言处理方面对准确分词的需求，尤其是在处理大量中文文本数据时，其性能优势逐渐受到关注。

2024-09-26

924

汉语处理包（HanLP）

HanLP是一个由模型与算法组成的 Java 汉语言处理包，由大快搜索主导并完全开源。它不仅提供中文分词功能，还具备索引全切分模式、用户自定义词典、兼容繁体中文、词性标注、命名实体识别、关键词提取、自动摘要等众多自然语言处理功能。需要先下载相关的模型文件，然后使用相应的 API 进行文本处理。例如，使用其提供的中文分词功能时，可以先初始化分词器，然后对文本进行分词操作。

2024-09-25

897

jieba中文分词

jieba是一款非常受欢迎的中文分词工具， jieba 最初是由开发者 Sun Junyi 开源的一个 Python 中文分词项目。一开始，jieba 就具备了基本的中文分词能力，能够将中文文本按照一定的规则拆分成词语。随着项目的发展，开发者不断对 jieba 的核心分词算法进行优化。除了 Python 版本外，jieba 逐渐推出了其他编程语言的版本，如 C++、Java、iOS 等，使得在不同的编程语言环境下都能够方便地使用 jieba 进行中文分词，扩大了其应用范围。

2024-09-24

504

- -