CLUB（Clustering Bandits）算法是一种针对大数据集的无监督聚类算法，它特别适合于在分布式系统中使用。这种算法通过将数据点分配给中心点来组织数据，每个中心点代表一个聚类。CLUB算法的核心思想是利用随机性来探索数据空间，并基于数据点之间的相似度来构建聚类。

1047

词向量（Global Vectors for Word Representation，GloVe）

GloVe（Global Vectors for Word Representation）是一种用于获取词向量（Word Embedding）的模型。它结合了全局矩阵分解和局部上下文窗口方法的优点。通过在共现矩阵的基础上构建模型，学习词与词之间的语义关系，并将每个词表示为一个低维向量。GloVe由斯坦福大学和Google的研究人员在2014年提出。GloVe模型的核心思想是通过分析词与词之间的共现统计信息来生成词向量。

2024-08-02

868

文档聚类技术（Document Clustering）

文档聚类技术（Document Clustering）是一种将大量文档按照相似性自动分组的方法。它的主要作用在于帮助人们更好地理解和组织大量的文本数据。通过将相似的文档归为一类，可以快速发现文档集合中的主题结构和模式。一、基本概念文档聚类技术通常基于文档的特征表示来计算文档之间的相似度。常见的特征表示方法包括词袋模型（Bag of Words）、TF-IDF 向量等。然后，使用各种聚类算法，如 K-Means 聚类、层次聚类、密度聚类等，对文档进行分组。

2024-08-02

1161

递归下降解析算法（Recursive Descent Parsing）

递归下降解析算法（Recursive Descent Parsing）是一种自上而下的解析技术，广泛应用于编译器和解释器的设计中，用于分析编程语言或任何形式语言的语法结构。它根据给定的文法规则（通常采用巴科斯范式，即BNF形式）来解析输入串，通过一系列的函数调用模拟文法规则的递归定义，从而识别出输入中的语法结构。

2024-08-02

1023

Thompson词法分析算法

Thompson词法分析算法，由Ken Thompson在1968年提出，是一种将正则表达式转换为非确定性有限状态自动机（NFA）的重要算法。这一过程对于理解、设计和实现正则表达式匹配引擎至关重要。Thompson构造法不仅展示了正则表达式的强大和灵活性，而且也为后续的词法分析、语法分析以及文本处理等领域奠定了基础。

2024-08-01

645

句子向量表示（Sentence2Vec）

句子向量表示（Sentence2Vec）是一种将句子转换为向量表示的技术。它的主要目的是将文本中的句子转换为数值向量，以便在机器学习和自然语言处理任务中进行处理和分析。通过将句子表示为向量，可以使用向量之间的距离或相似度来衡量句子之间的语义相似性。例如，在文本分类任务中，可以先将每个文本句子转换为 Sentence2Vec 向量，然后使用这些向量作为输入来训练分类模型。

2024-08-01

595

浅层神经网络结合SGNS在自然语言处理中的应用

随着自然语言处理(NLP)领域的快速发展，词嵌入(word embeddings)技术已经成为理解文本语义的基础工具之一。其中，Skip-Gram模型配以Negative Sampling (SGNS)策略，因其高效性和准确性，在众多词向量学习方法中脱颖而出。本文旨在深入探讨如何利用浅层神经网络结合SGNS方法来学习高质量的词向量，并分析其在NLP任务中的应用效果。

2024-07-31

1008

Item2Vec项目表示向量技术

Item2Vec 是一种基于深度学习的技术，用于项目（item）的嵌入表示。这种技术通常用于推荐系统，其中物品可以是任何东西，比如商品、电影、歌曲等。Item2Vec 与 Word2Vec 类似，Word2Vec 是一种用于生成词嵌入的技术，它通过训练模型来预测一个词的上下文来生成词的向量表示。

2024-07-30

897

排序学习（Learning To Rank, LTR）

排序学习（Learning to Rank，简称LTR）是信息检索、推荐系统、自然语言处理等领域中的一项重要技术。通过机器学习方法自动学习一个排序函数，将无序或部分有序的项目集合按照特定目标排序，以优化用户获取信息的效率和体验。LTR在搜索引擎结果优化、新闻个性化推荐、商品排名、问答系统等多个应用场景中发挥着关键作用。

2024-07-30

931

监督学习（Supervised Learning）

监督学习（Supervised Learning）是机器学习领域的一个核心分支，它在现代人工智能应用中扮演着至关重要的角色。简单来说，监督学习是一种通过分析带有标签的训练数据来学习一个函数，该函数能够对新的、未见过的数据进行预测或分类的过程。这里的“监督”指的是算法在训练过程中能够参考正确答案（标签），从而调整其模型参数，以期望达到对未知数据准确预测的目的。

2024-07-29

1140

精准个性化推荐

在数据技术(DT)驱动的时代背景下，个性化推荐系统已成为连接用户与信息、商品、服务等多元化内容的核心桥梁，深入渗透至人们的日常生活中。该系统基于深度挖掘用户历史行为模式，精准捕捉用户潜在兴趣，实现“一人一面”的定制化服务，不仅极大提升了用户体验，也为企业创造了显著的商业价值。

2024-07-29

957

什么是信息指纹？

信息指纹，也常被称为数据指纹、数字指纹或内容哈希，是一种用于确保信息完整性和唯一性的技术方法。它的工作原理是对原始数据（如文本、图像、音频或视频文件）进行特定算法处理，产生一个固定长度的、独特的数值或字符串。这个输出值就是所谓的“指纹”。一、数据指纹的特点

2024-07-29

930

期望最大化算法（Expectation-Maximization Algorithm, EM Algorithm）

期望最大化算法，简称EM算法，是一种在统计学中用于迭代地找到概率模型中未观测变量（隐变量）的估计值的算法，同时对模型参数进行最大似然估计或最大后验概率估计。它特别适用于处理具有缺失数据或者隐含变量的概率模型问题，如混合高斯模型、隐马尔可夫模型等。

2024-07-28

708

最大熵模型（Maximum Entropy Model，MaxEnt）

最大熵模型（Maximum Entropy Model，MaxEnt）是一种基于信息论原理的统计建模方法，广泛应用于自然语言处理、机器学习、数据挖掘等多个领域。该模型由E.T. Jaynes于20世纪50年代提出，其核心思想是在满足已知事实或约束条件下，选择具有最大熵的概率分布作为模型。熵是不确定性或信息量的度量，最大熵模型因此寻求最不确定的模型，即在给定的信息下尽可能不做额外假设。

2024-07-28

1113

维特比算法（Viterbi Algorithm）

维特比算法（Viterbi Algorithm），由安德鲁·维特比（Andrew Viterbi）于1967年提出，是一种用于寻找最有可能产生观测序列的隐藏状态序列的动态规划算法。它在信息论、编码理论、语音识别、生物信息学等领域有着广泛的应用，特别适用于信号处理和自然语言处理等领域，用于从一系列观察到的事件中推断出最可能的产生这些事件的状态序列。

2024-07-27

788

时间盒（Timeboxing）

Timeboxing（时间盒）是一种时间管理方法它指的是为特定的任务或活动分配固定的、预先确定的时间区间。通过设定明确的时间限制，促使人们专注于任务，减少拖延和分心，从而在有限的时间内完成更多工作。例如，规定自己在 30 分钟内完成一份报告的初稿。有助于更好地规划一天或一周的工作安排，确保各项任务都能得到合理的时间分配。比如，为每个会议安排一个小时的时间盒，避免会议过长或过短。

2024-07-27

831

数据质量管理需要数据责任人

在数据质量管理中，数据责任人机制是一项非常重要的策略和管理手段。在数据质量管理中，涉及众多的流程和环节，如数据收集、存储、处理、分析和使用等。明确数据责任人能够清晰地界定每个环节的责任归属，避免出现职责不清、推诿责任的情况。例如，在数据收集阶段，数据责任人要确保收集的数据准确、完整且符合合规要求。

2024-07-27

940

如何开展数据质量管理？

数据质量问题应该说是伴随我们的日常工作，只不过我们都是熟视无睹罢了。一、典型数据质量问题1. 数据不准确： - 数据录入错误，例如人工输入时的拼写错误、数据混淆或误填。 - 数据源本身存在错误或偏差，导致后续数据不准确。例如，传感器故障导致收集的物理数据错误。

2024-07-26

702

元数据在数据治理中的作用

在数据治理中，元数据（Metadata）扮演着至关重要的角色。它被定义为“关于数据的数据”，主要分为技术元数据和业务元数据两大类。技术元数据关注数据仓库的系统细节，如字段、分区等信息，而业务元数据则关注业务词汇表、数据元素和实体的定义、业务规则和算法以及数据特征。

2024-07-25

835

《数据资产化实践指南》解析

由广东省政务服务和数据管理局指导，广东数字政府研究院、广州数据交易所、粤港数据安全与隐私保护联合实验室、广州芳禾数据有限公司等单位联合编制的《数据资产化实践指南》（以下简称为《实践指南》）发布，以数据产生的业务源头到数据实现资产化的全流程入手，按照“业务数据化-数据资源化-数据产品化-数据资本化”的演变方式，探索建立数据资产化的可行路径为企业数据资产化提供了全面的指导。

2024-07-25

772

- -