登录
主页
 文章
TigerGraph 是唯一的企业级可扩展图数据库。其成熟技术可以连接数据孤岛,进行更大规模、更深入的运营分析。TigerGraph 成立于2012年,由具有大规模社交软件和软件产品从业经验的许昱博士创立 。公司总部位于美国加利福尼亚的红杉市,致力于开发原生并行图数据库。TigerGraph 提供的是一个实时原生并行图数据库,支持垂直和水平扩展,具备自动分区能力,遵循ACID标准,并提供内置的数据压缩功能 。它使用消息传递架构,具备随数据增长而伸缩的并行性,特别设计用于执行深层链接分析和实时在线事务处理(OLTP)。TigerGraph 的查询语言 GSQL 结合了 SQL 风格的查询语法与图导航语法,并加入了过程编程和用户自定义函数,支持并行化 。
690
5
14
Aerospike是一个高性能的分布式键值存储NoSQL数据库,它以其低延迟、可预测的性能和强大的数据一致性而闻名。Aerospike 数据库诞生于 2009 年。它采用了一些创新的技术和架构,以满足现代应用对数据处理的需求。在发展过程中,Aerospike 不断改进和优化其性能和功能。例如,它能够在面对数十亿笔交易规模时实时采取行动,同时将服务器占用空间减少多达 80%;以可预测的亚毫秒级性能为实时应用程序提供支持,数据规模高达 PB 级,并提供全球分布的、强一致的数据存储能力。
909
9
14
Voldemort是一个分布式键值(Key-Value)存储系统,它适用于一些特定的场景,例如内容缓存、处理大量数据的高访问负载以及一些日志系统等。与关系型数据库不同,Voldemort 并不试图满足任意关系同时满足 ACID 属性,也不是试图透明映射对象引用图的对象数据库,或引入新的抽象(如文档导向),它本质上就是一个大型的、分布式的、持久化的、容错的哈希表。
689
6
7
HamsterDB 是一种嵌入式分析型键值数据库,具有诸多独特的特点和优势。HamsterDB 是一个采用 C 语言开发的嵌入式数据库引擎。它包含 B+树变长密钥和记录,支持内存中的数据库、字节独立的文件数据库、游标、多个数据库在一个文件中、“记录”数据库、重复键等功能。HamsterDB 以其高性能、轻量级、易用性和可扩展性而著称。实现高效的数据访问和查询 。HamsterDB 提供简单易用的API,便于在几分钟内集成到应用程序中,支持多种存储引擎,并允许用户自定义存储引擎,以满足不同应用场景的需求 。
972
1
9
隐私计算(Privacy calculation)在金融行业的应用正日益深入,为金融机构带来了诸多优势和创新机遇。隐私计算是一种在确保数据不对外泄露的前提下,实现数据分析计算的技术。它允许多个参与方在保护各自数据隐私的情况下,共同完成某项计算任务,从而达到“数据可用不可见”的目的。隐私计算技术包含多种隐私保护技术、隐私增强技术,涉及密码学、安全硬件、信息论、分布式计算等多个学科。
1050
1
3
PPO(Proximal Policy Optimization) 算法是一种在强化学习领域中广泛应用的策略优化算法。PPO 算法的核心思想是在策略梯度算法的基础上进行改进,以提高算法的稳定性和性能。它通过限制策略更新的幅度,来避免过大的策略变化导致训练不稳定。具体来说,PPO 算法采用了两种常见的变体:PPO-Clip 和 PPO-Penalty。
621
0
14
增强学习算法(Reinforcement Learning,RL)是一种机器学习方法,智能体通过与环境进行交互,根据环境给予的奖励信号来学习最优的策略。一、目标增强学习算法使智能体(Agent)能够在环境中通过试错来学习如何做出决策。1. 最大化累积奖励:增强学习算法的主要目标是使智能体在一系列决策过程中获得尽可能多的累积奖励。这通常通过一个称为回报(Return)的量来衡量,它是从某一时间点开始,智能体所获得的一系列奖励的总和。
903
5
0
LevelDB 是一款由 Google 开发并开源的高性能键值存储数据库,主要用于构建需要快速、可靠数据存储的系统。它是由 Google 的两位杰出工程师 Jeff Dean 和 Sanjay Ghemawat 设计,以 C++ 编写,旨在提供一个简单、高效的持久化数据存储解决方案。LevelDB 不仅仅在 Google 内部项目中得到广泛应用,也被众多外部项目采纳,如比特币核心客户端就利用 LevelDB 存储区块链元数据。
543
8
12
TextCNN是一种用于文本分类的卷积神经网络(CNN)模型,由Yoon Kim在2014年提出。它通过将卷积神经网络应用于自然语言处理任务,特别是文本分类,有效地捕捉了文本中的局部特征。一、主要特点1. 词嵌入(Word Embedding): 将词汇映射到高维空间中的向量,这些向量能够捕捉词汇的语义信息。
982
7
10
CLUB(Clustering Bandits)算法是一种针对大数据集的无监督聚类算法,它特别适合于在分布式系统中使用。这种算法通过将数据点分配给中心点来组织数据,每个中心点代表一个聚类。CLUB算法的核心思想是利用随机性来探索数据空间,并基于数据点之间的相似度来构建聚类 。
601
1
7
GloVe(Global Vectors for Word Representation)是一种用于获取词向量(Word Embedding)的模型。它结合了全局矩阵分解和局部上下文窗口方法的优点。通过在共现矩阵的基础上构建模型,学习词与词之间的语义关系,并将每个词表示为一个低维向量。GloVe由斯坦福大学和Google的研究人员在2014年提出。GloVe模型的核心思想是通过分析词与词之间的共现统计信息来生成词向量。
507
9
7
文档聚类技术(Document Clustering)是一种将大量文档按照相似性自动分组的方法。它的主要作用在于帮助人们更好地理解和组织大量的文本数据。通过将相似的文档归为一类,可以快速发现文档集合中的主题结构和模式。一、基本概念文档聚类技术通常基于文档的特征表示来计算文档之间的相似度。常见的特征表示方法包括词袋模型(Bag of Words)、TF-IDF 向量等。然后,使用各种聚类算法,如 K-Means 聚类、层次聚类、密度聚类等,对文档进行分组。
1163
4
6
递归下降解析算法(Recursive Descent Parsing)是一种自上而下的解析技术,广泛应用于编译器和解释器的设计中,用于分析编程语言或任何形式语言的语法结构。它根据给定的文法规则(通常采用巴科斯范式,即BNF形式)来解析输入串,通过一系列的函数调用模拟文法规则的递归定义,从而识别出输入中的语法结构。
1029
2
3
Thompson词法分析算法,由Ken Thompson在1968年提出,是一种将正则表达式转换为非确定性有限状态自动机(NFA)的重要算法。这一过程对于理解、设计和实现正则表达式匹配引擎至关重要。Thompson构造法不仅展示了正则表达式的强大和灵活性,而且也为后续的词法分析、语法分析以及文本处理等领域奠定了基础。
735
5
8
句子向量表示(Sentence2Vec)是一种将句子转换为向量表示的技术。它的主要目的是将文本中的句子转换为数值向量,以便在机器学习和自然语言处理任务中进行处理和分析。通过将句子表示为向量,可以使用向量之间的距离或相似度来衡量句子之间的语义相似性。例如,在文本分类任务中,可以先将每个文本句子转换为 Sentence2Vec 向量,然后使用这些向量作为输入来训练分类模型。
539
3
8
随着自然语言处理(NLP)领域的快速发展,词嵌入(word embeddings)技术已经成为理解文本语义的基础工具之一。其中,Skip-Gram模型配以Negative Sampling (SGNS)策略,因其高效性和准确性,在众多词向量学习方法中脱颖而出。本文旨在深入探讨如何利用浅层神经网络结合SGNS方法来学习高质量的词向量,并分析其在NLP任务中的应用效果。
634
2
9
Item2Vec 是一种基于深度学习的技术,用于项目(item)的嵌入表示。这种技术通常用于推荐系统,其中物品可以是任何东西,比如商品、电影、歌曲等。Item2Vec 与 Word2Vec 类似,Word2Vec 是一种用于生成词嵌入的技术,它通过训练模型来预测一个词的上下文来生成词的向量表示。
1178
4
5
排序学习(Learning to Rank,简称LTR)是信息检索、推荐系统、自然语言处理等领域中的一项重要技术。通过机器学习方法自动学习一个排序函数,将无序或部分有序的项目集合按照特定目标排序,以优化用户获取信息的效率和体验。LTR在搜索引擎结果优化、新闻个性化推荐、商品排名、问答系统等多个应用场景中发挥着关键作用。
1194
3
11
监督学习(Supervised Learning)是机器学习领域的一个核心分支,它在现代人工智能应用中扮演着至关重要的角色。简单来说,监督学习是一种通过分析带有标签的训练数据来学习一个函数,该函数能够对新的、未见过的数据进行预测或分类的过程。这里的“监督”指的是算法在训练过程中能够参考正确答案(标签),从而调整其模型参数,以期望达到对未知数据准确预测的目的。
539
1
6
在数据技术(DT)驱动的时代背景下,个性化推荐系统已成为连接用户与信息、商品、服务等多元化内容的核心桥梁,深入渗透至人们的日常生活中。该系统基于深度挖掘用户历史行为模式,精准捕捉用户潜在兴趣,实现“一人一面”的定制化服务,不仅极大提升了用户体验,也为企业创造了显著的商业价值。
885
7
4
- -
© 2021 - 现在 杭州极深数据有限公司 版权所有 (深数据® DEEPDATA® 极深®) 联系我们 
浙公网安备 33018302001059号  浙ICP备18026513号-1号