登录
主页
 文章
混合专家架构(Mixture of Experts,MoE)混合专家架构是一种将多个专门的子模型(称为“专家”)组合在一起的机器学习架构,通过一个门控网络来动态地决定在处理每个输入时应该使用哪些专家,从而利用多个专家的优势来处理复杂的任务,提高模型的性能和泛化能力。通过多个专家网络来处理不同的任务或特征,每个token可以激活不同的专家,模型能够根据输入的特点动态地选择合适的专家进行处理,提高了模型的灵活性和表达能力,同时在保证性能的前提下,降低了模型的计算成本和参数规模。
1141
8
6
多头潜在注意力机制(Multi-Head Latent Attention,MLA)相比传统的注意力机制,它能让模型在训练时同时预测更远位置的token,增强了对未来的感知能力,有助于模型更好地捕捉文本中的长距离依赖关系,提升对语义的理解和生成能力。MLA是在传统注意力机制基础上发展而来的一种改进型注意力机制。它的核心思想是通过多个头(head)的并行计算,让模型能够同时关注文本中不同位置和不同语义层面的信息,从而更全面、更深入地捕捉文本中的长距离依赖关系和复杂语义结构。每个头都可以看作是一个独立的注意力单元,能够学习到不同的特征或模式,最后将多个头的结果进行融合,得到更丰富、更具表现力的特征表示。
930
5
13
BERT(Bidirectional Encoder Representations from Transformers)算法即双向Transformer编码器表征,是一种用于自然语言处理(NLP)的预训练模型,由谷歌在2018年提出。BERT算法为自然语言处理领域带来了重大突破,为各种NLP任务提供了强大的基础模型,后续许多NLP研究和应用都是在BERT的基础上进行改进和扩展的。
929
4
8
局部敏感哈希(Locality Sensitive Hashing,LSH)是一种在高维数据处理中广泛应用的技术。它的核心特点是能够在一定程度上保持数据的相似性,即相似的数据在哈希后有较高的概率被映射到同一个桶(bucket)中,而不相似的数据则大概率被映射到不同的桶中。一、原理1.核心思想:基于数据的局部性原理,即相似的数据在特征空间中往往是“聚集”在一起的。LSH通过设计特定的哈希函数,将相似的数据映射到相同或相近的哈希值,从而实现对相似数据的快速查找和筛选。
1166
6
7
KD - Tree(K - Dimensional Tree)即 k 维树,是一种用于高效处理 k 维空间数据的数据结构,在计算机科学和机器学习领域有着广泛应用,下面从基本概念、构建过程、搜索过程、应用场景几个方面为你详细介绍:KD - Tree 是一种二叉搜索树的变体,它将 k 维空间递归地划分为多个区域。每个节点代表 k 维空间中的一个点,同时将空间划分为两个半空间。通过这种方式,KD - Tree 可以有效地组织和存储高维空间中的数据点,从而实现快速的最近邻搜索、范围搜索等操作。
583
6
1
HNSW(Hierarchical Navigable Small World)图即分层可导航小世界图,是一种用于在高维空间中进行近似最近邻搜索(Approximate Nearest Neighbor Search, ANN)的数据结构和算法,在向量数据库等领域有着广泛应用HNSW图的设计灵感来源于小世界网络理论。在小世界网络中,大多数节点彼此并不相邻,但任意两个节点之间的平均路径长度却相对较短。HNSW图通过构建多层图结构,将高维空间中的向量组织成一个具有层次结构的图,使得在图中可以高效地搜索到与查询向量最相似的向量。
584
9
3
Pinecone是一款基于云服务的全托管向量数据库,专为处理和搜索高维向量数据而设计,在人工智能和机器学习应用中发挥着重要作用。在人工智能领域,许多非结构化数据(如图像、文本、音频等)经过深度学习模型处理后会被转换为高维向量,这些向量能够捕捉数据的语义信息和特征。Pinecone的核心功能就是高效地存储这些向量数据,并通过近似最近邻搜索(ANN)算法,快速找出与给定查询向量最相似的向量。例如,在图像识别场景中,将每张图像转换为向量后存储在Pinecone中,当输入一张新的图像并转换为查询向量时,Pinecone可以迅速找出数据库中与之最相似的图像向量。
824
5
7
知识蒸馏(Knowledge Distillation)是一种在机器学习领域广泛应用的技术,主要用于将大型模型(教师模型)所学到的知识迁移到小型模型(学生模型)中,使得小型模型在计算资源和存储需求降低的情况下,仍能达到接近大型模型的性能。知识蒸馏自提出以来,不断发展和演进,在深度学习领域发挥着日益重要的作用。
789
5
8
知识蒸馏(Knowledge Distillation)是一种模型压缩和加速技术,旨在将大型模型(通常称为教师模型)所学到的知识迁移到小型模型(通常称为学生模型)中,从而让小型模型在减少计算资源消耗和推理时间的同时,尽可能达到接近大型模型的性能。具有很好的成本效益,在实际应用中有助于降低计算资源需求和部署成本。
861
1
2
Quartz 是一个功能强大、使用广泛的开源轻量级任务调度框架,专为 Java 平台设计。对系统资源的消耗较少,易于集成到各种 Java 项目中,不会给项目带来过多的负担。提供了简洁明了的 API,开发者可以快速上手,实现基本的任务调度功能。支持多种调度方式和持久化机制,能够满足大多数任务调度的需求。
1016
0
2
DolphinScheduler是一款由易观科技发起并开源的分布式任务调度系统,2017年,易观内部技术团队在面对复杂的大数据处理场景时,发现缺乏一款高效、易用的任务调度平台来满足业务需求。于是开始自主研发DolphinScheduler,经过一段时间的努力,完成了初始版本的开发,并在易观内部得到应用,解决了内部数据处理任务调度的难题。
864
0
9
Apache Ranger提供全面的数据安全框架,专注于访问控制和数据脱敏,可管理跨各种数据平台的权限,定义谁可以访问特定数据,还能通过脱敏保护敏感信息,并且能与Apache Atlas等其他Apache工具无缝集成,增强数据治理。适用于需要严格访问控制和数据隐私保护的组织,尤其是处理敏感数据且需符合相关法规的企业。
900
3
1
WeDataSphere是一款由微众银行金融科技团队开发的开源大数据处理和应用框架。也是一个金融级一站式大数据平台套件,旨在为企业提供全面、高效、易用的大数据处理和应用解决方案,帮助企业更有效地挖掘数据价值,推动业务创新。遵循Apache 2.0开源协议,鼓励社区贡献和定制,社区的参与可以不断丰富和完善其功能。提供数据加密、权限控制等安全机制,保障数据资产安全,让企业可以放心地使用平台处理敏感数据。具备高并发处理能力和故障恢复机制,确保服务在高负载和复杂环境下的稳定性,保障业务的连续性。
825
9
8
OpenMetadata是一个开源的统一元数据平台,在数据管理领域具有重要作用。OpenMetadata源自曾参与Uber元数据基础设施建设团队的经验积累。在打造Uber的Databook解决数据编目问题后,团队发现现有数据编目系统缺乏统一的元数据模型,OpenMetadata项目应运而生,旨在填补这一空白,并增加元数据的灵活性和可扩展性。
901
7
12
Datavines是一款开源的数据可观测性平台。2024 年左右,Datavines 项目正式在 GitHub 上开源。初始版本可能重点实现了一些基础的数据质量监控功能,如支持对常见数据源(如 MySQL、PostgreSQL 等)的数据连接,内置了部分基本的数据质量检查规则,像空值检查、数据类型检查等。
871
8
10
自动证书管理环境(Automated Certificate Management Environment,ACME)是一种用于自动化管理和颁发SSL/TLS证书的协议和规范。随着互联网的发展,网站对SSL/TLS证书的需求日益增长。传统的证书申请和管理过程繁琐,需要人工手动完成多个步骤,效率低下且容易出错。ACME的出现就是为了简化和自动化这一过程,使得服务器管理员能够更轻松地获取和管理SSL/TLS证书,提高网站的安全性和部署效率。
1183
4
2
VegaLite 是一种用于数据可视化的语法和工具。VegaLite是基于Vega可视化语法的一种高层次、简洁的可视化规范。它提供了一种声明式的方式来描述数据可视化,让用户能够通过简单的JSON格式或特定的编程语言接口来定义可视化的各个方面,如图形类型、数据映射、视觉编码等,而无需详细了解底层的绘图细节和复杂的交互逻辑。
1029
4
12
Canopy利用Pinecone在高效向量搜索方面的专业知识,提供强大且可扩展的RAG(Retrieval-Augmented Generation)解决方案。包括与Pinecone向量数据库的紧密集成,支持流处理和实时更新,先进的查询处理和重新排序功能,以及管理知识库和版本控制的工具。项目地址:https://github.com/pinecone-io/canopy
1095
7
5
R2R by SciPhi-AI是一个专门的RAG框架,专注于通过迭代细化来改进检索过程。主要特点包括实现新颖的检索算法,支持多步检索过程,与各种嵌入模型和向量存储集成,以及用于分析和可视化检索性能的工具。适合有兴趣突破检索技术界限的开发人员和研究人员,特别是在需要创新检索方法的场景。具有 RESTful API 的容器化检索增强一代 (RAG)。具有生产就绪型功能,包括多模式内容摄取、混合搜索功能、可配置的 GraphRAG 以及用户和文档管理。
543
3
11
DDParser由百度基于大规模标注数据和深度学习平台飞桨研发的中文依存句法分析工具。它采用简单易理解的标注体系,支持一键安装部署及调用,适合开发者快速学习及使用。能够直接获取输入文本中的关联词对、长距离依赖词对等信息。其训练数据丰富,覆盖多种场景,在随机数据上的准确率较高,并且输入层加入了词的字符级别表示,缓解了因粒度不同带来的效果下降问题。
1139
7
0
- -
© 2021 - 现在 杭州极深数据有限公司 版权所有 联系我们 
浙公网安备 33018302001059号  浙ICP备18026513号-1号