登录
主页
 文章
向量计算的提出和发展是一个跨越多个世纪的历程,与数学、物理学等学科的发展相互交织。向量概念的雏形可追溯到古希腊时期,当时的数学家和哲学家在研究几何和力学问题时,已经有了一些关于方向和大小的初步概念。如亚里士多德在讨论力的合成与分解时,就涉及到了力的方向和大小的概念,这可以看作是向量概念的早期思想来源。
642
0
6
向量计算是一种基于向量的数学运算,广泛应用于数学、物理学、计算机科学等多个领域。向量是具有大小和方向的量,在数学中通常用有序数组来表示。例如在二维空间中,向量v=(x,y),其中x和y分别是向量在x轴和y轴上的分量。向量计算在数据治理中具有多方面的重要作用,主要体现在数据质量评估、数据分类与标注、数据安全与隐私保护等环节。
881
4
6
S1模型是由斯坦福大学和华盛顿大学的研究团队在李飞飞教授的领衔下开发的人工智能推理模型。从2000年李飞飞进入加州理工学院攻读研究生起,就一直从事人工智能研究,在计算机视觉领域创立了拥有1500万张图片的ImageNet数据库,为人工智能计算机视觉研究奠定了基础,也积累了深厚的人工智能技术理论和实践经验。
691
2
4
Annoy(Approximate Nearest Neighbors Oh Yeah)由Spotify公司开发。在音乐推荐等场景中,需要处理大规模的音频特征向量,进行高效的最近邻搜索。传统的精确最近邻搜索算法在处理大规模数据时效率低下,无法满足实时性要求,因此Spotify开发了Annoy来解决这一问题。Annoy以开源形式发布后,因其高效的近似最近邻搜索能力受到了广泛关注。社区对其进行不断优化和扩展,使其在更多领域得到应用,逐渐成为解决大规模向量数据搜索问题的常用工具之一。
645
8
8
Chroma和Milvus都是向量数据库,在人工智能和机器学习领域,可用于存储、检索和管理高维向量数据。一、目标1.Chroma 是一个开源的嵌入式向量数据库,专注于为开发者提供简单易用的向量存储和检索解决方案,适合快速原型开发和小型项目。它可以直接集成到Python应用程序中,无需复杂的部署过程。
698
7
13
Chroma 由计算机科学家和机器学习工程师创立,是一个相对较新的开源向量数据库项目。其发展目标是为开发者提供一个简单、高效且易于集成的向量数据库解决方案,以满足日益增长的人工智能和机器学习应用对向量数据存储和检索的需求。自推出以来,凭借其易用性和良好的性能,在开源社区中逐渐获得了一定的关注和认可,持续进行功能更新和性能优化。
709
6
5
向量数据库是一种专门用于存储和管理向量数据,并支持高效的向量相似性搜索的数据库系统。将文本、图像、音频等各种类型的数据通过特定的算法和模型转化为向量形式。例如,对于文本数据,可使用词嵌入、句嵌入等技术将词语或句子映射为低维向量空间中的向量;对于图像数据,通过卷积神经网络等提取图像的特征向量。
582
9
8
墨奇科技团队在数据库技术选型时,意识到传统专有向量数据库如Pinecone、Zilliz、Chroma等虽向量检索性能优秀,但处理通用数据能力不足;而传统数据库加外挂模块如pgvector等,通用性有一定提升,但向量性能欠佳。团队敏锐洞察到市场痛点,最终选择以高性能的列存分析数据库ClickHouse作为基础进行改造。同时对向量化的算法、系统以及 SQL 与向量的联合查询和存储进行了深入优化。
1028
7
7
2015年,有一篇介绍将单词转换为词嵌入的机器学习算法文章了解到词嵌入概念。2016年,Weaviate的理念开始孕育,其创始人在参加谷歌开发者专家计划活动时受到启发,思考能否用一种新的方式存储和查询数据,让机器自动理解数据概念,而无需人为统一命名约定和标准。2017年,相关人员对语义存储数据对象的概念进行验证,包括能否通过超空间获取单词上下文、通过计算一组单词的质心来保持语义意义、能否在不重新训练机器学习模型的情况下快速完成等。
741
1
11
Milvus 是由 Zilliz 开发的一款开源向量数据库,也被称为向量搜索引擎,在人工智能、机器学习等领域发挥着重要作用。2019年,Zilliz团队开始研发Milvus,目的是解决人工智能和机器学习领域中大规模向量数据的存储和快速检索难题。2020年3月,Milvus正式开源,凭借其高性能的向量搜索能力和易用性,迅速吸引了开发者和企业的关注,在开源社区崭露头角。
536
1
10
KAG(Knowledge Augmented Generation)是蚂蚁集团开源的一款知识增强生成框架。基于OpenSPG引擎和大型语言模型,设计了逻辑符号引导的混合推理引擎,将自然语言问题转化为结合语言和符号的问题求解过程,集成了图谱推理、逻辑计算、chunk检索、llm推理四种问题求解过程。用于为专业领域知识库构建逻辑推理和事实性问答解决方案。它能有效克服传统 RAG(检索增强生成)向量相似度计算模型的缺点。
840
6
0
CLIP(Contrastive LanguageImage Pretraining)跨模态学习是OpenAI提出的一种能够将自然语言和图像两种模态进行联合学习的技术。通过在大规模数据集上联合训练图像和文本,使模型学习到图像内容与自然语言描述之间的映射关系。计算图像和文本的嵌入向量,通过衡量两者之间的余弦相似度,实现跨模态的检索和分类,可用于根据文本搜索相关图像或判断图像与文本的匹配程度等任务。
1091
6
13
大语言模型的语境指的是在语言交互过程中,围绕特定文本或话语所存在的各种相关信息,这些信息能够帮助模型更好地理解和生成语言,使语言表达和理解更加准确、连贯和合理。一、语境分类1.上下文语境 文本上下文:在一段连续的文本中,位于目标文本前后的文字内容构成了文本上下文语境。比如在一篇文章中,前文提到的主题、事件、观点等信息,会为后续内容的理解提供基础。例如,前文描述了“人工智能在医疗领域的应用越来越广泛”,后面提到“它可以辅助医生进行疾病诊断”,这里的“它”就通过前文的文本上下文明确指向“人工智能”。
1073
4
12
随着人工智能技术的飞速发展,特别是自然语言处理(NLP)领域的突破,大型语言模型(Large Language Models, LLMs)已经成为科技界炙手可热的话题之一。这些模型能够执行广泛的任务,从文本生成到对话理解等,为众多行业提供了前所未有的机会。然而,开发和维护这样复杂的系统需要巨大的投入,因此探索有效的商业模式对于确保其可持续发展至关重要。
881
6
8
随着人工智能技术的飞速发展,大型语言模型(Large Language Models, LLMs)已经成为AI领域的一个重要组成部分。这些模型能够处理复杂的自然语言任务,如文本生成、翻译、问答等,极大地促进了人机交互的进步。一、主要参与者1. OpenAI (GPT系列)● 优势: ○ 强大的技术创新能力:OpenAI在自然语言处理领域的创新成果显著,其GPT系列模型不断刷新行业标准。
933
3
10
DeepSeek和ChatGPT都是强大的语言模型,但它们在多个方面存在主要技术区别。一、技术特征1.基础架构- 模型架构 - DeepSeek:基于Transformer架构,不过它在架构设计上进行了针对性优化,使其能更高效地处理大规模数据和长文本,对于超长上下文信息有较好的捕捉和理解能力。
1190
5
14
LLM(Large Language Model)大语言模型由输入层将文本转为向量,基于Transformer架构的编码器提取语义与上下文信息,解码器据此生成输出,输出层经Softmax和搜索策略将向量转为最终文本;通过在大规模无监督语料上预训练学习通用知识,再针对具体任务用有标注数据微调;记忆与缓存机制处理长序列并提高效率,评估模块用困惑度等指标衡量性能,优化模块据此调整超参数、改进结构 。
640
0
7
MLP也被称为人工神经网络(Artificial Neural Network,ANN)的一种基本形式,以下从定义、结构、工作原理、训练算法、应用等方面进行介绍:多层感知机是一种前馈人工神经网络,由多个神经元(神经节点)组成,这些神经元按照层次结构排列,包括输入层、隐藏层和输出层,层与层之间的神经元通过权重连接,信息从输入层依次向前传播到输出层,没有反馈连接。
786
5
9
大语言模型的推理能力,简单来说,就是让模型像人一样“动脑子思考”,根据已经知道的信息来得出新的结论或者做出合理的判断。大语言模型首先要能理解输入给它的各种信息,就像我们看一篇文章、听别人说话要明白是什么意思一样。比如你给它一段关于动物习性的描述,它得知道说的是哪种动物,有什么特点等。然后,它还要能对这些信息进行分析,把重要的部分挑出来,就像我们读完一篇文章后总结重点一样。例如,给模型输入“猫喜欢抓老鼠,老鼠会打洞,猫有锋利的爪子”这段话,它能理解这是在说猫和老鼠的一些特性,并分析出猫和老鼠的行为特点以及猫的身体特征这些关键信息。
767
4
4
有一种观点是大语言模型会取代传统搜索引擎。综合分析得出大语言模型不太可能完全取代搜索引擎,二者各有特点和局限性,更可能是相互融合、协同发展。大语言模型的知识基于预训练数据,可能存在过时、不准确的情况,难以提供如搜索引擎般实时更新的信息,对于需要获取最新资讯、动态信息的用户需求无法很好满足。如金融市场的实时行情、突发新闻事件等,搜索引擎能快速索引到最新网页内容,而大语言模型可能无法及时更新知识。搜索引擎可返回大量不同来源的网页链接,用户能通过多来源信息交叉验证,确保信息可靠性。大语言模型的回答基于自身模型和算法,用户难以验证其可靠性,且可能存在信息不全面的问题。
1030
0
11
- -
© 2021 - 现在 杭州极深数据有限公司 版权所有 联系我们 
浙公网安备 33018302001059号  浙ICP备18026513号-1号