2020年1月4日,中国云计算生态发展峰会暨安徽信息技术应用创新产业联盟揭牌仪式在合肥隆重举行。会议云集政府领导、专家院士以及数百家知名企业,共同探讨信息技术应用的创新前景,剖析云计算生态产业的发展。会上,联想作为云计算生态发展联盟核心单位…
随着非结构化数据在企事业单位的应用日益增多以及AI爆发式增长带来的大量生成数据,涉及的数据量大、格式和存储方式多样、处理速度快具有要求高、潜在价值高的特点。然而,传统数据平台对这些数据的处理能力有限。例如,使用文件系统和多种类型不同的数据库来存储上述数据,在数据存储管理、查询分析效率、数据价值挖掘等方面都存在一定的瓶颈。例如,传统的数据库查询是一种点查、范围查的查询,无法满足大模型下的智能问答、智能推荐等场景。
因此,企业迫切需要一种或多种能够很好地管理非结构化数据的数据管理平台。业界常见的做法是利用人工智能中的表示学习,将这些非结构化数据抽象并转换为高维的多维向量,在向量数据库中进行结构化和管理,实现快速高效的数据存储。和检索过程,结合相似性检索特征,能够更高效地支持更广泛的应用场景,例如智能推荐场景。同时,随着长文本处理和领域知识表示在大型语言模型应用中的深入使用,对向量数据库的需求变得越来越迫切。
近日,在星力未来数据技术峰会上,星环科技正式发布了分布式矢量数据库TranswarpHippo。Hippo作为企业级云原生分布式矢量数据库,支持海量矢量数据集的存储、索引和管理,并提供矢量相似度检索、高密度矢量聚类等能力,有效解决大型模型面临的问题知识时效性低、输入能力有限、准确性低。大模型可以更高效地存储和读取知识库,降低训练和推理成本,激发更多AI应用场景。在赋予大型模型长期记忆的同时,还可以帮助企业解决大型模型中最令人担忧的数据隐私泄露问题。
大模型的快速应用推动矢量数据库向高扩展性、高性能、实时性方向发展
大型模型正在快速与企业应用程序集成,重塑企业应用程序中人员和数据交互的方式。但无论是通用模型还是微调的行业模型,都存在一定的局限性:
*实时问题:模型训练时间较长,可能需要半年、一年。实时信息、新闻、市场行情等快速变化的信息无法及时构建到模型中。
*LongToken问题:大型模型的token(文本中最小单位)的输入能力受到计算能力和工程水平的限制。例如,在这种限制下,无法将上市公司的所有年报数据输入到一个大模型中,从而无法进行综合分析。
*精度修正问题:虽然大型模型经过长时间的大量数据训练,但在很多场景下精度仍然不足。知识库需要补充修正,才能给出更准确的结果和更实时的信息。
目前,用于大型模型训练的数据包括文档、图片、音视频等各类非结构化数据,用户可以通过表示学习的预处理方法将这些数据转换为多维向量,并存储在矢量数据库,可以很好的解决以上三个问题。例如,应用程序与大模型交互时,将输入的文本、图片等问题信息进行向量化,首先进行语义搜索,找到相关信息,拼接成提示词传递给大模型。大模型计算分析后反馈结果。
星环科技创始人兼CEO孙元浩表示,矢量数据库起到了中间存储的作用。我们认为向量数据库是大语言模型的海马体,是存储器。它的基本功能是能够存储多维向量并提供进一步的检索。
矢量数据库以前用于文本搜索或语义搜索。过去很多公司用它们来进行个性化推荐、构建知识图谱等。随着大型模型的兴起,向量数据库可以让大型模型更高效地存储和读取知识库,并以更低的成本对模型进行微调,进一步激发人工智能应用场景。此外,数千或数万个应用程序带来海量数据,需要高度可扩展的矢量数据库来存储更多的数据信息。矢量数据复杂度的增加和模型推理的加速也需要高性能的检索能力。实时动态变化的数据对矢量数据库的实时写入、实时更新、调用能力提出了更高的要求。通过将实时信息、实时新闻、市场行情等快速变化的信息及时构建到模型中,可以提供更加实时、准确的结果。
主演技术分布式矢量数据库TranswarpHippo
Hippo作为企业级云原生分布式矢量数据库,是企业级云原生分布式矢量数据库。基于其分布式特性,可以统一存储和管理多源转换的多维向量和文档、图片、音频、视频等海量数据。通过多进程架构和GPU加速技术,充分利用并行检索能力,实现毫秒级高性能数据检索,结合相似度检索等技术,帮助用户快速挖掘数据价值。
与开源矢量数据库不同,Starring分布式矢量数据库Hippo具有高可用、高性能、易扩展等特点,支持多种矢量搜索索引、数据分区与分片、数据持久化、增量数据摄取、矢量功能标量字段过滤、混合查询等可以很好地满足企业对海量矢量数据高实时检索的需求。
*云原生技术支持弹性伸缩
Hippo星链分布式矢量数据库,采用全面的容器部署,支持服务的弹性扩缩容,具备多租户和强大的资源管控能力。
*高扩展性,海量矢量数据存储
与直接使用各种算法库不同,StarringHippo存储和计算可以充分利用分布式特性,灵活按需扩展,满足大规模集群部署需求;通过Raft算法保证数据的强一致性;并提供故障迁移。数据修复等数据保护功能。
*深度优化,高性能数据检索
主演的分布式矢量数据库Hippo支持多进程架构和GPU加速,充分发挥并行检索能力;支持基于检索速度和内存使用情况的具体优化,以及寄存器级算法优化;并提供多类型索引支持,满足不同需求、不同实体。大量的业务场景。
*动态更新,实时检索
Hippo主演的分布式矢量数据库提供了动态更新数据的能力。对于实时插入/更新的数据,可以快速完成数据加载和索引构建,解决矢量数据T+1的传统处理逻辑,满足实时动态变化数据的需求。矢量检索分析。
*接口多样化,场景支持丰富
明星分布式矢量数据库Hippo提供标准的Python、Restful、CPP、JavaAPI等接口,可以轻松连接各种应用和模型,提高应用开发和调用的效率。同时提供类SQL接口,满足仓储等特定场景,大大降低了使用和操作难度。
*多型号组合
基于TDH多模型统一技术架构,可以统一存储和管理矢量数据、关系数据、图数据、时序数据等多种模型数据,并通过统一接口实现跨模型数据联合分析。
Starlink分布式矢量数据库Hippo具有高可用、高性能、易扩展等特点,能够很好地满足企业对海量矢量数据的高实时性需求。
*文本搜索
传统搜索引擎更喜欢单词/句子查询。Starring的分布式矢量数据库Hippo通过矢量引擎提供自然语言处理能力,可以更好地支持基于语义的查询分析,使查询更符合人类需求。
*语音/视频/图像检索
Starlink分布式矢量数据库Hippo将多维矢量特征构建为高效的矢量索引,实现数据相似性检索,可覆盖人脸识别、语音识别、视频指纹等多种类型的AI场景。
*个性化推荐
Hippo,Starlink分布式矢量数据库,可以与各种深度学习平台上构建的模型相结合。通过向量相似度检索,可以对用户行为和偏好进行分析和挖掘,达到针对数千人的推荐效果。
*智能搜索、智能问答
知识图谱的目的是存储和表达结构化数据、非结构化数据以及这些数据和实体之间的关系。通过星链分布式矢量数据库Hippo,可以更好地表达和处理这些信息,并给出一系列符合需求的近似答案和推荐查询。
矢量数据库和图数据库的结合,可以低成本、高效地构建特定领域的大型模型应用。
基于星链分布式矢量数据库Hippo,可以有效解决大型模型知识时效性低、输入能力有限、精度不高的问题。通过在星链分布式向量数据库Hippo中存储数据、专业知识、个人习惯等海量信息向量,可以极大扩展大模型的应用边界,让大模型能够保持实时信息并能够动态调整、制作大型模型具有长期记忆。
通过建立垂直领域的知识库,并对大型模型的输出结果进行修正,可以提高结果的准确性,并在一定程度上解决AI错觉问题。
此外,矢量数据通过星链分布式矢量数据库Hippo存储,有效解除大模型的输入限制,大模型可以在安全机制下访问矢量数据库中的私有数据,可以充分保证数据安全并消除风险的隐私泄露。
然而,对于大型模型来说,仅靠矢量数据库是不够的。在回忆的基础上,利用即时工程确保数据更加准确、更接近实际场景也是重要的一环。星环科技结合了分布式矢量数据库Hippo和分布式图数据库StellarDB,并以此作为微调的数据基础,可以更低成本、更高效地构建特定领域的大型模型应用。
图数据库StellarDB与知识图谱相结合,配合大模型可视化端到端构建工具,提供知识提取与融合、知识建模、知识图谱生成与存储、知识提问等闭环功能并根据大模型进行回答。客户可以使用知识图谱作为大语言模型提示来发起模型微调,并以低成本获得业界独家的大语言模型问答应用。
将矢量数据库、图数据库与大语言模型相结合,可以构建业务领域知识图谱和业务系统应用服务,进一步提高人机交互效率,提供更灵活的组合业务服务,激发越来越多的深度业务场景。人工智能应用。
例如,当向开源通用大模型询问某集团玉米收储价格、某集团上下游企业主要合作情况等时,通用大模型没有行业知识,无法给出准确的答案。将农业知识图谱与向量数据库结合后,可以从知识图谱中获取或补充大模型的答案,从而能够准确回答新的生猪价格和价格影响。
通过这种组合,可以解决目前大型模型存在的三大问题。首先,它可以将实时知识和变化的信息放入大型模型中;第二,可以修正结果的准确性,大大提高准确性;第三,可以构建相应的知识图谱,增强大模型的能力。
在无涯,星环科技此次推出的金融领域大模型,基于星环科技自身积累的数百万金融领域专业语料库,结合图数据库StellarDB和深度图推理算法技术,打造了一个大型——规模优质的金融事件训练指令集共同为星环开发金融领域大型语言模型奠定了坚实的基础。星环无涯大模型可以理解金融行业的术语,还可以执行特定的任务,例如分析上市公司的年报和公告、生成新闻摘要、判断特定新闻事件的影响等,提高分析师、研究人员的水平,以及投资经理的效率。