文章编号:9时间:2023-09-18人气:
AI时代,如何用好大模型是当前各行各业瞩目的焦点。向量数据库作为大模型“记忆体”,不仅能够为其提供数据存储,而且能通过数据检索、分析让大模型进行知识增强,成为生成式AI应用开发新范式的重要组成部分。
用图片搜索图片或者文本搜索文本时,在数据库中存储和对比的并不是图片和视频片段,而是通过深度学习等算法将其提取出来的“特征”,“特征”提取的过程称为 Embedding,提取出的“特征”用数学中的向量来表示。向量化的目的是为了通过向量相似来进行非结构化数据的检索,向量化后的数据才能够被AI模型更好的理解使用。向量数据库就是用于生产、存储、索引和分析来自机器学习模型产生的海量向量数据的数据库系统。其典型应用场景比如:基于大语言模型的智能客服、基于企业知识库的问答以及Chatdoc等工具应用。
火山引擎向量数据库技术演进之路
存算分离的分布式架构搭建
在抖音集团内部,早期的向量化检索引擎是围绕搜索、推荐、广告业务来构建的,由于这些业务天然具有极大的数据规模,因此从一开始,就需要思考如何在向量索引中支持百亿数据的检索需求,比如图虫拥有几亿图片素材,数量规模早已超出单机内存的极限,举个例子,对于1亿条128维的Float向量,不考虑任何辅助结构,就需要100000000 * 128 * 4 bytes 也就是约48GB的服务器内存。
研发团队设计了一套存算分离的分布式系统架构,来进行向量数据的分片和分布式编排,通过向量存储、批式构建和实时在线检索,解决一份向量多个索引、支持多个场景的问题,同时,还能够节省索引构建资源,加快索引构建,使在线检索服务稳定性得到明显提升。对于用户来讲,在抖音上搜索内容则会又快又准。
计算内核性能优化
构建一个企业级的向量检索应用,数据量可能超过亿级,延迟在10ms内,要求用起来更快、更稳,所以在计算框架搭建好之后,也必须关注其内核,如何提供高性能的向量化检索服务以满足业务的苛刻需求。由于向量化检索是典型的计算密集、数据密集场景,其优化方向主要围绕提升吞吐、降低服务成本、提升稳定性开展。通过一系列性能优化工作,如降低内存占用、优化索引性能、CPU指令集计算优化、优化过滤和重排序等业务相关的计算过程,这套架构可以很好解决各类业务场景的离线和在线检索计算需求,相同检索精度下的吞吐和时延相比开源基线有了3倍以上的改善,且满足大规模线上业务的稳定性要求,因此被抖音集团大量业务采用。
但因为每个索引搭建一套集群的成本较高,且存在配置复杂等问题,研发团队又对框架进一步迭代,进行云原生改造,实现组件多租户化,提供自动化调度能力,以降低错误率,加快交付。
向量标量混合检索能力
向量数据库用于业务场景时,向量数据通常与结构化数据配合使用,例如,在将文档表示为向量的同时,还需要存储文档所属的部门,以方便在检索时进行权限过滤。这类需求可以抽象为使用与向量相关的结构化数据进行过滤,业界通常有两种解决方案:一是后过滤,将排名top的K个结果扩大一定倍数,检索出更多的向量,然后用结构化数据做过滤,留下topK个,这种方法适用于结构化过滤掉的比例较低,向量召回结果比例较高的场景;二是先过滤,先使用DSL过滤数据集,然后在结果集中进行向量排序,适用于DSL过滤结果较少的场景。
随着数据量的增加,这两种检索链路的性能各有适用的场景,但如何在执行时自动找到最适合的执行路径呢?为此,技术团队又研发了DSL定向引擎,支持在检索过程中同时进行向量检索和DSL过滤(结构化过滤),具有高性能、逻辑完备、可按需终止和执行计划优化等特点。在混合查询性能对比行业评测中,该向量数据库的无过滤吞吐、1%过滤吞吐和99%过滤吞吐多项性能均排名第一。
帮助大模型知识库更快落地
大模型应用场景的不断拓宽,催生了向量数据的存储、检索需求。将企业自身数据转化为向量数据时遇到不少困难,如何帮助业务选择开箱即用的向量化模型,也影响到大模型应用的落地速度。技术团队在知识库、生成式AI素材管理等场景,开始尝试提供预设的向量化方法以供业务选择。大多数业务只需要选择一个适合自身数据的向量化方法,即可用原始数据直接写入向量数据库,并用相同的模型将请求数据转换为请求向量进行查询。
向量数据库技术全景
经过长期的内部探索和优化,抖音采用的向量数据库产品结构如下图所示:基于云基础设施,提供经过深度打磨和优化的各个引擎,提供从多模态数据写入,到向量生成,再到在线检索,以及上线后的弹性调度和监控的一整套全链路解决方案。
火山引擎向量数据库的场景化落地实践
经过抖音集团内部的技术实践,向量数据库目前已经覆盖50+的业务线,基本支撑了内部所有的向量检索场景,比如抖音、头条、懂车帝、图虫、火山引擎Oncall智能问答和剪映等,主要的业务场景包括智能搜索、AIGC跨模态检索、推荐和去重、智能问答、相关排序、聚类分析和数据挖掘等,并且多个场景库规模达百亿级别。
下面以图虫和火山引擎Oncall智能问答为例,展示向量数据库的应用实践。
智能搜索场景――图虫的以图搜图
图虫提供了以图搜图的能力,致力于为用户提供正版素材内容及数字资产管理解决方案。目前,图虫创意在库图片量4.6亿、高清视频超2000万条,每天有大量用户来搜索、查询图片和视频。亿级海量数据对向量检索服务能力提出更高要求,业务如何灵活的设置分片,当数据量大幅增加时又如何避免重新部署集群,加快索引构建、节约资源。
解决方案是提供端到端的图片搜索能力,流程是先将图片源数据上传到向量数据库,把图片数据进行向量化、存储并形成向量索引,然后,用户将要搜索的图片上传,上传后向量化,向量化的图片与向量数据库进行向量检索比对查询,获取相似度最高的结果,返回给用户。
企业知识库场景――火山引擎Oncall智能问答
火山引擎Oncall智能问答能够辅助一线客服、提供客户问题回复参考。火山引擎官网每天会收到大量的客户售后进线,高峰时段人均要并行受理多个问题,需要能够快速排查并且给出客户反馈。对于工程师来讲,面对众多技术门槛较高的产品,要进行快速理解和判断,难度较大。
下一篇:成都再次组局国际科技马拉松
内容声明:
1、本站收录的内容来源于大数据收集,版权归原网站所有!
2、本站收录的内容若侵害到您的利益,请联系我们进行删除处理!
3、本站不接受违法信息,如您发现违法内容,请联系我们进行举报处理!
4、本文地址:http://www.17175.com.cn/article/9.html,复制请保留版权链接!
爱纯净免费提供win10纯净版系统、win11纯净版系统、win7纯净版系统、win8纯净版系统、XP纯净版系统等ghost纯净版系统下载资源,安装纯净版系统,让电脑系统告别捆绑软件!
圣才学习网拥有万种考研考证电子书、题库、视频课程,内容涵盖考研公共课、500多所院校考研专业课,数百种考研经典教材,以及证券、金融、经济、管理、医学、工程、理工、计算机、财会、统计、精算师、中文、艺术、新闻、出版、教育、心理、公务员、成考、自考等几十种专业门类的职业资格、职称学历考试,助力广大考生顺利通关。
188收录网,优质网址导航目录平台,为您提供免费网站收录提交,网站目录提交入口,免费自动秒收录网址,提供自动收录网站,网址导航源码,自动链,友情链接交换。
17173是网络游戏门户站,全年365天保持不间断更新,您可以在这里获得专业的游戏新闻资讯,完善的游戏攻略专区,人气游戏论坛以及游戏测试账号等,是游戏玩家首选网络游戏资讯门户网站。
博禾医生汇聚全国TOP100三甲医院知名专家医生,专业打造权威的智慧医疗科普平台,通过视音频、直播问诊、专家文章、在线问医生等多形式内容,为大众用户提供专业、可信的科普医疗服务和就医指南。是国内领先的健康科普内容生产与提供商!
豆瓣电影提供最新的电影介绍及评论包括上映影片的影讯查询及购票服务。你可以记录想看、在看和看过的电影电视剧,顺便打分、写影评。根据你的口味,豆瓣电影会推荐好电影给你。
百战网,提供奇闻怪事、科学探索、新鲜事、国内新闻、国际新闻、人物事件、台湾新闻等资讯,为读者展现全方位新闻资讯。
喜马拉雅是国内领先的音频分享平台,汇集了有声小说、儿童故事、相声评书、京剧戏曲、新闻段子、广播电台等数亿条免费声音内容,听书、听小说、听故事、听儿歌、听音乐,为您找到每一天的精神食粮!
互联网时代,智能科技的飞速发展为我们的日常生活带来了极大的便利,然而它也给青少年教育带来了新的挑战。如何正确使用智能科技,使其成为辅助青少年学习英语的有效工具,成为家长和教育界关心的问题。在第二届iEnglish
互联网资讯 2023-09-19 20:25:41
华为官方宣布,秋季全场景新品发布会将于9月25日14:30举行,预示着多款新产品即将亮相。其中,华为智选车旗下首款纯电动轿跑LUXEED智界S7也将一同亮相。根据先前的消息,LUXEED智界S7计划于9月底发布,随后开始小订,
互联网资讯 2023-09-19 15:13:02
近日,甲骨文公司和微软公司宣布推出OracleDatabase@Azure,让客户可以直接访问在Oracle云基础设施远程软件服务(OracleCloudInfrastructure,OCI)上运行并部署在MicrosoftAzure数据中心的Oracle数据库服务。
互联网资讯 2023-09-18 21:54:15
华为副董事长、轮值董事长徐直军表示,中国计算产业正在持续加强的压力下前行,目前从设计工具、材料、制造设备到芯片产品都受到了影响。他强调,中国半导体制造工艺将在相当长时间处于落后和追赶的状态,而美国的出
互联网资讯 2023-09-18 15:20:44
近日,罗永浩在一次直播中评价iPhone15换用USB-C接口(也被称为“华为口”),他表示无法理解苹果公司如何在产品如此优秀的情况下,还能赚取如此巨大的利润。他指出,苹果公司之所以选择更换接口,是因为在一些国家(
互联网资讯 2023-09-18 15:18:37
据网友爆料,英特尔即将推出的新一代RaptorLakeRefresh旗舰级处理器i9-14900K将搭载8个P核和16个E核,总计24核32线程。
互联网资讯 2023-09-17 11:28:54
《云・原神》网页版已正式上线,玩家无需下载包体,无需配置要求,只需打开浏览器即可随时畅玩,实现了从PC端到网页端的无缝切换,支持Windows和Mac操作系统。
互联网资讯 2023-09-16 16:09:07
微软雅黑宋体游戏将军是一款游戏有战士法师和道士三种职业玩家可以在游戏的虚拟世界中与同伴尽情冒险体验到养成打斗社交互动等各种丰富多样的功能成就一段强者的成长之路游戏采用了大量的写实场景富有魔幻色彩的阵法提供了别具特色的行会系统特色副本极品装备系统等带给玩家各种酣畅淋漓的游戏体验和乐趣微软雅黑宋体来源游戏网将军...
资讯头条 2023-09-16 13:16:32
如果你是参与WindowsInsider项目的用户,并选择切换到Canary和Dev频道,但仍然停留在旧版Win11预览版,那么今天你会收到一个提醒,告知你当前预览版已经到期。
互联网资讯 2023-09-16 12:27:02
今天早晨7时35分,复兴号亚运智能动车组G9313列车从杭州东站出发,开始载客运行,标志着该专为第19届杭州亚运会打造的智能动车组正式投入运营。
互联网资讯 2023-09-16 11:27:48