百度|决胜AI时代,搜索超越搜索( 二 )


百度重金投入的原因不难理解 。
因为 , 搜索引擎始终在做一件事情:“如何理解并解答一个人的提问 , 并给出精准回答” 。 它的核心技术是自然语言处理 , 天生具备人工智能基因 。 换句话说 , 搜索公司本身就是AI公司 , AI技术的进步才能带来搜索的进步 。
2020年 , 百度推出首个智能可交互数字人度晓晓 。 度晓晓可以对每个用户形成独特的记忆 , 进行个性化对话 。 这背后是超大规模智能聊天模型、虚拟人动作语音实时合成等多项超前的AI技术 。
不止如此 。 在百度 , 几乎所有的AI技术都会优先应用到搜索 , 比如跨模态大模型技术、AIGC等等 。
技术的投入也确实让百度在搜索保持巨大的领先性 。 这些年来 , 搜索引擎的挑战者不断 , 但依然没有任何人可以撼动百度在中文搜索引擎领域的领先地位 , 甚至百度的市场份额还提升了——过去一年 , 规模年同比增长17% 。
依托飞桨平台和昆仑芯片 , 百度构建了搜索领域全球最大的异构计算集群 , 每天可以进行超万亿次的在线深度语义推理 , 满足用户每天数十亿次的搜索需求 。 这样的运算规模远超任何一个人工智能项目 , 可以毫不夸张得说 , 搜索已经成为了最大的人工智能项目 。 搜索也是AI规模最大的应用场景 。
“知一”、“千流”:搜索进化的又一次双向奔赴任何产品的进化都是一个“双向奔赴”的过程 , 需求的诞生催生了技术的发展 , 而技术的发展又会刺激需求进一步的释放 , 从而形成一个良性循环 。
互联网领域的拳头产品搜索亦是如此 。
百度搜索每天响应几十亿次真实的用户使用需求 , 每天进行1万亿次深度语义推理与匹配 ,用户的最真实、最及时的反馈倒逼了搜索技术的进一步发展 。
2022年 , 百度搜索在技术端最大的反馈创新便是“知一”和“千流” 。
“知一”是百度在去年万象大会推出的跨模态大模型 。 在此之前 , 百度搜索背后采用的是语言理解的大模型 。
但互联网发展至今 , 信息本身早已不纯粹是语言理解的方式 , 它更多的融合图像、视频和各种各样模态的信息 。 用户的需求表达也已经从单纯的一个关键词到现在口语化、冷门的表达;表达方式从单纯的文字到语音、图片 。
想要搜索服务升级 , 就必须理解多种模态的信息 。 而跨模态大模型“知一”恰好可以更好理解各种各样的媒介 , 以及媒介之间的信息互通产生的信息 , 最终可以把更满足用户需求的结果呈现出来 。
比如 , 当用户在百度搜索“智能锁哪个品牌比较好”时 , 百度可以对全网智能锁的商品信息进行智能聚合 , 生成商品榜单 , 来辅助决策 。 当用户搜索“附近的酒店”时 , 百度不仅可以找到酒店相关信息 , 还能进行多平台比价 , 完成?站式闭环交易 。
现在 , “知一”能够完成日均万亿次的超大规模在线预估 , 能够处理千亿综合语料和百亿视频语料 , 每天要进行万亿次的推理 。 超强的计算能力和理解能力是搜索准确度和完整度的保证 。
事实上 , 用户对搜索的要求一直是更全、更快、更准 。 这也是搜索引擎技术提升的关键指标 。
搜索技术本身是一个索引技术 。
为了迅速找到满足用户需求的内容 , 传统搜索引擎依据内容质量横向分层 , 基于不同的需求去进行一个定向的触发 。
但当下的问题是 , 数据规模超前巨大 , 搜索引擎又要在毫秒级将检索结果反馈给用户 , 同时要使得结果尽可能精确 。 为此 , 百度搜索推出了新的索引技术:千流 。
千流能够把不同维度的信息进行智能有序的组织 , 将传统索引升级成多领域、多维度表达的立体栅格索引 。 通过模型对每一个请求进行分析 , 智能判断检索路径 , 进行栅格化激活 。 可以说 , “千流”是对搜索引擎后端架构的彻底改造 。