百度版ChatGPT迷雾:做不做、怎么做以及为什么做?

百度版ChatGPT迷雾:做不做、怎么做以及为什么做?
文章图片
OpenAI推出ChatGPT两个月后 , 百度终于要下场了 。 即便还在传言阶段 , 资本仍然直接给了一波13%的大涨 。
搜索引擎对ChatGPT的反应无疑是最受关注的 。
在此之前 , 微软被曝或是第一个将ChatGPT引入搜索引擎的巨头 , 并且宣布增持OpenAI , 谷歌也通过「Redcode」的方式拉响警报 , 围绕ChatGPT全面调整2023年在AI领域的工作 。
姗姗来迟的百度 , 虽然官方三缄其口 , 但投资者们更倾向于相信这一消息 , 这表明投资者们认可百度研发ChatGPT的合理性 , 并且对百度版ChatGPT抱有期待 。
而有关百度版ChatGPT的迷雾 , 正是本文尝试探讨的:百度做不做、怎么做以及为什么做?
做不做?
去年年底 , 李彦宏曾在内部直播中做过一个分享 , 认为AIGC(AI生成内容)和ChatGPT这些都是AI技术发展到一定地步后产生的新机会 。 但至于它会变成什么样的产品 , 又能满足什么样的需求 , 还有很多的不确定性 。
不过话锋一转 , 李彦宏又坚定的表态:这个事情很难 , 但百度必须要做 。
而百度必须要做的理由 , 来自这两个方面:
一方面 , 微软、谷歌已经动作在前 , 尤其是后者 。 1月初 , 谷歌的子公司DeepMind就推出了用以抗衡ChatGPT的Sparrow , 并且还在加速布局生成式AI , 包括文字生成AI模型Wordcraft、AI绘画模型Imagen、视频生成工具ImagenVideo , 以及在1月27日发布的音乐AI模型MusicLM;
另一方面 , ChatGPT的确是搜索引擎的威胁 。
摩根士丹利在去年12月的一份研报中直截了当的表示:语言模型可以继续获得用户 , 并从搜索查询中获得份额 , 并破坏谷歌作为互联网用户入口的地位 。
一个不算好的消息是 , ChatGPT上线5天就完成了100万用户的积累 。 而据Similarweb监测 , 到1月份ChatGPT平均每天的独立访问者已超过1300万 , 甚至瑞士跨国投行瑞银集团(UBS)周三发布的一份研究报告显示 , ChatGPT在今年1月份的月活跃用户数估计已达1亿 , 成为史上增长最快的消费者应用 。
相比之下 , 达到1亿月活跃用户数 , TikTok花了大约9个月的时间 , Instagram花了两年半 。
这意味着 , 搜索引擎迎来了自诞生起最强大的潜在敌人 。
相比传统的搜索引擎根据用户提问 , 从而提供数千万个相关链接索引 , ChatGPT的优势在于 , 直接提供自己搜索和信息综合的单一答案 , 让用户省去反复点击链接找寻答案的复杂度 。
据TheInformation报道 , 微软Bing引入ChatGPT后 , 这些AI支持的答案可能会以包含信息来源的完整句子的形式呈现 , 而不是引用可能解决用户提出的问题来源或者链接列表的精选片段 。 也就是说 , ChatGPT能够轻易碾压搜索引擎的「首条满足率」 。
但是 , 对于ChatGPT颠覆搜索引擎的说法并没有得到广泛认可 。 主要是ChatGPT在搜索领域的应用仍具有几大悬而未决的掣肘:
1)真实性无法保证 。 在学术、科研等严谨的应用场景中 , ChatGPT提供的答案并不一定都正确 。 由于ChatGPT只提供纯文本 , 不引用实际网站 , 目前并没有办法从ChatGPT的输出中分辨真伪 。
百度版ChatGPT迷雾:做不做、怎么做以及为什么做?
文章图片
2)信息的实时性难以保证 。 搜索引擎的索引可以实时更新 , 更为方便快捷 , 但对于大型语言模型而言 , 添加新的内容需要重新训练模型 , 耗时且成本昂贵 。
百度版ChatGPT迷雾:做不做、怎么做以及为什么做?
文章图片
比如 , GPT-3就需要1500万美金和1750亿参数 , 由于没有可以适合该模型的单个硬件 , 因此必须将其分解并分布在多个处理器上 , 例如A100GPU 。 设置和并行化这些处理器以训练和运行模型既是技术挑战 , 也是财务挑战 。