搜索引擎优化中短期内无法完全取代传统搜索引擎,但料挖掘潜力主题机会!直线搜索方法,无约束优化方法,约束优化方法

炒股可以看看金麒麟分析师的研究报告。 权威、专业、及时、全面,助您挖掘潜在商机!

来源丨中信证券研报丨陈俊云 徐英波 贾开芳 刘锐

伴随着其在全球市场的火爆,其在内容深度搜索方面的出色表现引发了市场对其能否取代传统搜索引擎的广泛讨论。 我们认为搜索引擎优化,在中短期内完全取代传统搜索引擎是不可能的,也难以改变目前全球搜索引擎市场的竞争格局。 但是,预计搜索引擎的演进将加速,在中期将形成传统的基于搜索和基于类的模型。 新的搜索引擎形态相应地带来了谷歌等传统搜索引擎巨头在人工智能方面的投入大幅增加。 优化问答匹配精度,用户体验远优于传统搜索引擎。 然而,其背后的一系列缺点也阻碍了其在中短期内取代传统搜索引擎的可能:1)由于模型训练方式,数据难以实时更新。 2)单次搜索成本过高。 我们估算,生成一条信息的成本约为 1.3 美分,是传统搜索引擎的 3-4 倍。 3)统计模型生成的内容混杂搜索引擎优化,用户难以区分。 其中,第1点和第3点有望在技术优化后结合传统搜索引擎部分解决。 成本问题可能要等硬件成本在中短期内继续下降。 由此产生的鲶鱼效应有望推动全球人工智能产业化进程全面加速,人工智能生成内容时代全面到来。

▍报道来源:

它在问答环节表现出色,引发了市场对它能否取代传统搜索引擎的广泛讨论。 团队公布的最新语言模型于2022年11月30日发布到社区进行测试,上线不到两个月,DAU突破1000万,MAU突破20万。 从社区用户的测试结果来看,与上一代GPT3相比,以对话为载体seo排名,可以回答各种日常问题,多轮对话历史的记忆能力和时长都有所增强。 与GPT-3等大模型相比,答案更加全面,可以多角度进行解答和解释。 与以往的大型模型相比,知识被更充分地挖掘。 内容深度搜索的强劲表现引发了市场对其能否取代传统搜索引擎的争论。 本报告将就其背后的技术能否取代传统搜索引擎,以及它将给传统搜索引擎巨头带来什么变化展开一系列分析。

▍与传统搜索相比:在GPT3.5的基础上,结合人工反馈强化学习进行训练,优化了问答生成的匹配精度。

该团队根据 GPT3.5 系列中的一个模型进行微调,使用带有人类反馈的强化学习 (RLHF) 进行训练。 首先,人工标注者编写了大约1.2w-1.5w的问答数据,作为基础数据预训练。 然后要求预训练模型 (SFT) 为新问题列表生成多个答案,并要求人工注释者对这些答案进行排名。 这些响应的排名内容将在成对比较中生成一个新的奖励模型(RM)。 最后让奖励模型在更大的数据集上重新训练SFT,迭​​代最后两步得到最终模型。

经过以上步骤,我们发现问题的意图和最终模型的答案的一致性有了很大的提高。 资料显示,与提供内容相关页面链接的传统搜索引擎相比,它可以直接生成高水平的问题答案。 并能够提供答案内容的相关参考链接(内测版暂未开发该功能)。 此外,对于开放式问题,也可以通过网络中的数据匹配生成相对完整的答案。 在处理知识和创意问题时,提供的搜索体验远优于目前的传统搜索引擎。

▍替代传统搜索引擎:中短期可能性不大。

虽然它可以极大地优化用户的搜索体验,但要替代传统搜索引擎仍面临几个关键的技术瓶颈。

1)实时数据的问题。 目前英文版的数据截止到2021年,中文版的数据截止到2020年。数据库版本滞后的主要原因是基于语言的大模型的技术限制。 目前在GPT大模型中加入标注数据的训练模式,使得引入实时数据变得非常困难。 如果要重新训练模型,我们估计每次预训练需要使用1000多块 A100显卡工作半个月到一个月。 一次,成本超过百万美元。 但是如果使用fine-专门训练新知识,新知识在模型中的权重会过高,频繁的fine-也会导致模型“遗忘”旧知识。

外贸网站搜索 引擎优化方法_搜索引擎优化_直线搜索方法,无约束优化方法,约束优化方法

2)数据的真实性还不够可靠。 经过大量测试,我们发现虽然回答问题的准确率有所提升,但如果所提问题含糊不清或包含一些错误信息,模型可能会以“严肃”的语气生成完全错误甚至捏造的答案。 回答。 真假答案混杂会给用户在需要寻求专业问题答案时造成严重的困扰。 这也是大型语言模型中的通病。 据CSDN微信公众号消息,2022年11月几乎同时上线的元服务科研领域大语言模型,测试仅3天就被用户投诉下线,原因是混合真和错误的答案。

3)模型在线推理成本高。 基于模型的现有数据,我们假设每个生成的答案平均长度为 50 个单词,并使用 8x A100 进行推理,我们估计每个生成答案的成本约为 1.3 美分,约为 1.3 搜索的成本是每次搜索引擎成本的 3 倍。 如果面对每天数以亿计用户的搜索请求,如此高昂的成本对于SEO来说是难以承受的,从商业模式上来说也不可能在中短期内完全取代传统搜索引擎。

▍搜索引擎产品演进:传统搜索引擎为主+大语言模型为辅的组合。

目前的技术路径很难在短时间内解决搜索成本问题。 因此,从场景限制使用的思路出发,我们认为在中短期内快速排名,一些技术上的改进可以辅助传统搜索引擎实现用户体验的大幅提升。

1)考虑到在不同分类问题中的性能,将搜索限制为仅启用知识搜索场景可以有效地控制成本。

2)当面临时效性问题时,模型自动判断并转向传统搜索引擎生成答案,通过传统搜索引擎的数据返回汇总新答案的生成版本。

3)对于答案的真实性,为用户添加答案来源的引用,方便用户快速查看答案的可靠性。

总的来说,通过一些小的技术革新(大部分已经出现在其他大型语言模型中,只需要向他们学习)就可以使它成为一个合格的辅助搜索引擎。 不过,成本问题在短期内并没有很好的解决方案,这也让目前的搜索引擎巨头有足够的时间来应对其将带来的冲击。

谷歌、百度等搜索巨头在大型语言模型方面有着深厚的积累,尤其是谷歌有类似的对话模型,其部分技术在该领域取得了突破,包括使用多个RM模型来处理不良语言模型。 信息的产生和新知识的增加迭代优化相关思想。 预期的成功不会给搜索行业带来颠覆性的新进入者,但会推动谷歌等搜索巨头加速迭代大语言模型辅助传统搜索引擎的新格局。

谷歌在最新的季度财报电话会议上表示:“谷歌将在未来几周或几个月内正式推出基于大型语言模型的人工智能。这种人工智能将以搜索伴侣的形式补充其传统搜索引擎。” ” 不过,我们认为,大语言模型的加入,也会在中期影响谷歌等巨头搜索业务的利润率。 在假设每个用户平均生成 50 个词的情况下,我们估计如果到 2023 年 10% 的搜索结果由大型语言模型生成,每年将给谷歌带来约 12 亿美元的额外运营成本。

搜索引擎优化_直线搜索方法,无约束优化方法,约束优化方法_外贸网站搜索 引擎优化方法

▍风险因素:

人工智能核心技术发展不及预期的风险; 科技领域政策调控持续收紧的风险; 全球宏观经济复苏不及预期的风险; 宏观经济波动导致欧美企业IT支出不及预期的风险; 全球云计算市场发展达不到预期的风险; 企业数据泄露、信息安全风险; 行业竞争持续加剧的风险等。

▍投资策略:

受信息更新、答案准确率、算力成本等因素的综合制约,中短期内替代传统搜索引擎的概率较低,但有望加速搜索引擎产品的演进,并且在中期形成传统的基于搜索的搜索引擎。 以类模型为辅的搜索引擎新形态,迫使传统搜索引擎不断加大在AI领域的投入。 同时,鉴于目前全球搜索引擎市场格局,份额较小的微软必应最有可能率先尝试大语言模型的实际使用。 、等top seo记录大概率也会被动跟随。 由此产生的鲶鱼效应有望推动全球人工智能产业化进程全面加速,人工智能生成内容时代全面到来。

开户炒股享福利,入金188元抽红包,100%中奖!

海量资讯,精准解读,尽在新浪财经APP

免责声明:本站所有文章和图片均来自用户分享和网络收集,文章和图片版权归原作者及原出处所有,仅供学习与参考,请勿用于商业用途,如果损害了您的权利,请联系网站客服处理。