淘宝搜索算法总监谈淘宝搜索算法 _ 医院网络营销策划

淘宝搜索算法总监谈淘宝搜索算法

一个网站肯定要面对搜索结果展示的问题,特别是像淘宝这种搜索结果排序就决定了商家的利益多少,那么搜索的算法就很重要了。淘宝搜索排序的目的是帮助用户快速的找到需要的商品。从技术上来说,就是在用户输入关键词匹配到的商品中,把最符合用户需求的商品排到第一位,其它的依次排在后续相应的位置。为了更好的实现这个目标,算法排序系统基本按三个方面来推进:

淘宝搜索

淘宝搜索总监说淘宝搜索

一.算法模型

当用户输入关键词进行搜索的时候,系统依据算法模型来给匹配到的每个商品进行实时的计算,并按照分数的大小对商品进行排序。

对于好的算法模型,首先需要考虑我们能够有哪些特征因子可以应用。比如在网页搜索中,算法模型基本就是按网页的重要性和相关性给网页计算一个分数,然后进行排序。这里的相关性,和重要性就是网页排序模型中两个重要的因子。具体来说相关性因子是指搜索关键字在文档中出现的度数,当这个度数越高时,则认为该文档的相关程度越高。重要度因子比如Google的Pagerank,可以理解为一个网页入口超级链接的数目:一个网页被其他网页引用得越多,则该网页就越有价值。特别地,一个网页被越重要的网页所引用,则该网页的重要程度也就越高。

考虑淘宝搜索的时候,有些特征因子是很容易能想到的,比如

A.文本的相关性:关键词和商品的匹配,匹配的程度,是否重要词的匹配,匹配词之间的距离等,都可能影响相关性。比如搜索“小鸭子洗衣机”的时候,一个商品的中心词是洗衣机的要比卖洗衣机配件商品的相关性高,小鸭子连在一起的相关性要比“小”和“鸭子”分开时候的相关性高等。文本相关性最基本的计算方式可以参考BM25等。

B.类目热点:淘宝数据的一个重要特质是每个商品都挂靠在类目属性体系下面,每个商品都做了一个很好的分类。在搜索过程中,同一搜索词的大量用户行为数据很容易聚焦到相应的热点类目,比如“手机”的搜索行为会集中到手机类目,而不是配件类目。

C.图片质量:图片是电子商务网站非常重要的一个数据,图片是否精美吸引人,图片上是否有各种各样的“牛皮癣”,和商品匹配度等都很大程度上影响着用户的点击和购买决策。

D.商品质量:每个商品都有不同的质量,商品的描述真实性,是否物美价廉,受人欢迎的程度等

E.作弊因子:类似于全网搜索有关键词堆砌,link spam,网页重复等等作弊的问题,电子商务搜索也面临同样的问题,比如商品关键词堆砌,重复铺货,重复开店,广告商品引流等等,也有商品特有的问题如价格作弊,交易作弊等,需要利用统计分析或者机器学习来做异常行为,异常规律的发现和识别并运用到排序中

F.公平因子:淘宝的商品很丰富,每个搜索词下都有足够多的商品在竞争,需要在相似质量的情况下让更多的商品和卖家有展示的机会,而不是像网页搜索一样是一个基本静态的排序,照成商品点击和展示的马太效应。

类似的商品,卖家,买家,搜索词等方面的特征因子有很多,一个排序模型就是把各种各样不同的特征因子组合起来,给出一个最终的关键词到商品的相关性分数。只用其中的一到两个特征因子,已经可以对商品做一些最基本的排序。如果有更多的特征参与到排序,我们就可能得到一个更好的排序算法。组合的方法可以有简单的人工配置到复杂的类似Learning to Rank等的学习模型。

那么如何衡量不同算法之间的优劣呢?

二.线下评估

算法模型的评估一般分为线下的评估和线上的评估,线下的评估很多都体现在搜索中常用的相关性(Relevance)指标。相关性的定义可以分为狭义相关性和广义相关性两方面,狭义相关性一般指检索结果和用户查询的相关程度。而从广义的层面,相关性可以理解为用户查询的综合满意度。当用户在搜索框输入关键词,到需求获得满足,这之间经历的过程越顺畅,越便捷,搜索相关性就越好。

在淘宝搜索衡量狭义相关性的时候,一般是使用PI(Per Item)测试的方法:

A.抽取具有代表性的查询关键词,组成一个规模适当的关键词集合

B.针对这个关键词集合,从模型的产出结果中查询对应的结果,进行人工标注(人工判断为相关性好,中,差等). 对人工评测的结果数据,使用预定义好的评价计算公式比如DCG等,用数值化的方法来评价算法模型的结果和标注的理想结果的接近程度

利用人工标注数据来计算相关性的分数,来判断模型的好坏;在这个过程中人工不可避免的会有主观的判断,但综合了多人的判断结果还是可以获得一个有统计意义的结果,另一方面标注数据也可以帮助我们找到一个算法表现不理想的地方,有针对性的提升。

广义的相关性线下评测比较困难,受人工主观因素的影响更大,一般使用SBS(Side by Side)的评测方法,针对一个关键词,把两个不同算法模型产出的结果同时展示在屏幕上,每次新模型和对比模型展示的位置关系都是随即的,人工判断的时候不知道哪一边的数据是新模型的结果,人工判断那一边的搜索结果好,以最终的统计结果综合来衡量新模型和老模型的搜索表现。

线下评测的方法和指标有很多,不同的搜索引擎会关注不同的指标,比如以前Yahoo的全网搜索引擎比较关注RCFP (Relevance,Coverage,Freshness, Perspective)等,淘宝搜索线下评测时候一般统计DCG和SBS的指标。

线下的评测方法从统计上有一定的指导意义,能从一定程度上区分模型的好坏,但要真正验证算法模型的好坏,还需要接受真实的流量来验证。

三.线上测试

为了真实验证一个算法模型的好坏,需要有一个系统能提供真实的流量来检验。淘宝搜索实现的BTS(Bucket Testing System)系统就是这样的一个环境,在用户搜索时,由搜索系统根据一定的策略来自动决定用户的分组号(Bucket id),保证自动抽取导入不同分组的流量具有可对比性,然后让不同分组的用户看到的不同算法模型提供的结果。用户在不同模型下的行为将被记录下来,这些行为数据通过数据分析形成一系列指标,而通过这些指标的比较,最后就形成了不同模型之间孰优孰劣的结论。只要分组的流量达到一定的程度,数据指标从统计意义上就具有可比性。

不同的BTS系统会关注不同的数据指标,在淘宝搜索,有一些重要的指标是很多算法模型测试的时候关注的:

  • 访问UV成交转化率:来淘宝搜索的UV,最终通过搜索结果成交的用户占比。
  • IPV-UV转化率:来淘宝搜索的UV,有多少比例的用户点击了搜索结果
  • CTR:搜索产生的点击占搜索产生的PV的比例
  • 客单价:每个成交用户在淘宝搜索上产生成交的平均价格
  • 基尼系数:基尼系数是一个经济学名词,考量社会财富的集中度;如果社会财富集中到很少一部分富人手中的时候,基尼系数就会增大,社会的稳定性和可持续发展性就会出现问题;淘宝搜索借用了这个概念来衡量搜索带给卖家的PV展示,和点击的集中度,在保证用户体验的前提下,给更多的优质或小小而美的卖家展示的机会。

大部分时候我们都有好几个模型和功能在线上测试,我们用BTS的方式来观察测试的情况,如果提升稳定就逐渐开放给所有用户,如果没有提升,我们也能从中获得经验帮助我们更好的理解用户。

上文作者介绍:青峰,淘宝搜索算法总监

淘宝搜索和网页搜索的对比

我们平时用网页搜索引擎更多,为了让大家更清楚了解淘宝搜索的特点,这里把网页搜索和淘宝搜索的特点做个对比。

一、搜索流量的价值

淘宝上每个卖家店铺流量来源主要分成三部分:推广流量(付费广告或免费活动);老客户(直接登录、收藏等);搜索流量。由于推广活动的持续性问题,搜索流量基本上决定了一个店铺新客户来源。如果一个店铺新客户来源不够的话,在市场上会日益衰落。

目前的网页搜索引擎公司,盈利的主要来源还在搜索广告。但对于网页搜索引擎来说,不是所有的流量都有价值,例如:在百度上搜索“李湘”,估计就没有什么广告,大多是明星新闻八卦什么的。一般的网页搜索流量中,大约20%~30%的搜索词是有商业价值的(适合出广告)。淘宝搜索不一样的是,基本上99%的流量都是有商业价值的。搜索“李湘”,会出来减肥茶,搜索“林志玲”,会出来充气娃娃;在韩寒和方舟子闹得很厉害时,搜索“韩寒 VS 方舟子”也有很多个性T-shirt结果。某种程度上可以说,如果淘宝搜索流量有10亿,其价值估计相当于网页搜索流量40亿的商业价值。

在淘宝搜索上,如果要卖广告,是最好融合的。因为淘宝搜索的结果本身就是商品,广告也是商品,二者没有区别。

二、搜索的社会影响

这个和淘宝本身的社会影响相关联。现在淘宝卖家数达到800万,活跃卖家数应该在200万左右。我们假设平均每个活跃卖家背后有5个人,那么直接在淘宝上就业的人就有1000万人,如果加上其他兼职卖家、快递公司、第三方服务公司等,估计能到2000万人。每天有上亿的用户上淘宝去买东西。淘宝任何一个规则的变化,对整个社会都会有不小的影响。

2012年淘宝、天猫双十一,整个交易额达到191亿,考验的不只是淘宝、淘宝卖家、淘宝买家,还有物流快递公司、银行支付系统等。试想有一天淘宝忽然停业一天,全国有多少人都得在家打麻将了。同理,搜索的任何一个变化,都会影响淘宝卖家,通过卖家会影响到买家、第三方物流……

不知道有多少人还记得2010年7月份搜索规则的变化,已经由一个公司内部的技术变革,演变成一个社会事件。这个在本文后面会有专题介绍。

三、搜索的实时性

如果有人自己建了个网站,网页搜索引擎要是一两个星期没有收录这个网站,站长也不会太着急。但在淘宝上不一样,必须是实时或者接近实时的。卖家发布一个商品,希望几分钟后就能搜索到。因为商品是实体,卖一件少一件,价格也会有变化,卖家还会经常搞活动,如果信息更新不及时,就会误导买家,造成纠纷。这些对搜索的实时性要求非常高。

在淘宝上,每天会有上亿的商品信息发生变化,包括上架、下架、销量、价格、属性、描述的变化等。这些商品绝大部分都会在几分钟之内反应到搜索结果中去,如果要做到实时的呢? 这对技术带来的挑战是巨大的。淘宝最开始更新的周期是半个小时到40分钟,到2012年已经缩短到三四分钟之内了。当然,晚上系统做更新的时候,数据更新会稍微慢一些。

四、搜索的查全率

查全率是个专业术语。所谓查全率,就是搜索鞋子,找到的鞋子数量占总体鞋子数量的百分比。类似的术语还有相关性,相关性就是指搜索结果和搜索词是否相关。例如:搜索“做自己”,出来《做自己》这本书就算相关,出来《做自己的口才专家》就属于不相关。搜索手机,出来手机链也属于不相关。

网页搜索是会做一些消重和过滤的。我们在网页搜索时,最不希望看见的就是一摸一样的重复结果。在淘宝搜索中,我们也不希望看见太多的重复结果,但同时又希望有不同的商家可以对比,有不同的地域可以选择。对于卖家来说,如果自己店铺的宝贝因为跟其他店铺重复而不出现的话,一定会询问为什么,淘宝的客服电话很快就会打爆了。

淘宝搜索,一方面要考虑买家的体验,一方面又要考虑卖家的利益,这就需要采用很多不同的技术解决。

五、搜索的反作弊

有一项很吃香的职业,叫搜索引擎优化(SEO),他们的主要工作就是如何让制定的结果在搜索引擎中排名靠前。如果用正常手段,叫SEO,如果用一些欺骗的手段,就叫作弊。网页搜索和淘宝搜索上作弊的人都非常多,因为搜索引擎的重要,导致有太多的利益驱动。虽然都有作弊,但手段很不一样。

在淘宝搜索上是直接和交易相关,所以作弊更加疯狂;同时检测作弊的对象又是淘宝的卖家,如果算法有误杀,会导致正常的卖家受到损失,这个损失经常是这个卖家不可承受的。如何进行搜索的反作弊,也是一项很有挑战的技术。

阿基米德

淘宝搜索这几年,最大的变化有两个,一个是阿基米德,一个是个性化搜索。这是我在负责淘宝搜索期间,主导的最重要的两个项目。阿基米德的上线,奠定了整个淘宝搜索的框架,直到现在,搜索的排序算法还是基于当时建立的框架。如果说阿基米德是过去和现在,那么个性化项目则是淘宝搜索的未来。从2012年开始在个性化排序和推荐上做了很多工作,2013年也是重点。个性化以后会有专门的文章来介绍,这里只介绍阿基米德。

2010年7月8日,淘宝搜索新排序算法阿基米德上线。由于排序算法变化大,导致很多卖家的流量波动非常大。特别是靠之前规则获得很多流量的卖家,这次规则的调整,导致他们流量大幅下降,因此很多卖家开始围攻淘宝。这就是7.8事件。回忆当时的情景,我仍然历历在目。大家可以看看下面的新闻截图:

淘宝阿基米德

淘宝阿基米德新闻结果

以下内容摘选自我在2010年8月发给所有淘宝内部小二的邮件:

Hi 大家好,

想必这段时间大家从各方渠道都听到了不少卖家的声音,有新闻、有论坛、有抗议的、有拉横幅的,肯定也有卖家直接找到我们小二来询问,背后到底发生了什么?搜索规则的修改真的是像外界说的一样么?相信每个小二都有疑惑。

夜深人静,我来给大家做个详细介绍。

不是前言的背景

以前的搜索,一直是简单的原则:消保优先、相关性、橱窗推荐的三大前提下,按照下架时间排序。

存在的一些不好的现象:

1. 一个貌似对卖家很公平的原则,从实际展现数量和点击数量来看,还是被一些针对规则做了很多优化的大卖家把持着;

2. 对于消费者也没有任何公平可言,因为最重要的排序因素下架时间,消费者不关心。消费者最关心的卖家服务质量,却没考虑在内。

3. 流量浪费非常严重,不少卖家每天得到流量很大,但成交比例非常低。有的卖家经常每天上千个搜索点击流量,只有一到两单的成交,有的甚至一单都没有。

4. 很多卖家花很多心思琢磨如何给店铺增加更多的流量(不排除通过作弊等方式),但通常忽视对于买家的服务质量。

我们希望那些服务质量好的卖家,能自然得到更多的流量。服务越好,流量增长越多!

我们希望那些得到流量的卖家,如果服务质量不好,流量会越来越低!

我们希望卖家可以花更多的时间和精力在如何服务好买家,而不是挖空心思想搞流量!

于是我们有了阿基米德!

什么是阿基米德

2010年,淘宝消费者年。

每天是谁在直接接触消费者?不是淘宝几千名小二,而是淘宝几百万的卖家。如果卖家对消费者的服务越来越好了,那么消费者的体验会越来越好!

阿基米德,简单说,就是把“店铺服务质量”作为重要因素加入到搜索中来影响排序。7月8日上线阿基米德以后,目前的排序规则是:

消保优先、相关性、橱窗推荐的三大前提下,在一定时间范围内,按照店铺服务质量权重排序。

目前影响店铺服务质量参考的因素有很多,包括:是否违规、是否作弊、退款率、超时退款率、发货速度、旺旺响应速度、滞销商品率…….等。参数有几十个,只是权重不一样。

阿基米德的影响

这次调整,确实对卖家的影响比较大,应该说是几家欢喜几家愁。各方面的新闻报道,就不计其数;来淘宝抗议的卖家,也来了几波了。

这个情况下,来看看整体数据:

1 搜索带来的UV成交转化率至少提升7.942%,搜索结果点击率提升4.14%,退款率下降19%

2 今天刚收到BI同学做的全站对比分析数据:

全网UV下降明显

大家都知道6、7、8月是淡季,我不擅长做数据分析,但有一点是可以说明的:阿基米德的上线没起啥坏作用,也并不是很多抵制搜索排序改版的人说的那样。

这 次调整,对于P4P广告的收入冲击很大,上线的第一周,搜索右侧的广告收入,下降了约10%左右。主要的原因就是因为消费者使用搜索时点击搜索结果更多 了,点击广告更少了。超凡、龙飞、三多对这次变化,表现出了高度的姿态:支持搜索的改变!老陆、三丰、东邪也纷纷表示:不要担心收入下降,只要对消费者有 更好的体验,支持!

加上数据的支持,给予搜索部门同事更多的信心!

这次事情对搜索部门的影响就更加深远了,在提升消费者体验方面,可以在排序上做更多的工作。同时,也可以真正利用排序的变化,来引导卖家的行为!让搜索排序成为撬动卖家行为的支点吧!

上文作者介绍:鬼脚七

全文转自:鬼脚七微信

时间:2013-08-15 | 分类:搜索引擎 | 标签:淘宝

发表评论

电子邮件地址不会被公开。 必填项已用*标注