Blog

Keep up to date with the latest news

如何评价智能助手的好坏?小布助手是怎样炼成的?

分享嘉宾:李二敏 OPPO

编辑整理:吴祺尧 加州大学

出品平台:DataFunTalk

导读:近几年来,评测开始频繁出现在人们的生活中,大家对“评测”这个词的认知也越来越深刻。比如买房、买车、选购数码产品等,人们都会去从某些维度对物品进行对比,最终得出一个评估结论。互联网产品与日常商品的评测同时具有相同点和不同点。本次分享的内容是小布助手的评测体系。

具体将围绕以下几部分展开:

评测概念及评测目的

评测五要素详细介绍

评测通用流程

小布助手评测体系

总结与展望

01

评测概念及评测目的

首先和大家分析评测的概念和目的。

评测是以目的为导向的,涵盖的范围可大可小。我们可以将评测定义为评估+测量,它通过一定的规则对观察到的现象做出量化描述。

日常生活中的商品评测和互联网产品以及人工智能评测有相同点和不同点。相同点是方法论,它是可以互相复制的。方法论可复制指的是,不管是商品评测还是互联网产品评测,我们都要考虑评测的样本、维度以及方法。评测的不同点有很多,主要有以下三点:

互联网产品之间需求场景的差异较大。互联网产品评测的场景很多,比如搜索任务分为百度、头条这类综合性搜索,淘宝、京东这类购物型搜索,以及其他一些垂类搜索(美团、携程等);人工智能产品如语音助手的评测,它在手机上、在电视上以及在车载环境下的场景需求也各不相同。

互联网产品或者人工智能产品属于海量数据的评测,样本选取至关重要,结论指标更可量化。

商品评测都有一定的商业目的,但是互联网产品或者人工智能产品其实很多时候不会关注商业化,也不会去关注产品策略或者算法是怎么样的,而是优先关注用户体验。评测一切以用户价值为依归,来全面提升用户的体验。

总的来说,评测的目的有两个。首先,从用户角度通过大量的样本发现用户感知的共性问题,为产品策略和算法优化提供思路,并推动落地。其次,评测迭代优化效果,为上线提供依据,并预估出上线存在的风险点。

02

评测要素

评测的五大要素:评测方式、数据选取(抽样方法)、评测的维度及对应的打分规则、评测标注打分(评测人员对query的需求和结果判断)以及评测报告。下面,针对这五个要素进行详细介绍。

1. 评测方式

下面通过搜索行业和语音助手行业分别来介绍常用的评测方式。

① 搜索行业常用评测方式

常用的评测方法有:

整体满意度(Per-page),即整个页面所有结果的整体用户满意度,输出指标是满意度均分。

对比评测(SBS),主要是评双方的差异点,输出指标是胜出率。注意,开展此类评测,要保证评测对象具有可对比性。

单条打分(PI),即针对query下url结果页分别进行打分,按照结果的位置权重进行加权,最后得出query的得分,输出指标是NDCG,这种评测方式一般用于相关性排序。

最后一种方式是召回率和准确率的评测,主要目的是对比人工评判和实际算法的预测效果,输出的指标是召回率、准确率以及F值。

② 语音助手行业常用评测方式

语音助手是一个语音交互系统,它有四大核心瓶颈:唤不醒、听不清、听不懂和说不清。针对这四个瓶颈,目前行业内有一些比较通用的评测方法。

唤不醒,开展唤醒评测,一般是在语音实验室内开展的,输出指标是不同场景下的唤醒率以及误唤醒率。

听不懂,开展意图准召评测,和搜索一样,主要目的是对比人工评判和实际算法的预测效果,输出的指标是召回率、准确率以及F值。 听不懂,还开展满意度评测,评测结果对用户的满足程度,会考虑内容是否正确、丰富,交互是否更人性化等等。

说不清,开展TTS评测,评测时会考虑语音合成的自然度、清晰度、拟人度等,输出的指标是MOS得分。

2. 数据选取

不管是搜索评测还是语音助手评测,抽样方法都可以分为四类。

首先是随机抽样,包括用户日志随机和用户随机。用户日志包括文本日志和音频日志,比如语音助手主要的数据就为音频日志。我们从这些日志中随机选取合适的评测数量,这种方法的优点是能完全反应用户需求的真实分布,缺点是无法较好地发现长尾问题和局部问题。

第二种是去重抽样,将PV全部转换为1,再进行随机抽取日志的方法,这种抽样方法一定要说明情况,避免以偏概全。去重抽样的优点是能更好地覆盖长尾查询,缺点是数据分布与线上用户的真实需求分布不一致。

第三种抽样方法是分层抽样,根据用户日志分为高频、中频和长尾日志,按照比例分别进行抽样。具体高频、中频、长尾的定义与产品有很大关系,并不能说PV超过一个值就是高频日志。它的优点是能够对各个分段进行有针对性的分析,比如产品经理想要看线上整体效果就使用随机抽样,而他想要重点优化高频交互的效果,那么我们就要分层抽样。但它的缺点是数据分布与线上用户的真实需求分布不一致。

第四种抽样方法是垂直抽样。在用户日志中,我们会针对一些特性进行局部抽样。我们可以按领域进行抽样,如想要对闲聊进行评测,我们抽取的query就是闲聊领域的query。垂直抽样的优点是能更好地覆盖和发现局部类型的问题,缺点是无法从整体上说明问题。

3. 评测维度和规则选取

根据产品的定位以及评测的目的,我们可以选取不同的评测维度。

第一个维度:返回的结果不能有违反国家法律法规、影响用户情绪的虚假错误信息,比如黄赌毒等。

第二个维度:垃圾、作弊、低质量信息也是我们重点关注的一个维度。垃圾包括死链等,作弊比如含虚假链接或者堆砌内容等,低质量指的是内容质量不高。这些情况在搜索引擎和语音助手中都较为常见。

第三个维度:意图理解就是预判用户query的真实需求。我们必须理解用户的意图才能给出相关的、高质量的内容。如果意图理解出现了较大偏差,给出的结果就算内容质量再好,也会严重影响用户体验。

第四个维度是相关性,它是一个好的结果最基本也最重要的要求。主要是指用户需求和给出的结果是不是说的是一回儿事。

第五个维度是时效性,要求返回的结果是一个及时的结果,特别对于有时效性需求的query,例如新闻、更新速度快的产品、周期性事件等很重要。第六个维度是排序,主要是在搜索评测中关注的维度。由于搜索结果是一个自上而下浏览的产品形态,质量越高的结果排序应该更加靠前。

第六个维度是多样性,在搜索和语音助手中都会关注,比如一条query最好返回满足不同需求的结果。比如query“陈情令”,多样性结果返回应包含剧情介绍、贴吧讨论等。在语音助手中,多样性指的是语音助手会返回不同有趣的答复。

第七个维度是权威性,在搜索引擎中体现得更多,搜索结果来自于官方网站或者知名网站,特别是一些询问医疗健康、法律法规方面的问题,那么query的结果最好能给出权威性高的网站,其结果肯定比个人撰写的结果要好。

第八个维度是便捷性,是指找到目标信息需要花费的时间和成本,是搜索和语音助手中都会关注的维度。

第九个维度是丰富程度,主要关注评测结果内容的丰富情况。

前提包含三个方面:

首先,制定评测规则的前要了解、熟悉产品。比如小布助手,在制定小布助手相关的评测方案和规则时,我首先要知道小布有多少技能,每个技能的呈现形式是什么样的,和小布助手有同样定位的竞品有哪些,它们有什么样的技能,它们的呈现形式是什么样的。这些都是在制定评测方案和规则前需要了解的。

其次我们还需要了解产品的用户层,即用户画像。因为不同用户对于一个query的需求有可能也是不一样的,或者在不同场景下,同一个query需求也会有很大的不同。

最后是了解评测目的,为什么要做评测,希望达到什么样的预期,做了什么样的优化或策略。

评测的思考方向有:

评测维度,即确定评测需要关注的维度。

档位划分,行业常用的档位有两档、三挡、四挡、五档等,

档位的定义,即给出不同档位的情况的详细说明,使得评测标注人员有参考依据,保证即使不是同一个人做的评测,其评测结果也不会有很大的变化,得出的结论能基本保持一致。

模糊地带处理原则,我们一定要明确基线和分界线,对于模糊地带也应尽量降低其带来对整体结论的影响。例如在搜索场景下,我们可以通过用户的点击数据来确定界限,而像语音助手,我们可以通过用户的后续行为分析以及用户调研来确定用户query真实需求。

4. 评测标注打分

评测标注打分主要分为两部分:用户query需求判断和结果需求满足判断。query需求判断有四种方法。

第一种是直接理解法,适用于描述得比较清楚的query,我们直接可以按照query的字面意思理解,但是不能遗漏query的限定元素,比如“陈情令的分集剧情介绍”中“分集”的限定元素。

第二种是日常经验法,这源于大部分用户的需求,和日常生活比较贴近,我们可以根据常识来判断query的需求。从这里也可以看出,选拔评测标注人员时,需要挑选知识面比较广且评测经验比较丰富的候选人,这样可以提高评测效率和质量。

第三种是深入思考法,有一些query由于输入方法比较复杂或者query描述不清楚,我们无法从字面意思直接理解用户的真实需求,就需要进行深入的思考和分析。

最后一种方法是搜索一下法,即深入思考之后还是无法理解用户需求,那么不管是做搜索评测还是语音助手评测,可以使用头部搜索引擎去观察多家引擎给出的结果。通过对比之后,大概就可以对query有一个比较准确的理解。

query需求判断之后,我们需要判断结果是否满足需求。首先,我们评判结果是否可以提供用户想要找的信息,即从相关性上来说是否满足了需求。第二点,我们评判结果是否满足所关注的维度,然后根据满足程度对应档位划分规则,进行标注打分。

5. 评测报告

评测报告需要包含三大要素。首先,我们需要考虑报告的阅读对象。比如评测报告是给上级做汇报的还是针对产品经理和算法部门的,根据不同的阅读对象,报告的呈现内容不同。比如根据阅读对象,评测数据中详细的统计信息和提炼的问题,也是不一样的。但不管阅读对象是谁,我们必须服从One-page原则,报告的首页一定要把最重要的内容全部展示出来。最重要的内容有:主要的指标、重要统计结论、重点问题、评测的背景信息等。评测的背景信息有评测的目的、评测的方法、评测的维度、评测的指标、对应的计算公式等。

03

评测通用流程

首先,需要了解评测的具体需求,沟通需求时应该拉上相关的业务方负责人来沟通需求,之后评测方根据需求内容输出评测方案初稿。初稿包括前述评测背景中所应该包含的所有内容。初稿形成后,需要再一次拉上相关业务方进行讨论,形成终稿。之后,还需要做数据和环境的准备,然后进行评测试标。试标没有问题才能开始正式评测,否则需要根据问题点回退到相应环节重新讨论,有规则不合理或者未覆盖也需要予以修正。正式评测后需要进行评测质检,质检达标后进行数据统计和报告输出。到这里是评测的结束点,也是产品优化的起点,因为评测的主要目的是为了提升用户体验,评测中发现的问题点和需求点,需要进行不断的优化迭代。

04

小布助手评测体系

接下来,详细介绍一下OPPO小布助手的评测体系。先介绍一下小布:

小布助手是OPPO智能手机和IoT设备上内置的AI助手,是OPPO面向未来5G+万物互融时代的思考和具体战略布局。它具备“无需安装,唤醒即用”的覆盖能力,实现“解放双手,高效操作”的新形态人机互动;拥有丰富的唤醒方式,可轻松实现内容的语音直达服务。目前,小布助手可以支持的技能有上百种,包括比如:生活服务、出行服务、信息查询、系统操作和娱乐服务等。小布助手的能力仍在不断发展,针对这些能力,我们需要制定完整的评测体系,用于评估对用户体验的影响,并不断优化体验。

整体的评测框架是围绕语音交互系统的四个核心瓶颈来建设的。目前评测涉及的产品包括手机、手表、电视等。随着OPPO互融布局的展开,评测也会涉及到越来越多的产品。

小布助手现在还支持粤语模式,所以也会开展针对性评测,保证粤语交互效果。

针对“听得懂,答得好”的环节,我们需要进行自然语言处理相关的评测以及资源引入评测。

评测包括满意度评测、对比评测、用户session满意度评测等。满意度评测,主要评估用户首轮query对应结果的质量。对比评测,主要是评估和小布助手有相同定位的友商产品与小布的差异点。用户session满意度评测,评估用户整个交互过程的满足程度,会把交互全链路考虑进去。还有两类评测,意图的召回率和准确率评测以及上线前的GSB评测。召准率,行业通用,就不多说了,GSB评测是针对技能在算法、资源、产品形态等等上线前和线上版本的效果对比进行的评测。上线前提是,评测结果正向收益大于负向收益,否则改进后的技能专项模型是不能上线的。

资源引入评测主要是观察引入资源的效果。根据不同的资源,评测所关注的维度也是不一样的,这里我就不再一一赘述了。

评测体系的最后一部分是“说得清,说得美”,它用来评估小布助手在各个音色上存在的问题点及与竞品存在的差异点。除了行业通用的MOS评测,根据评测需求和效率,也会采用推荐式评测和只关注对错的客观评测方式。

05

总结与展望

任何一个评测体系都不是一成不变的,它会随着用户需求、产品迭代进行方案的升级,用于发现新问题、指导优化思路。

06

精彩问答

Q:ASR和TTS的评测指标的定义和标准是什么?

Q:相关性和时效性评测都是由人工进行测评的吗?

A:是的。分享中所涉及的都是人工评测,所以我们一定要在制定评测规则的时候就把它阐述清楚,减少人为主观因素的影响。比如相关性,通过指定详细的规则来定义强相关、弱相关和不相关,同时会使用case进行举例说明,帮助评测人员进行理解。时效性的评测可以使用“搜索一下”的方法,在搜索引擎中观察query对应的最新结果是什么,当然我们也会去看竞品的结果,进行综合判断。

Q:搜索评测中,准召指标会做全链路的吗?满意度和PI是不是都是针对全链路的最终结果?PI评测时是对各维度设计评测规则还是使用其他方法进行设计?

A:搜索评测中的准召一般都是按照垂域来进行的,全链路的做法比较少见。满意度是根据定义来进行测评的,比如只关心Top 3的指标,那么满意度就和前三条结果有关,最后得出对应的打分结果;如果关心Top10的指标,那么就要把前十条结果都考虑在内。PI也是遵循一样的原则,目前业内通常选取前三条或者前四条。PI会将前三条或者前四条结果分别进行打分,然后按照计算公式使用权重计算它们的综合得分。

Q:我们如何从这么多评测指标中评价哪个模型是最优的?所有维度都需要进行评测吗?如果不是,我们应该如何选择需要的评测维度?

A:我们的评测体系是覆盖了所有核心瓶颈设计到的维度,但是当你做评测的时候,就要通过待评测的模型和评测目的来选取不同的评测方法。比如现在要做闹钟意图模型的优化评测,只需要评测闹钟模型输出的意图和用户真实需求是否有差异,它的模型优化效果是否比线上版本好。针对评测维度,有的维度是搜索行业单独关注的,有的维度是语音助手行业单独关注的,有的维度是所有行业都会关注的,如相关性。评测的时候需要根据评测目的选取不同的维度,比如现在要关注闲聊的多样性,那么需要在结果的相关性得到保证的情况下,再来看结果的多样性是不是满足需求,这时候评测关注的维度是相关性和多样性,并不需要时效性。如果现在评测的是信息查询,那么重点关注的维度应该是相关性和时效性。根据不同的评测目的以及评测产品,我们所关注的维度有所不同。

Q:ASR方言评测是不是需要招聘专业的方言人员?TTS的MOS打分是长期评测任务还是根据算法需求来制定的?同一条音频评测时需要几个人一起打分?

A:方言评测肯定是需要懂这个方言的评测人员才能完成的。TTS的MOS打分评测是根据摸底和算法需求综合来进行的。比如算法部门有优化模型需要上线,那么我们就需要开展评测。如果他们没有新模型上线需求,那么我们会定期(如两个月或一个季度)进行线上的摸底评测。打分的时候,需要至少五个人对同一条音频进行打分。

Q:小布助手评测体系中最重要的指标是哪几项?

Q:小布助手的丰富性维度如何测评?

A:首先,保证丰富性的同时我们应该权衡用户的需求,所以主观性比较强。我们需要保证回答不能过于简短。与此同时,我们还关注小布助手是否“言之有物”,回答不能阐述一个虚无的概念,而是一定要涉及某一具体事务,这具有一定的主观性,所以在制定规则的时候不仅要考虑到回答的长度,还要考虑“言之有物”,进而判断回答的丰富程度。

今天的分享就到这里,谢谢大家。

在文末分享、点赞、在看,给个3连击呗~

分享嘉宾:

关于我们:

DataFun:专注于大数据、人工智能技术应用的分享与交流。发起于2017年,在北京、上海、深圳、杭州等城市举办超过100+线下和100+线上沙龙、论坛及峰会,已邀请近1000位专家和学者参与分享。其公众号 DataFunTalk 累计生产原创文章500+,百万+阅读,12万+精准粉丝。

🧐 分享、点赞、在看,给个 3连击呗! 👇