使用搜索质量度量来修复问题第2部分

5分钟阅读

Gale数据科学家Charlie Clo金宝搏彩票se的|

Gale的大多数金宝搏彩票产品都是围绕搜索Gale内容的用户开发的。例如,用户可能进行搜索世界历史语境对于“巴士底日”,以查找有关法国大革命的文章。提供高品质的搜索结果是接受我们的用户的护理的重要组成部分。

在一个以前的文章,我介绍了我们用来衡量产品搜索结果质量的指标。我们时刻关注这些指标,以确保我们提供了良好的搜索结果。这篇文章是关于一个案例,当指标显示我们有一个需要解决的问题。

下面是两个指标为典型的图表对立的观点在上下文:

的图表显示了这两个指标:

搜索检索率(蓝线):搜索导致至少一个检索,即,在搜索结果的点击的百分比。我们假设用户点击他们找到有用的结果,所以我们要保持的检索率很高。

零点搜索评价(红色线):有没有结果的搜索的百分比。我们假设,如果搜索没有结果,这是令人沮丧的用户,所以我们要保持零搜索率低。

事情大约上面的图表注意到的是,这是很无聊的。搜索检索水平高和零搜索率低,而且他们俩都保持稳定。虽然指标始终可以变得更好,这样的图表是我们希望看到的。

现在让我给你们看一个图表金宝搏彩票学术OneFile前段时间的一些有趣的事情:

请注意,这些行在早期是平坦的,然后搜索检索率在中间开始下降,而零搜索率开始上升。当越来越多的用户难以找到内容时,情况就是这样。

随着这种趋势的继续,越来越明显的是,这不是一个自我纠正的问题,我们需要找到它并解决它。

我们试图在搜索结果中找到一种解释这种趋势的模式。我们提出的第一个问题是,这些指标是否因为不同或相同的原因而走向错误的方向。搜索可以unretrieved(蓝线下降)或者当没有搜索结果,在这种情况下,它也是一个零搜索(红线上升),或者当有搜索结果但用户不点击任何(蓝线下降但红线稳定)。

在我们的例子中,我们查看了非零搜索的未检索搜索的子集,发现检索率保持稳定。只有当我们包含零搜索时,检索率才会下降。因此真正的问题是零搜索。

那么:是什么导致了所有的零搜索呢?我们查看了单独的零次搜索,发现大多数搜索都来自客户的发现系统,该系统向用户发送期刊内容的请求。定期搜索有一个一致的模式。在大多数情况下,搜索试图找到一篇文章的ISSN号码(即。卷号、发行号和起始页号。

与定期搜索的问题是,发现系统可以从各种来源大风之外得到他们的元数据,并有可能为那里是他们的元数据和大风的之间的不匹配。金宝搏彩票例如,对于一个给定的文章中发现的元数据可能有一个起始页码和大风可能没有起始页码。金宝搏彩票如果大风产品进金宝搏彩票行了所有四个参数搜索,他们没有所有符合相同,结果却是零搜索。

一旦我们能看到的问题是什么,很清楚如何更加妥善地处理情况。We added logic to search using all the parameters we were given, but if we couldn’t match all four, we would back down to three (publication, volume, and issue), then down to two (publication and volume), and so on. We might not be able to take the users to the exact article, but we could get close enough for them to navigate to the content they wanted.

变更后,这里就是指标样子:

你能猜出这种变化是在什么地方发生的吗?这是正确的:搜索检索率和零搜索率都迅速恢复到正确的方向。

也许你会问,是效果更好的为用户?是的,零个搜索下去,但如果结果是不太具体,你怎么知道他们是什么好?

我们知道这些结果有帮助的原因是,不仅没有搜索下降,而且搜索检索也上升了。当用户根据我们的新逻辑获得结果时,用户就会检索它们。

这就是为什么数据分析很有趣的例子。我们想通了什么度量我们需要看看我们是否服用我们的用户的关怀,监测指标的风吹草动,并在出现问题的时候跳下,我们发现它。

请继续关注每月的第三个星期二更多科技博客周二!


关于作者


查理关闭在大风数据科学家和前任分析师在大风的搜索引擎团队。金宝搏彩票他的研究包括对用户行为的研究,以提高产品的大风。金宝搏彩票

发表评论