天津金融资产交易所

400-176-1818

客服热线(9:00-18:00)

专业的声音 | 创建智能推荐系统 发挥信息撮合优势

发布日期:2020年09月11日 点击:

专业的声音.jpg

本文作者:天津金融资产交易所 李鸿菲

前言:

随着科技的进步、时代的发展,人类面临的主要问题已经从信息资源匮乏转变成信息资源泛滥。信息从未像现在这般触手可及。但伴随而生的问题是,我们很容易就被淹没在信息的汪洋大海里。因此,我们需要某种工具来帮助过滤冗余信息。那么智能推荐系统的魅力究竟是什么呢?于用户而言,智能推荐系统犹如“智能”过滤器,帮助他们快速找到心仪之物。于企业而言,推荐系统以内容为驱动,为企业创收。

一、什么是智能推荐系统

对于智能推荐系统相信大家已经不再陌生了,现在它已经在内容分发平台、电商、广告、音视频等互联网产品中随处可见。

1599813927016070624.png

1、为什么越来越多产品需要做推荐系统?

n 信息过载

互联网上每天都在产生海量的信息,用户想要迅速和准确地找到他们感兴趣的内容或商品越来越困难。如果用户的目标明确,他可以使用搜索(其实搜索也是有关键字的推荐、推荐是无关键字的搜索),但很多时候我们的用户是没有明确目标的。这时候如果产品能够高效匹配用户感兴趣的内容或商品,就能提高用户体验和粘性,获取更多的商业利益。

n 长尾效应

绝大多数用户的需求往往是关注主流内容和商品,而忽略相对冷门的大量“长尾”信息, 导致很多优秀的内容或商品没有机会被用户发现和关注。如果大量长尾信息无法获取到流量,信息生产者就会离开平台,影响平台生态的健康发展。

2. 认识智能推荐系统

推荐系统定义:推荐系统是人与信息的连接器,用已有的连接去预测未来用户和物品之间会出现的连接。

推荐系统本质上处理的是信息,它的主要作用是在信息生产方和信息消费方之间搭建起桥梁,从而获取人的注意力。

世界是一个数字化的大网,从人类角度来看里面只有两类节点:人和其他。万事万物有相互连接的大趋势,比如:人和人倾向于有更多社会连接,于是有了各种社交产品;比如:人和商品有越来越多的消费连接,于是有了各种电商产品;比如:人和资讯有越来越多的阅读连接,于是有了信息流产品。

一个完整的推荐系统通常由以下部分组成:用户端前台展示、后台日志系统、推荐算法引擎。

1599813974078020721.png

n 前台展示:就是你在app或网页上看到的推荐、猜你喜欢、你的个性化歌单、经常一起购买的商品等部分展示的内容。

n 后台日志系统:用户数据、用户行为数据、内容数据等日志数据采集、存储、清洗和分析,从而建立画像体系,包括用户画像和物品画像。

n 推荐算法引擎:各种算法模型、模型训练配置、推荐效果评估体系。

二、智能推荐系统对企业的意义和作用

信息搜索是根据和群体行为相关的权重排序信息,带有任务的用户寄希望能快速搜索到感兴趣的内容之后再深入阅读,再带着新的任务继续搜索,而现实的情形是个体用户不得不调整关键词反复搜索处于长尾的信息。 

1599814012462066472.png

随着信息的快速增长,信息重复和信息过多导致的被动获取的信息过载,通过搜索引擎主动获得高质量的信息也会花费更多的成本,推荐系统是解决这些问题最有潜力的方法,其作用在于:

Ø 帮助用户快速发现感兴趣和高质量的信息,提升用户体验。

Ø 增加用户使用产品时间。

Ø 减少用户浏览到重复或者厌恶的信息带来的不利影响。

Ø 提供个性化信息,信息的推荐更为精准。

三、如何构建智能推荐系统

1. 用户画像

用户画像,简单来讲,就是我们给用户打上的一系列的标签。它的应用非常广泛,在互联网产品的任何一个领域,任何一种实现用户个性化的功能,都需要用到用户画像。本文只涉及推荐系统的用户画像体系。

(1) 产品经理定性用户分析

设计产品功能时,会对用户是谁进行描摹。如:目标用户群体的人口属性,社会背景,使用习惯等信息。这种用户画像主要描述用户是谁,以便做好功能定位。

如下图中的定性用户画像分群: 

1599814059616081870.png

(2) 数据分析用户画像

分析用户行为,用户进行聚类行为分析。如:数据分析师可能会给出,观看电商直播的男女比例,得出女性用户更喜欢看我们的电商直播这样的结论。

(3) 推荐系统用户画像

为建立个性化功能,用各种办法给用户大规模打上几万甚至几千万个标签。这种标签不仅仅有偏好,还有偏好程度值。

本文所指的用户画像,仅仅涉及第三种情况。一般地,推荐系统的用户画像长成这个样子:

1599814091499016763.png

推荐系统的用户画像,一般包括用户基础信息和偏好信息。而偏好画像是重点,数量上占了推荐系统用户画像的绝大多数,是我们召回和模型训练的基石。

因为机器跟人不同,一个词“中国”对于人来说是有意义的,对于机器只是一个汉字编码。因为用户画像,为了能让机器计算,需要带上概率值或者偏好值(权重值)等。

我们接下来就聊一聊,在推荐系统中,这种带了一些列数字的用户画像怎么构建出来的。

(4) 用户画像的用法

推荐过程分为:召回、初排和精排三个阶段。用户画像主要用在召回和初排两个阶段。

1599814120926040661.png

召回阶段使用用户画像,主要是通过用户画像召回相似的物品。比如一个短视频APP上,用户海贼王偏好值比较高,就可以针对海贼王进行内容召回。

初排阶段使用用户画像,是在模型上使用的。模型将用户画像数据作为一部分的特征值,用于模型的离线训练或者实时模型更新。

(5) 用户画像的分类 

1599814150170032522.png

其中:

n 基础用户画像

Ø 人口统计学标签:用户的性别,年龄,地区等信息。

Ø 行为特征标签:用户在互联网平台的注册,活跃,付费,浏览等方面的行为记录产生的用户标签。

Ø 性格标签:豪爽大方,精打细算,冲动消费等类型标签

n 偏好用户画像

Ø 长期偏好标签:用户对较长时间内,几个月甚至是几年内,对某类事物的稳定偏好。

Ø 短期偏好标签:用户最近较短时间内,七天内甚至是几分钟内,对某类事物的偏好。

Ø 泛化偏好标签:众多的用户偏好中,不同的偏好之间有关联性或者相似性,就像啤酒和尿布那样。用户对啤酒有过直接的行为,但对尿布还没有,那么尿布可能是他的泛化偏好。

以上的五小分类中,前面两类只占了用户标签数量的很小一部分。而推荐系统中,数量最为庞大的要数偏好类的标签了。平台有多少个物品标签,就会产生多少偏好标签。另一方面,偏好类的标签的产生,依赖于物品标签。因为用户对物品的偏好程度,是通过他对平台物品的曝光,点击,购买等行为计算出来的。

2. 推荐算法                                                                                                                       

推荐系统里最经典的算法非协同过滤莫属。协同过滤又称基于领域的算法,核心在于协同,互帮互助。其又可以分为两类:基于用户的协同过滤算法(UserCF)、基于物品的协同过滤算法(ItemCF)。

(1)基于用户的协同过滤算法(UserCF)

当一个用户需要个性化推荐时,可以先通过用户的相似度计算找到和他有相似兴趣的其他用户,然后把那些用户喜欢而他没有听说过的物品推荐给他,这种方法称为基于用户的协同过滤算法。

1599814183754023569.png

如用户A曾经看过《增长黑客》、《流量池》和《原则》,用户B曾经看过《增长黑客》和《原则》,当我们给B推荐时,推荐系统计算出A和B的相似度比较高,而A曾经读过的《流量池》用户B没有读过,因此就将《流量池》推荐给B用户,这就是经典的基于用户的协同过滤。

由上面的描述可知,基于用户的协同过滤算法主要包括两个步骤:

①找到和目标用户兴趣相似的用户集合;

②找到这个集合中的用户喜欢的,且目标用户没有听说过的物品推荐给目标用户。

(2)基于物品的协同过滤算法(ItemCF)

介绍基于物品的协同过滤之前,先来看下基于用户的协同过滤可能带来的问题。

l 用户数据量比较大时,需要计算的用户之间的相似度会比较多,计算量大。

l 构建用户向量时是使用用户对已消费过的物品的评分/行为来构建的,用户的兴趣是会随时间改变的,导致计算相似用户的频率较高。

l 数据比较稀疏,用户和用户之间有共同的消费行为实际上是比较少的,而且一般都是一些热门物品,对发现用户兴趣帮助也不大。

l 基于物品的协同过滤算法,给用户推荐那些和他们之前喜欢的物品相似的物品。 

9.png

用户A、B和C分别喜欢的物品如图所示,则计算物品2与物品1的相似度的公式为:

①物品2与物品1的相似度=同时喜欢物品1和物品2的用户数/喜欢物品1的用户数=2/3;

②物品3与物品1的相似度=0;

③物品4与物品1的相似度=1;

④如果对一个喜欢了物品1的用户D进行推荐,则推荐的优先级为4>2>3。 

基于物品的协同过滤算法主要包括的步骤:

①计算物品之间的相似度;

②根据物品的相似度和用户的历史行为给用户生成推荐列表。

以上只是协同过滤算法的基本原理,现实中的算法模型要远比这个复杂,而且很少采用单一模型,基本是组合模型。我也是刚刚才开始做推荐系统,至于更为复杂的矩阵分解、基于机器学习的推荐算法等后续我自己搞明白再单独成文分享给大家。

3、推荐系统的冷启动

对于很多没有大量用户数据的产品来说,如何在这种情况下设计推荐系统并且让用户对推荐结果满意,从而愿意使用推荐系统,就是冷启动的问题。

冷启动问题主要分两大类:

(1)用户冷启动

用户冷启动主要解决如何给新用户或者不活跃用户做个性化推荐的问题。当新用户到来时,我们没有他的行为数据,所以也无法根据他的历史行为预测其兴趣,从而无法借此给他做个性化推荐。

(2)物品冷启动

物品冷启动主要解决如何将新的物品或展示次数较少的物品推荐给可能对它感兴趣的用户这一问题。

一般来说,可以参考如下方式来解决冷启动的问题:

①利用用户注册时提供的年龄、性别等数据做粗粒度的个性化推荐;

②利用用户的社交网络账号登录(需要用户授权),导入用户在社交网站上的好友信息,然后给用户推荐其好友喜欢的物品;

③要求新注册用户在首次登录时选择一些兴趣标签,根据收集到的用户兴趣信息,给用户推荐同类的物品;

④给新用户或不活跃用户推荐热门排行榜,然后等到用户数据收集到一定的时候,再切换为个性化推荐。

 4、评估推荐系统的效果

推荐系统推荐质量的高低可以通过如下指标进行评估,作为推荐系统的反馈结果他们也是算法模型迭代优化的依据。这些指标有些可以定量计算,有些只能定性描述。

 (1)预测准确度

准确度表现在用户对推荐内容的点击率,点击后的各种主动行为(购买、分享等),停留时长等。

(2)覆盖率

覆盖率是描述一个推荐系统对物品长尾的发掘能力。最简单的定义是,推荐系统推荐出来的物品占总物品的比例。

(3)多样性

良好的推荐系统不仅仅能够准确预测用户的喜好,而且能够扩展用户的视野,帮助用户发现那些他们可能会感兴趣,但不那么容易发现的东西。

比如:你在某个电商网站买了一双鞋子,然后你每次登录这个网站他都给你推荐鞋子,这种情况你就会对推荐系统很失望,这就是典型的不具备多样性。假如知道了用户的喜好,推荐系统大部分给他推荐感兴趣的,小部分去试探新的兴趣是更优的策略。

(4)新颖性

新颖的推荐是指给用户推荐那些他们以前没有听说过的物品。

(5)惊喜度

如果推荐结果和用户的历史兴趣不相似,但却让用户觉得满意,那么就可以说推荐结果的惊喜度很高。与新颖性的区别是推荐的新颖性仅仅取决于用户是否听说过这个推荐结果。

(6)信任度

如果你有两个朋友,一个人你很信任,一个人经常满嘴跑火车,那么如果你信任的朋友推荐你去某个地方旅游,你很有可能听从他的推荐,但如果是那位满嘴跑火车的朋友推荐你去同样的地方旅游,你很有可能不去。这两个人可以看做两个推荐系统,尽管他们的推荐结果相同,但用户却可能产生不同的反应,这就是因为用户对他们有不同的信任度。

(7)实时性

推荐系统的实时性,包括两方面:一是实时更新推荐列表满足用户新的行为变化;二是将新加入系统的物品推荐给用户。

(8)健壮性

任何能带来利益的算法系统都会被攻击,最典型的案例就是搜索引擎的作弊与反作弊斗争。健壮性衡量了推荐系统抗击作弊的能力。

 结语:金融服务的智能化潮流,不可逆转。智能推荐系统,在未来金融服务中的角色将会越来越重要。


公司股东