以知乎读书会为例,你的显式行为是点击、收听、评分、评论等等;隐形行为则是收听完成度、是否有拖拽快进、页面停留时长等等。通常,由于显式行为不够丰富,我们往往需要使用隐式行为来扩充我们对于用户的理解。完播率、是否快进、详情页停留时长等指标,都会被系统统计,用来判断你是否真的喜欢某个人的讲解、喜欢某本书的内容。

在内容画像的部分,可以看到一篇文章通过文本分析进行了一级和二级分类,并抽取出文章内的关键字、实体词,进一步的还会通过聚类的方式,将这篇文章与其相似的内容聚成一个簇类。之所以会有聚类,是因为专家系统的分类体系一定是对于变化不敏感的,响应不及时的,而聚类能够挖掘出更多内容的隐含信息。在用户画像的部分:(摘录自今日头条推荐算法原理全文详解——曹欢欢博士)内容画像和用户画像,是一个相互影响的循环系统。

内容画像决定人的画像,自然是最容易理解的。在音乐场景下,你收听、收藏、评分了很多爵士类的音乐,那么系统就会判定为你是一个喜欢爵士音乐的用户。在读书的场景下,你阅读、收听了哪些书籍,哪些书籍听完了、哪些书籍重复收听了很多遍,都会影响系统中,你的用户画像。因此,“你的选择决定你的画像”可以说丝毫不为过。而反过来,人的画像也会影响内容的画像。

我们可以看作是基于用户的行为,对内容做出的后验投票。在一个大体量的视频上传体系里,我们基本放弃了依赖人工打标签的方式,而转而利用用户的播放行为来试图猜测内容属于哪一类。一个典型的Case:死神来了。看标题的文本信息,最大概率就是一部电影,但事实上观看这个视频的大面积是喜欢猎奇类视频的用户,深挖内容才会知道,这其实是一个车祸视频集锦。

二、协同过滤,应用群体智慧如前所述,标签是我们对事物的抽象理解,那有没有一种方式能够让我们放弃标签呢?以人的行为来标记内容,这就是协同过滤的基础思想。举一个生活中的场景:初次为人父母,“无证上岗”的新手爸妈们内心是激动而又惶恐的。打听,成了他们育儿的重要法宝之一。“你家宝宝用的是什么沐浴液啊、你们有没有上什么早教班啊…”亲子群中,无时无刻不在发生这样的讨论,这样的讨论也构成大家后续消费决策的主要因素之一。

这种基于人和人之间的相互推荐固然是弱社交关系分发的一种形态,但是促成大家有价值信息交换和购买转化的,其实是人和人之间的相似点:为人父母、拥有相似的价值观和消费观。把用户的消费行为作为特征,以此进行用户相似性或物品相似性的计算,进行信息的匹配,这就是协同过滤(Collaborative Filtering)的基础思想。

协同推荐可以分为三个子类:基于物品(Item-based)的协同基于用户(User-based )的协同基于模型(Model-based)的协同1.基于用户的协同即切合了上面的例子,其基础思路分为两步:找到那些与你在某一方面口味相似的人群(比如你们都是新手爸妈,倾向于同一种教育理念),将这一人群喜欢的新东西推荐给你。

2.基于物品的协同其推荐的基础思路是:先确定你喜欢物品,再找到与之相似的物品推荐给你。只是物品与物品间的相似度不是从内容属性的角度衡量的,而是从用户反馈的角度来衡量的。使用大规模人群的喜好进行内容的推荐,这就是在实际工程环境里,各家公司应用的主流分发方式。3.基于模型的协同是应用用户的喜好信息来训练算法模型,实时预测用户可能的点击率。

比如,在Netflix的系统中就将受限玻尔兹曼机(Restricted Boltzmann Machines, RBM)神经网络应用于协同过滤。将深度学习应用于基于模型的协同,也成为了业界广泛使用的方式。以协同的方式,通过用户行为的聚类发现许多隐层的连接。以读书会的场景为例,我们邀请不同的名家来领读书籍。

从领读人的角度,更容易直观的将同一领读人的作品视作一个聚类,比如马家辉老师领读的《对照记》、《老人与海》两本书,通过人工预判的前置规则,我们很容易将这两本领读书音频推荐给同一类用户。但是,通过协同的方式,我们会发现喜欢马家辉老师领读作品的用户,同时也会喜欢杨照老师领读的《刺杀骑士团长》一书。这种联系,是很难通过标签信息发现的,只有通过用户的行为选择,才会建立联系,提升内容和用户之间连接与匹配的效率。

 2/6   首页 上一页 1 2 3 4 5 6 下一页 尾页

文章TAG:引爆  趋势  报告  内容  
下一篇