优酷平台算法原理及数据处理情况说明

 

为依法保障用户对算法推荐服务的基本原理、目的意图和主要运行机制的知情权和选择权,告知用户优酷平台提供的算法推荐服务基本情况,优酷平台服务提供者(或简称“我们”)特制定本《优酷平台算法原理及数据处理情况说明》,帮助用户充分了解在使用优酷平台产品或服务的过程中,了解我们如何通过利用个性化推送类、检索过滤类、排序精选类算法技术向用户提供信息或服务,充分保障用户合法权益。

一、适用范围

本说明适用于优酷平台以网站、客户端、小程序等形式,向您提供的各项产品或服务。

二、算法原理说明

1、个性化推送类算法

算法名称

优酷个性化推荐类算法

算法基本原理

为向优酷平台用户展示视听内容或服务信息,我们会收集和使用用户提供的基础信息(性别、年龄、地域等)以及在用户访问或使用优酷时的观看记录、搜索记录。我们会通过算法模型预测人群偏好特征。我们会基于人群偏好特征在优酷及其他第三方应用程序向相关人群推送可能感兴趣的视听内容及其他信息,或者商业性信息。

算法运行机制

个性化推送类算法会基于模型预测人群偏好特征,匹配人群可能感兴趣的视听内容、服务或其他信息,对展示的视听、服务或其他信息进行排序。我们会根据用户使用产品过程中的浏览行为,对推送模型进行实时反馈,不断调整优化推送结果。为满足多元需求,我们会在排序过程中引入多样性打散机制,拓展推送的内容,避免同类型内容过度集中。

如用户想管理我们为其推送的个性化内容,可以在“我的-设置-其他设置”中进行设置。

算法应用场景

优酷平台视听内容展示或服务信息展示

算法目的意图

向用户展示视听内容以及其他信息

备案编号

网信算备110108381509702220011号

2、内容过滤类算法

算法名称

优酷内容安全算法

算法基本原理

我们基于大量样本数据的分析,形成内容安全算法模型,依法对优酷平台上发布的文本、图片、音频、视频等信息内容进行识别和处置,防范违反相关法律法规规定的淫秽、色情、赌博、暴力、恐怖、教唆犯罪、欺诈、虚假、侮辱、诽谤、恐吓、封建迷信等信息的发布和传播。

算法运行机制

内容安全类算法的运行过程包括数据源接入、算法识别、审核、处置决策等。我们对优酷平台上文本、图片、音频、视频等信息,通过深度学习、知识图谱推理、时序模型和融合模型等风险分类模型进行安全风险识别,形成不同的风险置信度分级,对于高置信度的信息由算法直接完成审核,对于低置信度的信息将引入人工审核,最后完成对违规信息的处置决策。

算法应用场景

优酷平台上涉信息发布相关的所有场景,例如用户上传视频内容、发弹幕等。

算法目的意图

及时发现、处置违反法律、行政法规或违反社会公德、公序良俗的信息内容。

备案编号

网信算备110108381509705220019号

3、检索类算法

算法名称

优酷检索类算法

算法基本原理

为向优酷平台用户展示更契合检索意图的视听内容或服务信息,检索类算法将针对用户输入的搜索词,使用算法模型预测、匹配其相关可能感兴趣的视听内容或服务信息,最终完成检索结果的展示。

算法运行机制

在用户输入的搜索词后,我们将使用文本匹配的倒排索引和基于神经网络的向量匹配召回算法,根据搜索关键词特征、视频特征、用户在优酷的使用情况等对商品和服务进行召回,并结合相关性模型保障结果页展现的视频结果与搜索的关键词相关。同时,为满足用户多元需求,我们会在排序过程中引入多样性打散机制,拓展展示的内容,避免同类型内容过度集中。

算法应用场景

优酷平台搜索框等视听内容或服务的检索

算法目的意图

帮助用户快速找到想要观看的视频内容

备案编号

网信算备110108381509704220013号

4、排序精选类

算法名称

优酷排序精选类算法

算法基本原理

优酷通过对优酷平台用户浏览、搜索视频内容进行统计分析,形成相关精选榜单,并结合人群的偏好特征向用户进行推荐。

算法运行机制

对优酷搜索全量用户搜索行为信息统计,将搜索词在上一自然日的搜索量按从高到低排序,排名前30的搜索词及排名输出到前端以排行榜产品展现给搜索用户。除热搜词总榜外,还根据搜索词关联内容的类目做了细分,输出了电影、电视剧、动漫等子榜单。

算法应用场景

优酷热门搜索等

备案编号

网信算备110108381509703220017号