优酷算法推荐服务公示
优酷信息检索算法
算法名称 | 优酷信息检索算法 |
算法类型 | 检索过滤类 |
备案编号 | 网信算备110108381509704220013号 |
算法基本原理 | 为向优酷平台用户展示更契合检索意图的视听内容或服务信息,检索类算法将针对用户输入的搜索词,使用算法模型预测、匹配其相关可能感兴趣的视听内容或服务信息,最终完成检索结果的展示。 |
算法运行机制 | 在用户输入的搜索词后,我们将使用文本匹配的倒排索引和基于神经网络的向量匹配召回算法,根据搜索关键词特征、视频特征、用户在优酷的使用情况等对商品和服务进行召回,并结合相关性模型保障结果页展现的视频结果与搜索的关键词相关。同时,为满足用户多元需求,我们会在排序过程中引入多样性打散机制,拓展展示的内容,避免同类型内容过度集中。 |
算法应用场景 | 优酷平台搜索框等视听内容或服务的检索。 |
算法目的意图 | 帮助用户快速找到想要观看的视频内容。 |
优酷个性化推荐算法
算法名称 | 优酷个性化推荐算法 |
算法类型 | 个性化推送类 |
备案编号 | 网信算备110108381509702220011号 |
算法基本原理 | 为向优酷平台用户展示视听内容或服务信息,我们会收集和使用用户提供的基础信息(性别、年龄、地域等)以及在用户访问或使用优酷时的观看记录、搜索记录。我们会通过算法模型预测人群偏好特征。我们会基于人群偏好特征在优酷及其他第三方应用程序向相关人群推送可能感兴趣的视听内容及其他信息,或者商业性信息。 |
算法运行机制 | 个性化推送类算法会基于模型预测人群偏好特征,匹配人群可能感兴趣的视听内容、服务或其他信息,对展示的视听、服务或其他信息进行排序。我们会根据用户使用产品过程中的浏览行为,对推送模型进行实时反馈,不断调整优化推送结果。为满足多元需求,我们会在排序过程中引入多样性打散机制,拓展推送的内容,避免同类型内容过度集中。 如用户想管理我们为其推送的个性化内容,可以在“我的-设置-其他设置”中进行设置。 |
算法应用场景 | 优酷平台视听内容展示,例如:猜你在追、播放页周边视频等。 |
算法目的意图 | 向用户展示视听内容。 |
优酷内容安全算法
算法名称 | 优酷内容安全算法 |
算法类型 | 检索过滤类 |
备案编号 | 网信算备110108381509705220019号 |
算法基本原理 | 我们基于大量样本数据的分析,形成内容安全算法模型,依法对优酷平台上发布的文本、图片、音频、视频等信息内容进行识别和处置,防范违反相关法律法规规定的淫秽、色情、赌博、暴力、恐怖、教唆犯罪、欺诈、虚假、侮辱、诽谤、恐吓、封建迷信等信息的发布和传播。 |
算法运行机制 | 内容安全类算法的运行过程包括数据源接入、算法识别、审核、处置决策等。我们对优酷平台上文本、图片、音频、视频等信息,通过深度学习、知识图谱推理、时序模型和融合模型等风险分类模型进行安全风险识别,形成不同的风险置信度分级,对于高置信度的信息由算法直接完成审核,对于低置信度的信息将引入人工审核,最后完成对违规信息的处置决策。 |
算法应用场景 | 优酷平台上涉信息发布相关的所有场景,例如用户上传视频内容、发弹幕等。 |
算法目的意图 | 及时发现、处置违反法律、行政法规或违反社会公德、公序良俗的信息内容。 |
优酷排序精选算法
算法名称 | 优酷排序精选算法 |
算法类型 | 排序精选类 |
备案编号 | 网信算备110108381509703220017号 |
算法基本原理 | 我们通过对优酷平台用户浏览、搜索视频内容进行统计分析,形成相关精选榜单,并结合人群的偏好特征向用户进行推荐。 |
算法运行机制 | 对优酷搜索全量用户搜索行为信息统计,将搜索词在上一自然日的搜索量按从高到低排序,排名前30的搜索词及排名输出到前端以排行榜产品展现给搜索用户。除热搜词总榜外,还根据搜索词关联内容的类目做了细分,输出了电影、电视剧、动漫等子榜单。 |
算法应用场景 | 优酷热门搜索等。 |
算法目的意图 | 帮助用户找到热门或者喜欢的视频内容。 |
优酷生成合成类算法
算法名称 | 优酷生成合成类算法 |
算法类型 | 生成合成类 |
备案编号 | 网信算备110108381509701240013号 |
算法基本原理 | 主要基于优酷视频 APP 中大量的用户查询类数据,以及文娱知识库(例如节目实体),通过神经网络大语言模型,学习出用户口语化表达到结构化意图之间的映射关系,得到自然语言理解模型(NLU)。随后针对用户输入的文娱类查询 query ,将其转换为结构化意图信息,并利用现有的优酷搜索引擎检索到相应的节目列表及实体信息后,用一种基于大语言模型技术的自然语言生成模型(NLG)将检索到的结果转化成便于人类理解的自然语言表达,满足用户模糊搜片和多维度聊片的需求。 |
算法运行机制 | 该算法主要包含NLU模型及NLG模型两大模块。 NLU模型以语言大模型作为基座,使用微调技术训练而成。具体来说,NLU模型将输入的用户口语化表达文本进行特征变换,转化为预先定义好的结构化意图。该意图信息用于优酷搜索引擎的输入,目的在于返回符合用户意图的节目列表及实体信息。 类似地,NLG模型同样以语言大模型作为基座,使用微调技术训练而成。其输入包含三部分:用户口语化表达文本;优酷搜索引擎返回的节目列表及实体信息;以及符合当前回复角色的人设背景说明(例如影视 AI 助手厘里)。上述输入经过特征变换,转化为最终输出给用户的回复文本。 在产品使用时,用户输入数据测,会首先进行敏感、黄暴等检测与过滤,保证样本一致且合规。 由于模型生成具有一定的随机性,模型输出后,也会进行合规检查的后处理,过滤掉潜在的低质量,敏感等有毒文本。 |
算法应用场景 | 优酷站内模糊搜片和多维度聊片 |
算法目的意图 | 使用生成算法准确理解用户的真实意图,为用户提供智能化找片和聊片的体验。 |
如您对此有任何疑问、意见或建议,您可通过《优酷基本功能隐私政策》中的联系方式与我们联系,我们将相应回复。