淘宝网算法原理及信息处理情况说明

 

为依法保障用户对淘宝网算法推荐服务的基本原理、目的意图和主要运行机制的知情权,告知用户淘宝网提供的算法推荐服务情况,并保障用户的选择权,淘宝网服务提供者(或简称“我们”)制定本《淘宝网算法原理及信息处理情况说明》,帮助用户充分了解在使用淘宝网产品和服务的过程中我们如何通过利用生成合成类、个性化推送类、检索过滤类、深度合成服务等算法技术向用户提供信息和服务,以便用户更好地作出选择。

一、适用范围

本说明适用于淘宝网服务提供者以网站、客户端、小程序以及随技术发展出现的新形态向您提供的各项产品和服务。

二、算法原理说明

1、个性化推送类算法

算法名称

淘宝推荐算法

算法基本原理

为向淘宝平台电商用户展示商品或服务信息,包括用户的访问足迹、历史搜索情况,我们会收集和使用用户在访问或使用淘宝时的浏览、搜索记录。我们会结合依法收集的设备信息、服务日志信息,以及其他取得用户授权的信息,通过算法模型预测人群偏好特征。我们会基于人群偏好特征在淘宝及其他第三方应用程序向相关人群推送可能感兴趣的商业广告及其他信息,或者商业性短信息。

算法运行机制

个性化推荐类算法会基于模型预测人群偏好特征,匹配人群可能感兴趣的商品、服务或其他信息,对展示的商品、服务或其他信息进行排序。我们会根据用户使用产品过程中的浏览行为,对推荐模型进行实时反馈,不断调整优化推荐结果。为满足多元需求,我们会在排序过程中引入多样性打散机制,拓展推荐的内容,避免同类型内容过度集中。

如用户不想看到我们在首页或支付完成页面等推荐的商品或服务,用户可以通过长按被推荐的商品或服务图片,在随后出现的弹窗中根据提示选择屏蔽类似商品或者商品或服务所属的类目;如用户想管理我们为其推送的个性化内容,可以在“我的淘宝-设置-隐私设置-推荐管理”中进行设置。

算法应用场景

淘宝平台首页、逛逛、支付完成页面等的商品或服务信息展示

算法目的意图

向用户展示商品或服务信息

备案编号

网信算备330110872770702220011

 

2、检索类算法

算法名称

淘宝搜索算法

算法基本原理

为向淘宝平台用户展示更契合搜索意图的商品或服务信息,检索类算法将针对用户输入的搜索词,使用算法模型预测、匹配相关可能感兴趣的商品或服务信息,最终完成搜索结果的展示。

算法运行机制

在用户输入的搜索词后,我们将使用文本匹配的倒排索引和基于神经网络的向量匹配召回算法,根据搜索关键词特征、商品特征、用户在淘宝的使用情况等对商品和服务进行召回,并结合相关性模型保障结果页展现的商品结果与搜索的关键词相关。同时,为满足用户多元需求,我们会在排序过程中引入多样性打散机制,拓展展示的内容,避免同类型内容过度集中。

如用户在使用我们提供的站内搜索服务时,需要查看不针对其个人特征的排序,可以在搜索结果页面点击“筛选”,选择其中的“销量”、“价格”、“通用排序”进行设置。

算法应用场景

淘宝平台首页搜索框等商品或服务的检索

算法目的意图

帮助用户快速找到想要的商品或信息

备案编号

网信算备330110872770704220021

 

3、过滤类算法

算法名称

淘宝内容安全算法

算法基本原理

我们基于大量样本数据的分析,形成内容安全算法模型,依法对淘宝平台上发布的文本、图片、音频、视频等信息内容进行依法识别和处置,防范违反相关法律法规规定的淫秽、色情、赌博、暴力、恐怖、教唆犯罪、欺诈、虚假、侮辱、诽谤、恐吓、封建迷信等信息,以及可能侵害他人隐私、知识产权等合法权益信息的发布和传播

算法运行机制

内容安全算法的运行过程包括数据源接入、算法识别、审核、处置决策等。我们对淘宝平台上发布的文本、图片、音频、视频等信息,通过深度学习、知识图谱推理、时序模型和融合模型等风险分类模型进行安全风险识别,形成不同的风险置信度分级,对于高置信度的信息由算法直接完成审核,对于低置信度的信息将引入人工审核,最后完成对违规信息的处置决策。

算法应用场景

淘宝平台上的商品评价、问答、论坛等信息发布相关的所有场景

算法目的意图

及时发现、处置违反法律、行政法规或违反社会公德、公序良俗的信息内容。

备案编号

网信算备330110872770705220027

 

4、生成合成类算法

算法名称

淘宝人生表情动作复刻算法

算法基本原理

淘宝平台“淘宝人生”表情动作复刻算法会基于用户主动提交的照片,识别照片中人物的表情和动作,基于深度学习技术,渲染出契合用户相关照片表情动作的虚拟形象。

算法运行机制

“淘宝人生”虚拟形象使用3D人体重建深度学习的算法模型,对用户主动提交的照片进行姿态扭正,依据体态算法提取关键动作信息并通过反向动力学算法、重定向算法,来形成用户的淘宝人生形象图片。经过该算法生成后的图像上会打上“淘宝人生”的显著标识。

我们仅支持和处理用户自己的或用户已取得个人信息主体授权使用的照片,如我们发现用户拍摄或上传的内容违反法律、行政法规等有关规定,我们将依法及时采取拦截、消除等处置措施。

算法应用场景

淘宝平台设定“淘宝人生”表情动作虚拟形象

算法目的意图

提供淘宝平台“淘宝人生”虚拟形象服务

备案编号

网信算备330110872770701220015

 

5、深度合成服务

算法名称

淘宝小蜜智能客服算法

算法基本原理

淘宝平台根据用户咨询内容,结合淘宝智能客服知识库,利用自然语言处理技术定位用户需要的知识,并给出对应的解决方案;在用户获得解决方案之后,利用对历史咨询数据的统计分析预估下一阶段可能咨询的问题,帮助用户更快速、便捷地解决问题。

算法运行机制

用户通过客服进行了相关咨询,咨询的内容经过去标识化处理,在无法识别用户身份的情况下,淘宝平台以问题为维度进行抽样,用于智能客服算法模型训练,用于不断提升用户体验。在用户接受智能客服服务期间,我们会对用户进行显著提示,基于智能客服使用情况,不断改进智能客服的服务质量。

算法应用场景

淘宝小蜜智能客服

算法目的意图

较人工客服可更高效、快捷地响应用户咨询

备案编号

网信算备330110872770701230027号

 

算法名称

淘宝对话生成算法

算法基本原理

淘宝对话生成算法通过交互式对话方式,为用户提供购物搜索、信息内容服务等,最终提升电商平台购物体验。对话生成算法使用了基于自然语言处理技术的对话生成模型,它通过大量的数据训练模型来模拟人类的语言交互能力,实现在各种对话场景下的聊天对话。算法在线应用时,会使用用户实时输入的文本数据,在安全过滤的基础上,结合对话场景等向用户生成准确、得体的文本回复,部分场景下会展示商品图片信息。

算法运行机制

对话生成算法使用Transformer神经网络架构,以预训练和微调技术为核心。在用户输入问题后,将依据意图分类模型识别出意图类型,生成符合用户消费习惯、搜索目的的文本。淘宝对话生成算法的训练数据来源于淘宝平台合法取得的数据。在此过程中,我们会通过安全过滤模型分别对输入、输入-输出进行风险检测。如我们发现用户输入的内容违反法律、行政法规等有关规定我们将依法及时采取拦截、消除等处置措施。此类服务在用户选择特定功能或服务后启用,如用户不需要此类服务,可通过我们提供的指引自行关闭。

算法应用场景

淘宝平台消息、客服、淘宝人生、逛逛、商品页面等的商品展示或信息内容服务,如智能文案、智能客服、智能问答等。

算法目的意图

向用户展示商品信息、提供信息内容服务,提高电商平台信息服务的趣味性。

备案编号

网信算备330110872770701230043号

 

算法名称

淘宝图像风格化生成算法

算法基本原理

淘宝图像风格化生成算法是一种基于稳定分布随机过程的图像生成算法。接收到用户上传的图片后,我们会使用人脸检测模型 (如涉及人脸信息)、空间检测模型、图生图模型等算法模型,将用户素材与已有风格化素材拼合,生成符合用户需要的风格化图像(或视频),最终实现对用户输入图像(包括视频)的风格变换。 

算法运行机制

我们的算法会先处理用户素材,通过特征编码器将用户上传的图像与算法预设的文本提示词映射到特征空间中。之后随机生成一张噪声图像并送入神经网络进行特征提取,得到中间特征图。最后通过增加特征信息来扩展中间特征图,对图像质量进行调整后 再次送入神经网络中进行逆向转换,最终向用户输出生成图片。


淘宝图像风格化生成算法使用的数据来源于淘宝平台合法取得的数据。如涉及用户人脸信息等敏感信息,我们会严格遵守用户 授权协议;如涉及第三方内容,我们会向用户确认其拥有相应的合法权利。用户选择特定功能或服务后会开启相应服务,如用户不需要此类服务,可通过我们提供的指引自行关闭。

算法应用场景

淘宝平台首页、逛逛、我的淘宝、极有家、商品页面等涉图像(包括视频)生成、风格转化的功能,如虚拟试衣、虚拟形象、虚拟家装、表情特效、视频特效、AI 绘图等。

算法目的意图

为用户提供切换图像(包括视频)风格、生成虚拟形象等图像创作工具,丰富用户娱乐体验。

备案编号

网信算备330110872770701230035号


算法名称

淘宝生成式电商导购算法

算法基本原理

淘宝生成式电商导购算法,通过交互式对话方式,为用户提供购物信息检索与推荐问答服务。我们的算法使用了统一的文本预训练模型模拟人类的语言交互能力,并投喂电商相关数据进行微调训练,最终实现在电商购物场景下的聊天对话。用户以自然语言输入问题后,我们会针对用户的多种消费意图使用多种策略分发,并利用自然语言处理、信息检索、深度学习等技术,在安全过滤的基础上生成准确、相关、得体的答案文本回复,最终提升电商导购满意度。 


算法运行机制


在用户输入问题后,我们会依据意图分类模型识别出意图类型,然后由淘宝生成式电商导购算法生成符合用户消费习惯的文本。在此过程中,会通过安全过滤模型分别对输入、输入-输出进行风险检测,保证输入、输出等的合规性。通过该算法生成的文本,我们会以淘宝问问产品标识透出、用户须知说明及部分位置的“AI生成”标识显示等方式进行显著标识。


淘宝生成式电商导购算法的训练数据来源于淘宝平台合法取得的数据。我们旨在支持和处理用户与电商导购相关的问题,如我们发现用户输入的内容违反法律、行政法规等有关规定,我们将依法及时采取拦截、消除等处置措施。 


算法应用场景

淘宝平台淘宝问问产品

算法目的意图

生成准确、相关、得体的答案文本回复,提升电商导购满意度。

备案编号

网信算备330110872770701240055号