淘宝网算法原理及信息处理情况说明

淘宝网算法原理及信息处理情况说明

为依法保障用户对淘宝网算法推荐服务的基本原理、目的意图和主要运行机制的知情权，告知用户淘宝网提供的算法推荐服务情况，并保障用户的选择权，淘宝网服务提供者（或简称“我们”）制定本《淘宝网算法原理及信息处理情况说明》，帮助用户充分了解在使用淘宝网产品和服务的过程中我们如何通过利用生成合成类、个性化推送类、检索过滤类、深度合成服务等算法技术向用户提供信息和服务，以便用户更好地作出选择。

一、适用范围

本说明适用于淘宝网服务提供者以网站、客户端、小程序以及随技术发展出现的新形态向您提供的各项产品和服务。

二、算法原理说明

1、个性化推送类算法

算法名称	淘宝推荐算法
算法基本原理	为向淘宝平台电商用户展示商品或服务信息，包括用户的访问足迹、历史搜索情况，我们会收集和使用用户在访问或使用淘宝时的浏览、搜索记录。我们会结合依法收集的设备信息、服务日志信息，以及其他取得用户授权的信息，通过算法模型预测人群偏好特征。我们会基于人群偏好特征在淘宝及其他第三方应用程序向相关人群推送可能感兴趣的商业广告及其他信息，或者商业性短信息。
算法运行机制	个性化推荐类算法会基于模型预测人群偏好特征，匹配人群可能感兴趣的商品、服务或其他信息，对展示的商品、服务或其他信息进行排序。我们会根据用户使用产品过程中的浏览行为，对推荐模型进行实时反馈，不断调整优化推荐结果。为满足多元需求，我们会在排序过程中引入多样性打散机制，拓展推荐的内容，避免同类型内容过度集中。如用户不想看到我们在首页或支付完成页面等推荐的商品或服务，用户可以通过长按被推荐的商品或服务图片，在随后出现的弹窗中根据提示选择屏蔽类似商品或者商品或服务所属的类目；如用户想管理我们为其推送的个性化内容，可以在“我的淘宝-设置-隐私设置-推荐管理”中进行设置。
算法应用场景	淘宝平台首页、逛逛、支付完成页面等的商品或服务信息展示
算法目的意图	向用户展示商品或服务信息
备案编号	网信算备330110872770702220011号

2、检索类算法

算法名称	淘宝搜索算法
算法基本原理	淘宝搜索算法的目的是帮助用户快速检索到想要的商品，持续提升淘宝用户商品搜索体验。淘宝搜索算法可以支持用户多种输入形式，包括文字、语音、图片等。接收到用户输入指令后，淘宝搜索算法会识别和分类用户意图，针对不同类型的意图提供不同的解决方案。
算法运行机制	我们的算法主要包括优化“召回”和“排序”两大关键任务，召回引擎主要负责对用户查询意图做理解，从海量商品库找到和用户意图匹配的商品集合；排序引擎对召回的候选商品集合做排序，把最有可能满足用户需求的商品排到前面，提升消费者满意度，优化流量资源使用效率，保持平台效率与和公平的平衡性。如用户输入图片，我们的算法会进行图文多模态问答，基于问答的文本结果调用商品搜索。如用户希望查询同款商品，我们的算法会在排序阶段引入同款判断策略，通过对比品牌、标题、图片等商品信息完成同款识别。我们严格遵守个人信息保护相关规定。在初次打开淘宝APP的应用界面，以及隐私设置界面，用户可通过查看《隐私政策》了解淘宝搜索算法服务情况，以及个人信息处理情况及相关权利。
算法应用场景	淘宝移动端APP、网页端等首页搜索、“找相似”、淘宝问问等功能。
算法目的意图	支持多种搜索需求，持续提升淘宝用户商品搜索体验。
备案编号	网信算备330110872770704220021号

算法名称	淘宝图搜算法
算法基本原理	淘宝图搜算法的核心目标是为用户提供高品质的图同款搜索功能。我们的算法采用了深度学习技术和大规模机器学习技术，将用户的查询图片、点击图片、和未点击图片构建成一组特征学习框架，利用深度卷积网络提高搜索精确度，最终以商品展示、长按图片搜同款等功能形式向用户展示和提供服务。
算法运行机制	用户上传供搜索图片或选择图片后，淘宝图搜算法会使用向量倒排索引召回，从商品池中检索出商品信息后通过相关性模型保障商品与查询的相关性，再通过点击率、购买率预估模型预测商品的点击、成交效率，经打散后取排名前60或不等结果返回。我们的算法会使用用户上传或选择的图片，通过检测、表征模型提取图像表征，进行类目预测。为向用户提供更准确的搜索结果，算法还会适当结合APP用户购买、点击、搜索关键词等行为数据进行分析，最终向用户输出销量、价格、品牌等商品信息。我们严格遵守个人信息保护相关规定。在初次打开淘宝APP的应用界面，以及隐私设置界面，用户可通过查看《隐私政策》了解淘宝图搜算法服务情况，以及个人信息处理情况及相关权利。
算法应用场景	手机淘宝首页搜索框左侧的照相机、商品图长按后“找相似”选项、淘宝问问服务等。
算法目的意图	为用户提供高品质的图同款搜索功能，提高用户电商购物效率。
算法编号	网信算备330110872770704240037号

3、过滤类算法

算法名称	淘宝内容安全算法
算法基本原理	我们基于大量样本数据的分析，形成内容安全算法模型，依法对淘宝平台上发布的文本、图片、音频、视频等信息内容进行依法识别和处置，防范违反相关法律法规规定的淫秽、色情、赌博、暴力、恐怖、教唆犯罪、欺诈、虚假、侮辱、诽谤、恐吓、封建迷信等信息，以及可能侵害他人隐私、知识产权等合法权益信息的发布和传播
算法运行机制	内容安全算法的运行过程包括数据源接入、算法识别、审核、处置决策等。我们对淘宝平台上发布的文本、图片、音频、视频等信息，通过深度学习、知识图谱推理、时序模型和融合模型等风险分类模型进行安全风险识别，形成不同的风险置信度分级，对于高置信度的信息由算法直接完成审核，对于低置信度的信息将引入人工审核，最后完成对违规信息的处置决策。
算法应用场景	淘宝平台上的商品评价、问答、论坛等信息发布相关的所有场景
算法目的意图	及时发现、处置违反法律、行政法规或违反社会公德、公序良俗的信息内容。
备案编号	网信算备330110872770705220027号

4、生成合成类算法

算法名称	淘宝人生表情动作复刻算法
算法基本原理	淘宝平台“淘宝人生”表情动作复刻算法会基于用户主动提交的照片，识别照片中人物的表情和动作，基于深度学习技术，渲染出契合用户相关照片表情动作的虚拟形象。
算法运行机制	“淘宝人生”虚拟形象使用3D人体重建深度学习的算法模型，对用户主动提交的照片进行姿态扭正，依据体态算法提取关键动作信息并通过反向动力学算法、重定向算法，来形成用户的淘宝人生形象图片。经过该算法生成后的图像上会打上“淘宝人生”的显著标识。我们仅支持和处理用户自己的或用户已取得个人信息主体授权使用的照片，如我们发现用户拍摄或上传的内容违反法律、行政法规等有关规定，我们将依法及时采取拦截、消除等处置措施。
算法应用场景	淘宝平台设定“淘宝人生”表情动作虚拟形象
算法目的意图	提供淘宝平台“淘宝人生”虚拟形象服务
备案编号	网信算备330110872770701220015号

5、深度合成服务

算法名称	淘宝小蜜智能客服算法
算法基本原理	淘宝平台根据用户咨询内容，结合淘宝智能客服知识库，利用自然语言处理技术定位用户需要的知识，并给出对应的解决方案;在用户获得解决方案之后，利用对历史咨询数据的统计分析预估下一阶段可能咨询的问题，帮助用户更快速、便捷地解决问题。
算法运行机制	用户通过客服进行了相关咨询，咨询的内容经过去标识化处理，在无法识别用户身份的情况下，淘宝平台以问题为维度进行抽样，用于智能客服算法模型训练，用于不断提升用户体验。在用户接受智能客服服务期间，我们会对用户进行显著提示，基于智能客服使用情况，不断改进智能客服的服务质量。
算法应用场景	淘宝小蜜智能客服
算法目的意图	较人工客服可更高效、快捷地响应用户咨询
备案编号	网信算备330110872770701230027号

算法名称	淘宝对话生成算法
算法基本原理	淘宝对话生成算法通过交互式对话方式，为用户提供购物搜索、信息内容服务等，最终提升电商平台购物体验。对话生成算法使用了基于自然语言处理技术的对话生成模型，它通过大量的数据训练模型来模拟人类的语言交互能力，实现在各种对话场景下的聊天对话。算法在线应用时，会使用用户实时输入的文本数据，在安全过滤的基础上，结合对话场景等向用户生成准确、得体的文本回复，部分场景下会展示商品图片信息。
算法运行机制	对话生成算法使用Transformer神经网络架构，以预训练和微调技术为核心。在用户输入问题后，将依据意图分类模型识别出意图类型，生成符合用户消费习惯、搜索目的的文本。淘宝对话生成算法的训练数据来源于淘宝平台合法取得的数据。在此过程中，我们会通过安全过滤模型分别对输入、输入-输出进行风险检测。如我们发现用户输入的内容违反法律、行政法规等有关规定我们将依法及时采取拦截、消除等处置措施。此类服务在用户选择特定功能或服务后启用，如用户不需要此类服务，可通过我们提供的指引自行关闭。
算法应用场景	淘宝平台消息、客服、淘宝人生、逛逛、商品页面等的商品展示或信息内容服务，如智能文案、智能客服、智能问答等。
算法目的意图	向用户展示商品信息、提供信息内容服务，提高电商平台信息服务的趣味性。
备案编号	网信算备330110872770701230043号

算法名称	淘宝图像风格化生成算法
算法基本原理	淘宝图像风格化生成算法是一种基于稳定分布随机过程的图像生成算法。接收到用户上传的图片后，我们会使用人脸检测模型 (如涉及人脸信息)、空间检测模型、图生图模型等算法模型，将用户素材与已有风格化素材拼合，生成符合用户需要的风格化图像(或视频)，最终实现对用户输入图像(包括视频)的风格变换。
算法运行机制	我们的算法会先处理用户素材，通过特征编码器将用户上传的图像与算法预设的文本提示词映射到特征空间中。之后随机生成一张噪声图像并送入神经网络进行特征提取，得到中间特征图。最后通过增加特征信息来扩展中间特征图，对图像质量进行调整后再次送入神经网络中进行逆向转换，最终向用户输出生成图片。淘宝图像风格化生成算法使用的数据来源于淘宝平台合法取得的数据。如涉及用户人脸信息等敏感信息，我们会严格遵守用户授权协议;如涉及第三方内容，我们会向用户确认其拥有相应的合法权利。用户选择特定功能或服务后会开启相应服务，如用户不需要此类服务，可通过我们提供的指引自行关闭。
算法应用场景	淘宝平台首页、逛逛、我的淘宝、极有家、商品页面等涉图像(包括视频)生成、风格转化的功能，如虚拟试衣、虚拟形象、虚拟家装、表情特效、视频特效、AI 绘图等。
算法目的意图	为用户提供切换图像(包括视频)风格、生成虚拟形象等图像创作工具，丰富用户娱乐体验。
备案编号	网信算备330110872770701230035号

算法名称	淘宝生成式电商导购算法
算法基本原理	淘宝生成式电商导购算法，通过交互式对话方式，为用户提供购物信息检索与推荐问答服务。我们的算法使用了统一的文本预训练模型模拟人类的语言交互能力，并投喂电商相关数据进行微调训练，最终实现在电商购物场景下的聊天对话。用户以自然语言输入问题后，我们会针对用户的多种消费意图使用多种策略分发，并利用自然语言处理、信息检索、深度学习等技术，在安全过滤的基础上生成准确、相关、得体的答案文本回复，最终提升电商导购满意度。
算法运行机制	在用户输入问题后，我们会依据意图分类模型识别出意图类型，然后由淘宝生成式电商导购算法生成符合用户消费习惯的文本。在此过程中，会通过安全过滤模型分别对输入、输入-输出进行风险检测，保证输入、输出等的合规性。通过该算法生成的文本，我们会以淘宝问问产品标识透出、用户须知说明及部分位置的“AI生成”标识显示等方式进行显著标识。淘宝生成式电商导购算法的训练数据来源于淘宝平台合法取得的数据。我们旨在支持和处理用户与电商导购相关的问题，如我们发现用户输入的内容违反法律、行政法规等有关规定，我们将依法及时采取拦截、消除等处置措施。
算法应用场景	淘宝平台淘宝问问产品
算法目的意图	生成准确、相关、得体的答案文本回复，提升电商导购满意度。
备案编号	网信算备330110872770701240055号

6、排序精选类

算法名称	淘宝排序精选算法
算法基本原理	淘宝排序精选算法通过“热度值”为依据对热点词进行排序展示。热度值计算方式为“热度值=搜索热度分+热榜消费分”。其中，“热搜热度分”根据用户在淘宝对热点词的真实用户搜索规模及搜索规模增速计算得出；“热榜消费分”依据用户在榜单中对热点词的点击率与互动率计算得出。然后按照热度值倒排展示，目前以客观数据排序以及对客观数据加权平均排序为主。
算法运行机制	淘宝排序精选算法综合了淘宝排序精选算法热点推荐模型、排序精选算法热点匹配模型、淘宝排序精选算法榜单模型等模型。我们主动增加了新品趋势品冷启动助推干预策略、用户新兴趣发现干预策略，以降低商品推荐的马太效应问题、用户疲劳度问题。淘宝排序精选算法主要使用实时搜索数据、站内站外趋势数据等。在淘宝APP应用界面初次打开的时候，我们会向用户说明算法服务情况、个人信息处理情况。淘宝热搜榜单热度计算对外有规则公示，用户可在榜单展示区域直接查看。如涉及个人信息使用的，我们会严格遵照法律法规保护用户个人信息，保障用户知情权。
算法应用场景	淘宝APP内首页、直播等场景内商品、信息排序榜单
算法目的意图	通过提供榜单等排行数据，为淘宝APP用户提供决策帮助。
备案编号	网信算备330110872770703240015号