夸克算法原理及数据处理情况说明
为依法保障用户对算法推荐服务的基本原理、目的意图和主要运行机制的知情权和选择权,告知用户夸克提供的算法推荐服务基本情况,夸克服务提供者(或简称“我们”)特制定本《夸克算法原理及数据处理情况说明》,帮助用户充分了解在使用夸克产品或服务的过程中,了解我们如何通过利用生成合成类、个性化推送类、检索过滤类技术向用户提供信息或服务,充分保障用户合法权益。
一、适用范围
本说明适用于夸克以网站、客户端、小程序等形式,向您提供的各项产品或服务。
二、算法原理说明
1. 生成合成类算法
算法名称 | 夸克图像文字识别算法 |
算法基本原理 | 夸克图像文字识别算法对用户拍摄、上传的图片进行文字检测、文本识别和格式转换处理,协助用户提取图片中的文本并将文本转化成其他文档格式,满足用户不同场景的需求。 |
算法运行机制 | 夸克用户拍摄、上传图片后,可通过自动框选、手动框选图片中的文本,选择“确定”功能后,夸克图像文本识别算法会提取图片中的文本特征,再结合语言模型进行解码打分策略,最终将得分最高的文本串作为图片的文本内容。转换为文本后,文本可支持World、PDF、图片、excel 等格式导出。夸克图像文字识别算法仅支持对用户主动拍摄、上传的图片进行识别。在内容安全方面,如果识别到图片中的文字内容违反法律、行政法规等有关规定时,将依法及时采取拦截等处置措施。 |
算法应用场景 | 夸克扫描王“提取文字”、“提取表格” |
算法目的意图 | 满足用户在便利地识别和提取图片文件中地文本的需求 |
备案编号 |
2. 生成合成类算法
算法名称 | 夸克图像智能擦除算法 |
算法基本原理 | 夸克使用开源的图片数据集、自有图片数据集,建立了图片裁剪矫正、水印/手写区域分割、水印/手写区域背景恢复算法模型,通过图像擦除算法为用户提供指定照片区域的图像擦除、背景填充、添加文字/水印、手写操作等多样化编辑功能。 |
算法运行机制 | 夸克用户拍摄、上传图片后,可选择“任意擦除”、“文字/水印”、 “手写”等多种操作。夸克图像擦除算法使用了开源的数据集,通过预训练的预处理裁剪矫正、水印/手写区域分割模型,可自动返回擦除该图片的该区域后的图像;算法返回擦除该种类元素(手写/水印)后的图像。 夸克图像擦除算法仅支持对用户主动拍摄、上传的图片进行擦除、添加文字/水印操作操作。在内容安全方面,如果识别到图片中的文字内容违反法律、行政法规等有关规定时,将依法及时采取拦截等处置措施。 |
算法应用场景 | 夸克“魔法擦除”、“扫描文件”功能 |
算法目的意图 | 便利用户进行擦除图片中多余信息或自行添加水印。 |
备案编号 |
3、生成合成类算法
算法名称 | 夸克智能小蜜客服机器人算法 |
算法基本原理 | 夸克智能小蜜智能客服机器人算法根据用户咨询内容,结合夸克智能小蜜智能客服机器知识库,利用自然语言处理技术,定位用户需要的知识与问题,并给出对应的解决方案;在用户获得解决方案之后,利用对历史咨询数据的统计分析预估下一阶段可能咨询的问题,帮助用户更快速、便捷地解决问题。 |
算法运行机制 | 用户通过客服进行了相关咨询,咨询内容经过去标识化处理,在无法识别用户身份的情况下,夸克智能小蜜客服机器人平台以问题为维度进行抽样,用于智能客服算法模型训练,用于不断提升用户体验。在用户接受智能客服服务期间,我们会对用户进行显著提示,基于智能客服使用情况,不断改进通知客服的服务质量。 |
算法应用场景 | 用于夸克的客服中心 |
算法目的意图 | 较人工客服更高效、快捷地响应用户咨询、建议和反馈 |
备案编号 |
4. 夸克人像图片编辑和美化算法
算法名称 | 夸克人像图片编辑和美化算法 |
算法基本原理 | 该算法主要基于 U-Net 网络结构图像分割技术和 IndexNet图像抠图技术、人像修复技术,融合使用开源图片数据集、自有图片数据集以及经用户授权的图片数据集进行预训练,自建照片修复算法模型、人脸抠图模型和人像模型,夸克用户可以拍摄或导入人像图像,算法会为用户一键提供照片抠图、背景更换、肤色美化、服装/发型替换等个性化功能。 |
算法运行机制 | 夸克用户可以拍摄、导入现有图片,选择裁剪尺寸、替换背景、美颜、换装、 发型等各项功能。夸克人像图片编辑和美化算法会通过自建的人脸抠图、人脸美化、照片修复等算法模型,自动将最佳滤镜效果的图片效果一键输出给用户。夸克人像图片编辑和美化算法仅支持对用户主动拍摄、上传的图片进行处理。在内容安全方面,如果识别到图片中的内容违反法律、行政法规等有关规定时,将依法及时采取拦截等处置措施。 |
算法应用场景 | 夸克APP内的证件照、照片修复和一键微笑等功能 |
算法目的意图 | 满足夸克用户针对人像图片的编辑、修复和美化个性化的图片处理需求 |
备案编号 |
5. 检索过滤类算法
算法名称 | 夸克风险文本及图像识别算法 |
算法基本原理 | 夸克会依托于对搜索服务样本数据的分析,建立了搜索服务场景下的内容安全算法模型,具体为夸克对搜索引擎所聚合、展示、链接、展示的网页文本标题、网页摘要、图片、音频、视频等内容,进行风险识别和处置,防范违法违规信息的发布和传播。这些违法违规信息可能包括:淫秽、色情、赌博、暴力、恐怖、教唆犯罪、欺诈、虚假、侮辱、诽谤、恐吓、封建迷信以及可能侵害他人隐私或知识产权等合法权益的信息。 |
算法运行机制 | 夸克风险文本及图像识别算法的运行过程包括样本数据源采集和接入、特征库建立、审核、处置决策等。夸克会对搜索服务聚合、链接的网页信息(包括但不限于文本标题、摘要等),通过深度学习、统计学习、基于规则等风险分类模型进行内容安全风险识别,形成不同的风险置信度分级,对于高置信度的信息由算法直接完成审核,对于低置信度的信息将引入人工审核,最后完成对违规信息的处置决策。 |
算法应用场景 | 夸克搜索引擎 |
算法目的意图 | 遵守法律法规规定,为用户识别和防范夸克搜索服务中出现违法违规、不良有害信息 |
备案编号 |
6. 检索过滤类算法
算法名称 | 夸克通用搜索引擎算法 |
算法基本原理 | 为向夸克搜索用户展示搜索结果信息,包括用户的历史搜索情况,夸克会收集和使用用户在访问或使用夸克的浏览、搜索记录,并结合依法收集的设备信息、服务日志信息以及其他取得用户授权的信息,通过算法模型预测用户的搜索 意图,夸克会基于人群偏好特征在在夸克搜索结果中向相 关人群展示可能感兴趣的商业广告及其他信息。 |
算法运行机制 | 夸克通用搜索引擎算法会基于模型预测用户的搜索意图,匹配用户可能兴趣的搜索结果信息,并搜索结果信息进行排序。我们会根据用户使用搜索服务过程中的浏览行为、通过提取公网网页的特征,并结合设备信息、服务日志信息,对排序模型进行实时反馈,不断调整优化检索排序结果。为满足用户的多元需求,我们会在排序过程中引入多样化排序技术,拓展推荐的内容,避免同类型内容过度集中。如用户要删除您的浏览和搜索记录,可以在“我的”->“通用”->“清除缓存”中选择删除。 |
算法应用场景 | 夸克搜索引擎 |
算法目的意图 | 帮助用户快速找到想要的信息 |
备案编号 |
7. 检索过滤类算法
算法名称 | 夸克内容安全算法 |
算法基本原理 | 夸克会通过对大量样本数据的分析,建立内容安全的算法模型,依法对夸克用户发布的文本、图片、音频、视频等各类内容进行风险识别和 处置,防范违法违规信息、违反夸克平台规则内容的发布 和传播。这些信息包括:淫秽、色情、赌博、暴力、恐怖、教 唆犯罪、欺诈、虚假、侮辱、诽谤、恐吓、封建迷信以及可能 侵害他人隐私或知识产权等合法权益的信息。 |
算法运行机制 | 夸克内容安全算法的运行过程包括样本数据源采集和接入、特征库建立、审核、处置决策等。我们对用户在夸克平台上发布的文本、图片、音频、视频等信息,通过深度学习、统计学习、基于规则等风险分类模型进行内容安全风险识别,形成不同的风险置信度分级,对于高置信度的信息由算法直接完成审核,对于低置信度的信息将引入人工审核,最后完成对违规信息的处置决策。 |
算法应用场景 | 夸克评论、网盘 |
算法目的意图 | 及时发现、处置违反法律、法规或违反社会公德、公序良俗或夸克平台规则的信息内容 |
备案编号 |
8. 个性化推送类算法
算法名称 | 夸克日报内容推荐算法 |
算法基本原理 | 为向用户展示用户可能感兴趣的资讯信息,搜索结果信息,夸克会收集和使用用户在访问或使用夸克的浏览、搜索记录,并结合依法收集的设备信息、服务日志信息以及其他取得用户授权的信息,通过算法模型预测不同人群对信息资讯的偏好特征,并基于人群偏好特征向相关人群推送可能感兴趣的信息资讯内容。 |
算法运行机制 | 夸克会基于模型预测人群的信息偏好特征,对不同的人群匹配下发人群可能感兴趣的信息资讯。夸克会根据用户使用产品过程中的浏览行为、反馈等,对推荐模型进行实时反馈,不断调整优化推荐结果。为满足多元需求,我们会在排序过程中引入多样化推荐技术,拓展推荐的内容,避免同类型内容过度集中。如用户不想看到夸克日报相关页面的资讯,可以通过点击资讯详情页的“不喜欢”选项向进行反馈。夸克收到反馈后,会杜绝或减少该类资讯的推荐。如果用户想管理推荐的个性化资讯,也可以在夸克浏览器底部“设置-隐私设置-个性化内容推荐”中进行设置。 |
算法应用场景 | 夸克日报 |
算法目的意图 | 为用户推荐可能感兴趣的信息 |
备案编号 |