哪些主数据字段能帮助识别异常数据处理常用方法业务?

权限说明识别方式说明自动扫描:根据规则运行配置中设置的定时扫描调度时间和实时扫描开关执行并生成识别结果。手动添加:支持将识别结果批量导入到Dataphin中。基于血缘自动继承:下游字段根据不同的继承场景及继承规则自动继承直接上游字段识别结果。查看识别结果列表您可在识别结果页面查看字段的识别结果,可对识别结果执行查看识别记录详情、锁定、修改等操作。序号描述①搜索和筛选区您可按照表、字段、所属项目/板块、数据分类的关键字进行快捷搜索。也可根据数据分类(或未指定分类)、数据分级、数据板块、项目、生效状态、锁定状态、识别方式进行精确筛选。②列表区为您展示识别结果的表、字段、所属项目/板块、数据分类、数据分级、生效状态/日期、识别方式信息。③操作区您可对识别结果执行查看识别详情、编辑识别结果、锁定识别规则操作。查看识别详情:为您展示字段识别详情的基本信息、生效结果以及识别记录。基本信息:为您展示表名称和字段名称信息。生效结果:为您展示当前字段生效的数据分类及对应的数据分级、识别方式、优先级、实际匹配度、分类修改时间和更新时间信息。您可对识别结果执行指定数据分类(未配置数据分类支持)、编辑识别结果(已配置数据分类支持)操作。数据分级:为您展示当前最新的分级配置,您可以查看仲裁时刻的分级结果,判断是否需要进行修改。优先级:为您展示当前最新的优先级配置,您可以查看仲裁时刻的优先级结果,判断是否需要进行修改。优先级1为最高级,同级规则,更新时间较新者生效。指定数据分类:若当前生效结果为自动继承的结果,且继承策略为仅继承分级,不继承分类,则可能出现生效结果未指定数据分类的情况,此时建议您指定数据分类,否则可能无法命中脱敏规则。在指定数据分类对话框,选择数据分类,您也可直接使用系统推荐的数据分类。说明 指定分类的数据分级需要与当前生效的数据分级相同,否则无法直接指定,可通过编辑识别结果修改数据分类。编辑识别结果:支持修改生效的识别结果。操作详情请参见编辑识别结果。识别记录:为您展示数据分类、数据分级、识别方式、优先级、实际匹配度、分类修改时间和更新时间信息。若当前字段的识别记录中存在比当前生效识别结果匹配度更高的识别结果,则数据分类名称左上角会带有推荐标识,您可单击右上角的一键修改,指定为生效识别结果。识别结果生效优先级说明:数据分级:为您展示当前最新的分级配置,您可以查看仲裁时刻的分级结果,判断是否需要进行修改。优先级:为您展示当前最新的优先级配置,您可以查看仲裁时刻的优先级结果,判断是否需要进行修改。优先级1为最高级,同级规则,更新时间较新者生效。指定为生效结果:若将当前识别记录中的数据分类指定为生效结果,则识别方式将改为手动指定且不受后续自动识别结果影响。编辑识别结果:支持自动识别/继承和手动指定两种形式。锁定当前识别结果:仅当前生效方式为自动识别/自动继承且有指定分类的结果支持锁定。锁定后,将生成一条和当前结果一致的手动指定识别记录作为生效结果,并且不受后续自动识别、自动继承结果影响。④批量操作区支持批量锁定识别结果或编辑识别结果。手动添加识别结果在Dataphin首页,单击顶部菜单栏的资产。按照下图操作指引,进入手动添加对话框。在手动添加页面,配置参数。区域描述区域①针对本次上传和线上已有识别记录冲突时的处理策略,支持覆盖线上全部打标、仅覆盖线上未锁定打标、保留线上打标三种策略。覆盖线上全部打标:当新增字段与线上字段一致时,使用本次打标结果并标记为手动指定。仅覆盖线上未锁定打标:当新增字段与线上字段一致,并且线上识别结果未锁定时,使用本次打标结果并标记为手动指定。保留线上打标:当新增字段与线上字段一致时,保留线上的打标,本次打标不生效。区域②搜索:可根据数据表的名称快速搜索添加记录。按表添加:根据数据表来选择字段,并为字段添加数据分类。区域③为您展示数据表、表字段、数据分类、数据分级、生效状态信息,您可以对数据表、表字段、数据分类、生效状态进行修改,同时您可以在操作列下进行在此表下继续配置字段识别规则和删除操作。区域④批量操作:支持对添加的数据表批量执行更改数据分类、开启或关闭生效状态、删除操作。信息配置确定无误后,单击上传,完成手动添加识别结果。批量上传识别结果单击批量上传按钮,进入批量上传识别结果对话框。在批量上传识别结果对话框中,上传文件并单击开始校验。参数说明STEP1 下载上传模板若没有模板,可点击文件名称下载.xlsx文件;若已有模板,可直接执行上传文件并开始校验。STEP2 上传Excel记录文件在模板中添加需要配置的数据表、字段和规则后,上传Excel文件,一次仅可上传一个。Excel文件上传后,可选择文件兼容策略及查看校验结果。参数描述兼容策略针对本次上传与线上已有记录冲突时的处理策略,支持选择覆盖线上所有识别结果、覆盖线上所有未被锁定识别结果、保留线上已有识别结果,跳过不更新。覆盖线上所有识别结果:当新增字段与线上字段一致时,使用本次打标结果并标记为手动指定。覆盖线上所有未被锁定识别结果:当新增字段与线上字段一致,并且线上识别结果未锁定时,使用本次打标结果并标记为手动指定。保留线上已有识别结果,跳过不更新:当新增字段与线上字段一致时,保留线上的打标,本次打标不生效。校验结果支持查看文件上传中校验通过、校验异常、重复记录的信息。校验通过:为您展示文件上传通过的记录,包括记录在原始文件中对应行号、表、字段、数据分类、数据分级信息。校验异常:在文件上传过程中出现解析或校验失败等异常情况,则为您展示上传异常的记录,包括记录在原始文件中对应的行号、表、字段、数据分类和异常提示。重复记录:为您展示本次上传内容重复及与线上已有的成功的识别结果重复的记录,包括记录在原始文件中对应的行号、表、字段、数据分类和重复提示信息。可单击下载校验记录按钮,将对应的校验记录下载成Excel文件。单击上传,完成Excel上传识别结果。上传完成后,若您想快速查看上传结果,可关闭文件上传配置弹框,关闭弹框不会终止上传任务的执行。您可以在识别结果列表,单击上传历史按钮,查看上传的历史记录。查看上传历史按照下图操作指引,进入上传历史弹框。在上传历史弹框,查看手动上传识别结果的历史记录。
什么是特征库在日常的风控工作中,我们会使用到很多不同种类的风控工具,比如信息校验类工具(如风险手机号识别)、图文识别类工具、名单校验类工具等。其中最常用的工具,除了黑名单之外,应该就是特征库了。特征库是用来针对某一个主体进行累计计算的能力,比如同一ip下累计请求次数、同一手机号绑定的账号数量等,是针对黑产批量行为识别的最基本的风控能力。特征分类根据各场景的风控策略配置需求,我们会创建大量的特征,这些特征可以按照以下角度来进行划分:特征分类从状态的角度,我们将特征分为统计全部状态请求和统计指定状态请求(通常统计成功状态)。对于统计全部状态的特征,我们可以仅考虑事中数据,只要有新的行为产生,按照规则累计并更新特征即可。对于统计指定状态的特征,因为当前请求的状态只有在行为完成后才能获取到,因此需要补充携带状态的事后数据才能够实现(具体见后续流程说明)。一般情况下,黑产识别常用统计全部状态,而业务侧频次限制往往使用统计指定状态。按照计算方式划分更容易理解,求和类如常见的交易日限额,计数类如常见的活动参与次数(普通计数)或手机号绑定账号数量(去重计数,按手机号+账号去重)。特征的配置信息在梳理了特征分类之后,我们再来看一下创建一个特征,需要配置哪些信息。特征信息配置基本信息特征名称:便于管理人员和使用人员快速了解特征内容,需要保证唯一性;唯一id:查询时使用的唯一标识id,特征创建时由系统按预设规则生成;备注:一般记录特征的详细描述信息;数据源:各数据源由研发对接完成后,通过场景+数据类型的形式供配置人员直接选择;特征类别:定义当前特征的计算类型,包括求和类和计数类,计数类需要进一步选择是否去重计数。计算规则统计方式:统计方式针对当前特征是否需要仅对某些指定状态进行累计。如累计全部状态,每次接收到行为数据后,都相当于累加一次,如累计指定状态,则需要根据当前数据的状态进行区分处理(事后数据可以根据状态判断是否累加,事中数据则需要将已有特征与当前请求进行累加后返回,但此时存储的特征值不做更新,具体在后续数据流程中查看会更清晰)。统计周期管理:特征计算的时间选取包含三种,分别是指定时间周期(起止时间固定)、自然周期(按自然小时、自然日、自然月为时间粒度)和实时滑动周期(一般以当前实际时间节点向前推,如近24小时等)。数据过滤规则:针对某些特定数据不进行累计,如业务数据中某些参数存在默认值,可以配置对应字段出现默认值时进行过滤。特征计算规则:一般需要定义主体维度与计算字段。主体维度作为标识维度,一般会选择账号、手机号、ip等具有标识性的维度,也可以由多个字段进行组合构成。计算字段是指要进行求和或去重计数的字段,普通计数时只需要定义主体维度即可。应用管理应用管理用于维护特征的使用信息,包括特征的状态、应用方信息,属于各类风控服务通用的配置管理。功能模块特征库的产品能力,包含了数据源接入、特征计算、特征存储、特征查询服务、系统配置管理5个模块。产品架构图数据源接入在上述特征配置信息中,我们需要选择特征对应的场景和数据类型,而这个选择对应的就是已接入的数据源。我们将每个接入的数据源归属到一个指定场景,根据数据源中只有事中数据,或者包含事中+事后数据作为数据类型划分。在场景数据接入后,通过数据源接入模块对其进行标准化处理,包括无效数据过滤(必要字段值缺失)、过滤规则判断、数据剪枝处理(剔除对特征计算没有意义的字段,节约资源)。在经过数据源接入模块处理后,将得到由场景+主维度+累计字段+状态信息(业务行为的状态)+时间戳组成的标准化数据。特征计算根据特征配置中的统计方式、统计周期与当前时间、计算方式,可以生成特征的具体统计逻辑,并以当前场景标准化处理后的数据作为数据源进行统计。特征存储特征存储模块主要是对计算完成的特征值进行存储,包括主维度(多个字段构成时一般会做拼接处理)+特征值+时间。同时为了支持离线数据追杀或离线评估等应用,需要每天对特征数据进行快照存储。特征查询一般特征库会对接至风控引擎进行应用,同时也可以单独通过接口服务对外提供。应用方通过特征所属场景+特征id+主维度id+调用方标识即可查询对应特征值,支持跨场景的特征调用。但大部分应用场景使用的都是自身场景的特征,即同时包括特征计算与特征查询两部分。因此可以由特征库将两个流程进行合并,在特征计算完成后,除了对特征进行存储外,还需要直接返回特征值结果进行规则判断。系统配置特征信息配置、特征管理等平台配置功能。数据流程说明数据流接下来我们通过一个具体的流程来进一步了解特征库的运作过程。如当前有三条顺序请求,前两条请求已完成,第三条请求正在发生:(1)账号A交易金额1000元;(2)账号A交易金额2000元;(3)账号A交易金额2500元,交易失败;(4)账号A再次发起交易申请,金额2500元。业务对累计交易金额存在限制,单账号累计交易金额不可以超过5000元,我们需要通过账号累计交易金额特征进行计算和实现业务限额。当请求(4)发生时,当前特征值为3000元。在获取到业务请求时,对当前数据进行字段缺失检测,主体维度(账号id)与累计字段(交易金额)不存在缺失情况,流程转下一步。当前无特殊过滤规则,流程转下一步。(如果限额不包含某个特殊的支付渠道,即可通过过滤规则进行配置)标准字段提取:账号A+2500+状态(因为是事中数据,状态为空)+时间戳。主体标识是一个字段,不需要进行拼接处理,直接使用账号A即可。因当前业务限额需要剔除失败交易,特征需要根据状态累计。当前属于事中请求数据,根据非事后数据流程进行判断。已有特征值为2500,当前请求中金额为3000,实时计算结果为5500,并返回。(此时特征库中存储结果不做更新,仍然是3000,其他场景调用时的查询结果也是3000)根据限额规则配置,超出限额,交易失败。总结特征库作为一款常用的风控工具,往往会绑定在风控引擎中进行使用,以至于很多时候我们把它看成时风控引擎的一部分功能。其实特征库是一款完全独立的工具,支持数据接入、特征计算、特征查询,除了线上实时风控系统之外,离线分析系统、事后追杀系统、画像标签系统均可以集成使用。欢迎查看风控笔记系列其他内容:
备考阿里云ACP大数据认证的小伙伴都很关心哪里有阿里云ACP大数据认证题库试题,阿里云ACP大数据题库试题匹配度高不高,今天就是来解决大家的问题的!话不多说,直接上硬菜~1、支持OLTP的数据库系统包括以下哪些特点?A:擅长事务处理B:数据原子性C:很好的支持频繁的数据插入和修改D:数据一致性答案:A;B;C;D解析:OLTP本身就是处理事务的,实时性要求高,数据量不是很大,生产库上的数据量一般不会太大,而且会及时做出相应的数据处理与转移。对确定性的数据进行存取高并发,并且满足ACID原则。数据库事务正确执行的四个基本要素得缩写。原子性(Atomicity)、一致性(Consistency)、隔离性(Isolation)、持久性(Durability)。文章篇幅有限,暂列10道阿里云ACP大数据认证题库试题,需要查看更多阿里云ACP认证题库试题的小伙伴可以点击下方小卡片领取~2、ODPS项目prj1中存在表t,同时使用下述SQL创建视图v:create view v as select * from t;prj1的owner把视图v的读权限赋给了用户Alice,以下哪个说法是正确的(
)。A:因为没有表t的访问权限,所以Alice无法访问视图vB:由于权限的依赖关系, Alice 既可以访问视图v又可以访问表tC:Alice 可以通过访问视图v来查询表t的数据D:Alice 可以访问表t,因为她具有了视图v的访问权限,自然获得了表t的访问权限答案:A解析:查看视图需要拥有查看表元信息的权限,因此没有表t的访问权限则无法访问视图v。3、题干:使用大数据计算服务中的MR时,MR中的哪些操作会引发Java安全沙箱的限制而报错? (3 个)A:子进程执行Linux命令B:获取本地IPC:本地文件以资源方式上传至大数据计算服务,在MR中以资源方式访问该文件D:Java反射限制答案:A;B;D解析:Java沙箱限制效果:C、不允许直接访问本地文件,只能通过MaxCompute MapReduce、Graph提供的接口间接访问。读取resources选项指定的资源,包括文件、Jar包和资源表等。所以作为资源上传后访问不受沙箱机制限制;A、不允许创建Java线程,不允许启动子进程执行Linux命令。B、不允许访问网络,包括获取本地IP地址等,都会被禁止。Java反射限制:suppressAccessChecks权限被禁止,无法setAccessible某个private的属性或方法,以达到读取private属性或调用private方法的目的 D、通过System.out和System.err输出日志信息,可以通过MaxCompute客户端的Log命令查看日志信息。不允许直接访问分布式文件系统,只能通过MaxCompute MapReduce、Graph访问到表的记录。不允许JNI调用限制。4、关于大数据计算服务中的Policy授权,说法正确的有?A:授权或撤销授权时,对Subject (如User) 没有要求,即授权的User存在或者不存在都可以B:删除一个对象时,与该对象关联的Policy 授权不会被删除C:支持带限制条件的授权D:授权或撤销授权时,要求Object (如Table) 必须已经存在答案:A;B;C解析:policy授权或撤销授权时,不关心Grantee或Object存在与否,故选项D错误,选项A正确;删除一个对象时,与该对象关联的Policy授权不会被删除支持带限制条件的授权,故选项B正确。授权者可以对Allow或Deny授权施加条件限制(目前支持20种条件操作),故选项C正确。所以正确答案ABC。5、大数据计算服务中,通常情况下,prj1项目空间的成员若要访问prj2项目空间的数据,则需要prj2项目空间管理员执行繁琐的授权操作:首先需要将prj1项目空间中的用户添加到prj2 项目空间中,再分别对这些新加入的用户进行普通授权。实际上prj2 项目空间管理员并不期望对prj1项目空间中的每个用户都进行授权管理,而期望有另一种更高效的机制能使得prj1 项目空间管理员能对许可的对象进行自主授权控制。以下哪种授权方式可以帮助prj2项目空间管理员实现他的预期目标?A:LabelSecurityB:RoleC:PackageD:ProjectProtection答案:C解析:通过打包的方式把授权给另外一个项目,然后由另外一个项目的管理员再分配权限,这样更高效,更利于团队的合作。A、LabelSecurity支持列级别的权限授权;B、Role是角色,是用户的集合;D、项目空间数据安全,开启后禁止数据流出。6、如果需要从ODPS同步一张表到ADS,则该表的访问权限需要授予ODPS中的哪个用户(
)。A:aliyun$gurada_build@aliyun.comB:aliyun$gurada_data@aliyun.comC:aliyun$gurada_ads@aliyun.comD:aliyun$ads_data@aliyun.com答案:A;B解析:在操作导入数据之前,我们需要对数据的来源表进行授权,例如数据的来源表在odps上,在公有云上则需要在ODPS上对 garuda_build@aliyun.com 与 garuda_data@aliyun.com 授予describe和select权限。另外要注意,分析型数据库目前仅允许操作者导入自身为Project Owner的ODPS Project中,或者操作者是ODPS表的Table Creator的数据。7、开发人员应用大数据计算服务(MaxCompute, 原ODPS)的图计算框架完成了对于人群的交往圈分析,但是总的运行时间过长,为了缩短总运行时间,可以考虑从哪几个方面进行优化调整?A:通过setSplitSize方法减少切分大小,提高作业载入数据速度B:增加worker数目C:在结果精度允许的范围内,减少迭代的次数D:使用Combiner, 减少存储消息的内存和网络数据流量E:通过更改切片算法,将更多的数据分配到性能更好的节点上运行答案:B;C;D;E解析:通过setSplitSize方法减少切分大小,提高作业载入数据速度,该项减小分片,降低并发,运行时间可能更长。8、大数据计算服务( MaxCompute ;原ODPS )图计算的一次迭代称为一个超步(SuperStep),当满足_____条件时迭代会终止。A:所有点处于结束状态(Halted值为true)且没有新消息产生B:达到最大选代次数C:Aggregator的terminate方法返回@trueD:所有的边处于结束状态答案:A;B;C解析:迭代终止满足以下任意一条,迭代即终止:所有点处于结束状态(Halted值为True)且没有新消息产生。达到最大迭代次数。某个Aggregator的terminate方法返回True。9、大数据计算服务(MaxCompute,原ODPS)的图计算的结果通过哪种方式返回给用户?A:输出到大数据计算服务资源中B:在屏幕上显示C:输出到本地文件中D:输出到大数据计算服务的表中答案:D解析:大数据计算服务的计算结果都是以表的形式存储到maxcompute中,然后根据需要再导入到其他产品中。10、关于ODPS中的admin角色,哪些说法是正确的?A:包含的权限只有owner可以调整B:可以修改项目空间的鉴权模型C:不能将admin权限指派给用户D:不能设定项目空间的安全配置答案:C;D解析:每一个项目空间在创建时,会自动创建一个admin的角色,并且为该角色授予了确定的权限:能访问项目空间内的所有对象,能进行用户与角色管理,能对用户或角色进行授权。与项目空间Owner相比,admin角色不能将admin权限指派给用户,不能设定项目空间的安全配置,不能修改项目空间的鉴权模型。Admin角色所对应的权限不能被修改。最后附上阿里云ACP大数据认证题库试题领取方式,提前祝大家逢考必考,升职加薪~

我要回帖

更多关于 异常数据处理常用方法 的文章

 

随机推荐