的用户信息表(ods_user_info_d_emr)及访问日志数据表(ods_raw_log_d_emr)中的数据进行加工,进而得到目标用户画像数据。
双击打开您在同步数据中创建的工作流workshop_emr,进入工作流编排页面,继续添加工作流节点。
为了后续数据处理任务的顺利进行,您需要注册EMR自定义函数(getregion),将同步数据阶段同步至EMR的日志数据结构拆解成表格。
进入DataWorks工作空间列表页,在顶部切换至目标地域,找到已创建的工作空间,单击操作列的快速进入Data Studio,进入Data Studio。
进入新建函数配置页配置EMR Function函数信息,关键参数配置如下:
在工作流编排页面,鼠标悬浮于EMR Hive节点dwd_log_info_di_emr上,单击上方出现的打开节点,在温馨提示弹框中选择保存并打开,进入EMR Hive节点编辑页面。输入以下示例SQL语句。
在EMR Hive节点编辑页面右侧单击运行配置,配置以下参数,用于在步骤四调试运行中使用运行配置的相关参数测试运行。
无需配置。本教程提供的示例代码中统一使用${bizdate}表示业务日期,在步骤四调试运行工作流时,设置本次运行值为具体常量(例如20250223),任务运行将会使用此常量替换任务中定义的变量。
在工作流编排页面,鼠标悬浮于EMR Hive节点dws_user_info_all_di_emr上,单击上方出现的打开节点,在温馨提示弹框中选择保存并打开,进入EMR Hive节点编辑页面。输入以下示例SQL语句。
在EMR Hive节点编辑页面右侧单击运行配置,配置以下参数,用于在步骤四调试运行中使用运行配置的相关参数测试运行。
无需配置。本教程提供的示例代码中统一使用${bizdate}表示业务日期,在步骤四调试运行工作流时,设置本次运行值为具体常量(例如20250223),任务运行将会使用此常量替换任务中定义的变量。
在工作流编排页面,鼠标悬浮于EMR Hive节点ads_user_info_1d_emr上,单击上方出现的打开节点,在温馨提示弹框中选择保存并打开,进入EMR Hive节点编辑页面。输入以下示例SQL语句。
在EMR Hive节点编辑页面右侧单击运行配置,配置以下参数,用于在步骤四调试运行中使用运行配置的相关参数测试运行。
无需配置。本教程提供的示例代码中统一使用${bizdate}表示业务日期,在步骤四调试运行工作流时,设置本次运行值为具体常量(例如20250223),任务运行将会使用此常量替换任务中定义的变量。
在Workflow画布顶部工具栏中,单击运行,设置各节点定义的参数变量在本次运行中的取值(本教程使用20250223,您可以按需修改),单击确定后,等待运行完成。
进入DataWorks工作空间列表页,在顶部切换至目标地域,找到已创建的工作空间,单击操作列的快速进入Data Studio,进入Data Studio。
在Data Studio页面左侧导航栏单击按钮,进入数据开发页面后,在左侧目录树中选择项目目录。
右键单击您所创建的work目录,选择新建节点...EMREMR Hive,自定义EMR Hive节点名,单击确认进行新建。
进入EMR Hive节点编辑页面,将下面脚本中的业务日期替换为当前业务日期,确认同步数据写入结果。查看导入ods_raw_log_d_emr和ods_user_info_d_emr的记录数。
查询语句中的分区列dt需要更新为实际的业务日期。例如,任务运行的日期为20250223,则业务日期为20250222,即任务运行日期的前一天。
如果没有数据,请确保运行工作流时,配置的本次运行值与此处查询时dt指定的业务日期一致,您可以单击工作流,单击右侧的运行历史,在运行记录右侧操作列单击查看,然后在工作流的运行日志中确认运行工作流时业务日期的取值(partition=[pt=xxx])。
任务需要发布至生产环境后才可自动调度运行,您可以参考如下步骤,将工作流发布至生产环境。
本教程已在工作流调度配置中统一配置了调度参数,发布前无需再为每个节点单独配置调度参数。
在Data Studio左侧导航栏单击,然后在项目目录区域找到已创建好的工作流,单击进入工作流看板。
任务发布后,在次日才会生成实例运行,您可以通过补数据来对已发布流程进行补数据操作,以便查看任务在生产环境是否可以运行,详情可参见补数据实例运维。
您也可以单击左上方的图标,选择全部产品数据开发与运维运维中心(工作流)。
单击左侧导航栏中的周期任务运维周期任务,进入周期任务页面,单击workshop_start_emr虚节点。
在右侧的DAG图中,右键单击workshop_start_emr节点,选择补数据当前节点及下游节点。
案例完成后,为了避免后续持续产生费用,您可以选择设置节点调度有效期或者冻结业务流程根节点(虚拟节点workshop_start_emr)。
数据可视化展现:用户画像分析完成后,使用数据分析模块,将加工后的数据以图表形式直观展示,便于您快速提取关键信息,洞察数据背后的业务趋势。
监控数据质量:为数据加工生成的表配置数据质量监控,提前识别脏数据并进行拦截,避免脏数据影响扩大。
管理数据:用户画像分析任务流程完成后,在EMR Hive节点内将创建对应数据表。生成的数据表可在数据地图模块进行查看,可通过血缘查看生成表之间的关系。
API数据服务:获取最终加工后的数据后,使用数据服务模块,通过标准化的数据服务接口,实现数据的共享与应用,为其他使用API接收数据的业务模块提供数据。
