完成数据同步、数据加工和质量监控的全流程操作。为了确保您能够顺利完成本教程,您需要准备教程所需的
为了更好地制定企业经营策略,现需要从用户网站行为中获取网站用户群体基本画像数据,例如,用户群体的地理属性、社会属性等,实现定时定点进行画像分析,进而实现网站流量精细化运营操作。
为了顺利进行教程操作,请您务必阅读实验介绍,充分了解用户画像分析案例整体流程。
本案例提供数据仅作为阿里云大数据开发治理平台DataWorks数据应用实操使用,所有数据均为人工Mock数据。
本教程基于MaxCompute实现,请确保您已开通MaxCompute,可参考以下参数开通上海地域的MaxCompute。
DataWorks标准工作空间下,需绑定开发和生产两个MaxCompute项目,作为DataWorks开发环境下的计算资源以及生产环境下的计算资源。
进入MaxCompute工作台,单击左侧菜单进入管理配置项目管理页面。
单击新建项目按钮,分别新建两个MaxCompute,以下为本示例所需配置的关键参数,未说明参数保持默认即可。详情可参见:创建MaxCompute项目。
登录DataWorks控制台,在顶部切换地域至华东2(上海),单击左侧导航栏中的工作空间,进入空间列表页面。
单击创建工作空间,创建标准模式空间(生产、开发环境隔离),不选择使用新版数据开发(Data Studio)。
2025年02月18日后,主账号在华东2(上海)地域首次开通DataWorks并创建工作空间时,默认启用新版数据开发,将不会展示使用新版数据开发(Data Studio)参数。如您已默认启用了新版数据开发,具体教程请参见使用新版数据开发体验。
本教程需将存储在OSS、MySQL中的数据同步至MaxCompute,同步任务需使用DataWorks的Serverless资源组,因此您需要先购买Serverless资源组,并完成前期的准备工作。
本教程在数据同步与调度时,需要使用DataWorks的Serverless资源组,因此您需要先购买Serverless资源组,并完成前期的准备工作。
登录DataWorks-资源组列表页,在顶部切换地域至华东2(上海),单击左侧导航栏的资源组,进入资源组列表页面。
单击创建资源组,在资源组购买页面,选择地域和可用区为华东2(上海)、设置资源组名称,其他参数可根据界面提示进行配置,完成后根据界面提示完成付款。Serverless资源组的计费说明请参见Serverless资源组计费。
如当前地域没有可用的VPC和交换机,请单击参数说明中对应的控制台链接前往创建。VPC和交换机的更多信息,请参见什么是专有网络VPC。
新购买的Serverless资源组需要绑定至工作空间,才能在后续操作中使用。
登录DataWorks-资源组列表页,在顶部切换地域至华东2(上海),找到购买的Serverless资源组,单击操作列的绑定工作空间,然后单击已创建的DataWorks工作空间后的绑定。
由于本教程使用的测试数据需要通过公网获取,资源组默认不具备公网访问能力,因此需要为资源组绑定的VPC配置公网NAT网关,添加EIP,使其与公开数据网络打通,从而获取数据。
登录专有网络-公网NAT网关控制台,在顶部菜单栏切换至华东2(上海)地域。
单击创建公网NAT网关,配置相关参数。以下为本示例所需配置的关键参数,未说明参数保持默认即可。
您可以前往DataWorks管理控制台,切换地域后,在左侧导航栏单击资源组列表,找到已创建的资源组,然后单击操作列的网络设置,在数据调度 & 数据集成区域查看绑定专有网络和交换机。VPC和交换机的更多信息,请参见什么是专有网络VPC。
更多新增和使用Serverless资源组的操作指导请参见使用Serverless资源组。
您需要先将已创建的MaxCompute项目作为计算资源绑定至DataWorks工作空间,后续才能在数据开发模块中对MaxCompute中的数据进行处理。
进入DataWorks-工作空间列表页,在顶部切换地域至华东2(上海),找到已创建的工作空间,单击工作空间名称,进入空间详情页。
本教程使用MaxCompute作为计算和存储资源,此处计算资源类型选择MaxCompute,配置相关参数。以下为本示例所需配置的关键参数,未说明参数保持默认即可。
自定义,用于标识该计算资源,在任务运行时,通过计算资源实例名称来选择任务运行的计算资源。
选择需要绑定的MaxCompute项目,本教程分别为生产环境和开发环境绑定步骤二中已创建好的对应MaxCompute项目。
如果您当前登录的是其他身份账号,具体配置请参见新版数据开发:绑定MaxCompute计算资源。
连接MaxCompute计算资源的资源组,此处展示已创建并绑定至当前工作空间的Serverless资源组,您需要在此处分别测试开发环境和生产环境的连通性。
根据页面提示,刷新数据开发计算资源页面后,即可看到已创建并绑定的MaxCompute计算资源。
若发现创建的MaxCompute计算资源呈未绑定状态,单击绑定按钮进行绑定。
现在,您已经完成了环境的准备,您可以继续下一个教程。在下一个教程中,您将学习将用户基本信息数据、用户网站访问日志数据同步至MaxCompute中。详情请参见同步数据。DataWorks也为您提供了本教程相关代码,您可一键导入网站用户画像分析模板,直接体验监控数据质量。导入用户画像分析模板可参见:画像分析模板导入。
