浏览器市场与用户画像分析-数据加工2实验目的数据落地与基础明细表构建基于上一轮浏览器用户行为清洗结果规范构建用户-日-浏览器-小时明细宽表daily_browser_detail统一清洗、去重、排序、字段映射流程为大屏多维统计提供底层标准化行为数据源支撑千万级用户行为数据稳定入库。多维度浏览器行为指标 ETL 加工依托明细宽表分步完成 6 大类浏览器行为统计数据表的自动化抽取、转换、聚合与入库覆盖市场格局、周活跃趋势、使用频率分布、用户浏览器多设备使用分布、工作日 / 周末使用差异、核心指标汇总六大分析维度产出browser_weekly_active、browser_frequency_stat、browser_multi_usage、browser_weekday_weekend、browser_overview业务统计表满足数据大屏可视化展示需求。用户画像多维关联统计导入用户人口属性原始表demographic.csv通过年份换算生成年龄分段标签将浏览器行为明细与用户性别、年龄、学历、职业、收入、居住地、省份等画像字段左关联完成分浏览器的用户画像分组聚合生成user_profile_stats画像统计表实现浏览器使用行为与用户特征联动分析。掌握零代码大数据处理平台实操熟练使用助睿数智 Uniplore 全链路 ETL 组件掌握表输入 / 输出、SQL 脚本执行、排序、分组去重计数、值映射、字段计算、常量新增、JS 自定义逻辑、记录集关联、行转列等核心组件的搭配使用逻辑理解大数据分层加工思想。数据校验与标准化规范掌握数据表创建、覆盖重写、元数据加载、数据探查校验流程规避重复数据、字段类型不匹配、统计口径错误、关联逻辑偏差等常见数据加工问题建立规范的大数据指标开发流程产出口径统一、可直接支撑 BI 大屏可视化的标准化分析数据表。建立多维数据分析思维从市场份额、时间趋势、用户使用习惯、人群分层、时段对比多个视角拆解浏览器业务分析需求学会将业务大屏指标拆解为分步 ETL 转换流实现业务需求到数据加工流程的完整落地。实验环境实验平台助睿在线实验平台 https://lab.guilian.cn/本次实验使用助睿数智Uniplore作为一站式数据科学平台。该平台覆盖从数据接入、ETL处理、机器学习建模到可视化展示的全链路零代码功能适用于数据分析教学与企业数据加工场景。助睿数智官网为 Uniplore iDIS-大数据智能全流程服务平台-BI数据可视化工具数据处理助睿 ETL 数据集成平台建模平台助睿 AI 人工智能平台数据规模1000 用户800 万 条行为记录约 825MB实验数据本实验基于上个实验《浏览器用户行为分析与流失预测-数据加工》产出的数据以及原始数据 demographic 用户属性表。上个实验已输出的数据daily_browser_detail用户-日-浏览器-小时明细表将在本实验第4.1节中输出browser_coverage浏览器市场覆盖率统计表browser_hourly浏览器时段活跃统计表实验步骤首先我们先在团队私有数据库中创建用于存放 用户-日-浏览器-小时 明细表的数据表,打开上个实验创建的项目“互联网用户行为日志”,新建转换流“创建用户_日_浏览器_小时明细表”拖入“执行一个SQL脚本”组件双击“执行一个SQL脚本”组件数据库连接选择“团队私有数据库”,点击“运行”按钮执行转换流在上个实验的项目中找到“互联网用户行为日志数据清洗抽取”转换流右键选择“复制”右键根目录 点击“粘贴”粘贴后右键重命名为“输出用户日浏览器小时明细表”上个实验中“排序记录 1”组件仅按照 process_name 升序排序而分组组件的分组字段是user_id、usage_date、process_name、hour所以需要更正“排序记录 1”组件的排序字段与分组组件的分组字段一致否则会出现多条重复数据在分组组件后添加“值映射”组件“值映射”组件连接到原分支A的分组 1组件、复制发送到原分支B的排序记录 2组件这里需要注意上个实验的“过滤记录筛选进程为主要浏览器的数据”步骤中如果匹配条件是 process_name IN LIST “iexplore.exe;360chrome.exe;360se.exe;chrome.exe;sogouexplorer.exe;QQBrowser.exe”则继续下一步骤如果匹配条件与以上不同则删除匹配值中的EXCEL.EXE、WINWORD.EXE、AlilM.exe因为这3个不是浏览器另外转换流中的分组组件中聚合字段的聚合类型是“个数”的需要改成“统计不同值的数量(N)”并在分支A的“分组 1”组件前添加排序记录组件按 process_name 升序排序拖拽“表输出”组件到画布中值映射组件连接到“表输出”组件双击“表输出”组件配置如下数据库连接选择“团队私有数据库”。目标表daily_browser_detail。勾选“裁剪表”清空原有数据。勾选“指定数据库字段”建立字段映射击“运行”按钮执行转换流在团队私有数据库中创建本实验需要输出的目标表新建转换流“创建浏览器大屏分析目标数据表”拖拽“执行一个SQL脚本”组件双击“执行一个SQL脚本”组件数据库连接选择“团队私有数据库”并输入SQL使用DROP TABLE可以避免需要重新建表时语句报错点击“运行”按钮执行转换流新建转换流“各浏览器周活跃趋势表数据抽取”拖拽“表输入”组件画布中数据库连接选择“团队私有数据库”点击“获取SQL查询语句”选择 daily_browser_detail 获取所有查询语句这里我们需要将每个浏览器的使用日期转为周5/7-5/13、6/4-6/10、7/2-7/8、8/6-8/12可以使用值映射组件完成但是在此之前需要使用字段选择组件对usage_date进行格式转换。拖拽字段选择组件到画布中创建表输入组件到字段选择组件的连线双击字段选择组件点击“元数据”右键插入输入字段名称usage_date类型为Date格式为“yyyy-MM-dd”再拖拽值映射组件字段选择组件连接值映射组件双击值映射组件使用的字段名选择“usage_date”目标字段名空覆盖输入“week_range”表示创建新字段week_range用来存储映射结果接下来就插入行将每个日期映射为对应的周区间接下来我们按各浏览器、周分组统计用户数分组之前需要对数据进行排序避免统计结果出错。拖拽排序记录组件到画布中创建值映射组件到排序记录组件的连线排序记录组件设置为按照browser_name、week_range 升序排序排序后拖拽分组组件排序记录组件连接到分组组件分组字段为browser_name、week_range聚合时对user_id进行去重计数得到active_user_count因此聚合配置中输入字段“active_user_count”subject 为“user_id”类型为“统计不同值的数量(N)”最后拖入表输出组件将分组聚合结果入库表输出组件配置为数据库连接选择“团队私有数据库”。目标表browser_weekly_active。。勾选“裁剪表”清空原有数据。勾选“指定数据库字段”建立字段映射执行转换流新建转换流“使用频率分布数据抽取”拖拽“表输入”组件画布中数据库连接选择“团队私有数据库”点击“获取SQL查询语句”选择 daily_browser_detail 获取所有查询语句接下来我们统计每个用户使用各浏览器的使用时长拖拽排序记录组件到画布中创建表输入组件到排序记录组件的连线排序记录组件设置为按照 user_id、browser_name 升序排序排序后拖拽分组组件排序记录组件连接到分组组件分组组件的分组字段为 user_id、browser_name总使用时长 每天总使用时长 total_duration_sec 求和这样计算的总时长单位是秒我们将其转换为小时更直观小时 秒 ÷ 3600由于我们的数据中没有3600这个字段所以需要先增加这个常量字段。拖拽增加常量组件到画布中分组组件连接到增加常量组件增加常量组件配置中增加新字段“hour_m_s”将其类型设置为 Integer 并且值固定为 3600如下接下来拖入计算器组件通过计算器计算小时新增使用时长单位为小时的字段“total_hours”计算公式为“A / B”字段A为“total_seconds”字段B为“hour_m_s”保留2位小数接下来我们为使用频率划分等级。拖入JavaScript代码组件计算器组件连接到JavaScript代码组件双击JavaScript代码组件输入代码点击”获取变量”自动获取代码中的变量usage_level这个字段我们需要在之前的增加常量组件中新增接下来我们就可以统计每个浏览器的各使用等级的用户数了同样的先拖入排序记录组件将数据按照 browser_name、usage_level 升序排序再拖入分组组件按 browser_name、usage_level 分组统计 user_countuser_id去重计数最后拖入表输出组件将分组聚合结果入库表输出组件配置为数据库连接选择“团队私有数据库”目标表browser_frequency_stat;勾选“裁剪表”清空原有数据;勾选“指定数据库字段”建立字段映射执行转换流新建转换流“浏览器使用数量分布数据抽取”拖拽“表输入”组件画布中数据库连接选择“团队私有数据库”点击“获取SQL查询语句”选择 daily_browser_detail 获取所有查询语句接下来我们统计每个用户使用各浏览器的种类数量拖拽排序记录组件到画布中创建表输入组件到排序记录组件的连线,排序记录组件设置为按照 user_id 升序排序排序后拖拽分组组件排序记录组件连接到分组组件,分组组件的分组字段为 user_id使用浏览种类数量 浏览器名称去重计数接下来我们划分浏览器数量等级。拖入JavaScript代码组件计算器组件连接到JavaScript代码组件,双击JavaScript代码组件输入代码点击”获取变量”自动获取代码中的变量接下来我们就可以统计使用1种、2种、3种浏览器的用户数了同样的先拖入排序记录组件将数据按照 browser_count 升序排序再拖入分组组件按 browser_count 分组统计 user_countuser_id去重计数最后拖入表输出组件将分组聚合结果入库表输出组件配置为数据库连接选择“团队私有数据库”目标表browser_multi_usage勾选“裁剪表”清空原有数据勾选“指定数据库字段”建立字段映射执行转换流新建转换流“浏览器工作日周末对比数据抽取”拖拽“表输入”组件画布中数据库连接选择“团队私有数据库”点击“获取SQL查询语句”选择 daily_browser_detail 获取所有查询语句接下来根据使用日期获取星期几拖拽JavaScript代码组件到画布中表输入组件连接JavaScript代码组件双击JavaScript代码组件输入代码点击”获取变量”自动获取代码中的变量接下来我们就可以统计工作日和周末的使用时长和用户数了同样的先拖入排序记录组件将数据按照 browser_name、 day_type升序排序再拖入分组组件按 browser_name、 day_type 分组。聚合avg_seconds 平均使用时长秒total_seconds 总使用时长秒user_count COUNT(DISTINCT user_id)平均使用时长单位是秒的数值不会太大是比较好观察但是总使用时长的单位是秒的话数值很大不够直观所以将其转为小时参考“各浏览器使用频率分布表数据抽取”种计算小时的方法使用增加常量组件和计算器组件来实现在计算过程中出现了一些中间字段我们使用字段选择组件来删除冗余字段最后拖入表输出组件将分组聚合结果入库表输出组件配置为数据库连接选择“团队私有数据库”目标表browser_weekday_weekend勾选“裁剪表”清空原有数据勾选“指定数据库字段”建立字段映射执行转换流用一个表输入组件直接SQL一次性算出所有指标然后通过列转行将一行转为四行新建转换流“核心指标数据抽取”拖入表输入组件数据库连接团队私有数据库在SQL语句框中输入SQL接下来使用行转列组件将字段名称转为指标名称字段值转为指标值接下来使用值映射组件将指标名称映射为中文最后使用表输出组件写入目标表 browser_overview最后执行转换流即可本次实验已经将 demographic.csv 预先存放在实验平台的公共空间数据资源中可以直接导出到我们的项目文件目库中点击“公共空间”点击tab选项“数据资源”可以看到 demographic.csv点击 demographic.csv 卡片右上角的“更多” - “导出”选择导出到的目录例如根目录最后点击“确定”刷新文件库的根目录即可看到 demographic.csv新建转换流“用户画像表加工”拖拽“CSV文件输入”组件到画布中双击“CSV文件输入”组件点击“浏览文件”按钮在弹出的窗口中选择 demographic.csv然后点击“确定”列分隔符和封闭符保持不变编码选择“UTF-8”往下滑一点在空白表格处右键点击“获取字段”字段获取成功后点击“确认”原人口属性数据中没有年龄字段但是有出生年份因此我们可以通过计算获取用户的年龄属性首先我们拖入增加常量组件增加常量字段“year”值设为“2012”数据是2012年的拖入“计算器”组件来计算用户在2012年的年龄年龄 2012 - 出生年份即age year - BIRTHDAY接下来我们将年龄划分为四段18、18-25、26-35、35拖入JavaScript代码组件计算器组件连接到JavaScript代码组件双击JavaScript代码组件输入代码点击“获取变量”自动获取代码输出的变量拖入“表输入”组件到画布中双击“表输入”组件数据库连接选择“团队私有数据库”点击“获取SQL查询语句”在弹出的窗口中选择用户_日_浏览器_小时明细表 daily_browser_detail系统提示选择“确认”获取SQL查询语句后点击“确认”、我们先拖拽2个“排序记录”组件到画布中分别创建“表输入”组件到“排序记录 1”组件的连线、“CSV文件输入”组件到“排序记录”组件的连线其中“CSV文件输入”组件到“排序记录”组件的连线类型选择“主输出步骤”双击“排序记录 1”组件命名为“明细数据按用户ID排序”在空白表格处右键点击“获取字段”仅保留“user-id”其他字段选中后右键点击“删除选中的行”设置 user_id 升序排序后点击“确认”同样的双击“排序记录”组件命名为“用户属性数据按用户ID排序”设置按 USERID 升序排序接下来两个数据就可以通过记录集连接组件来关联了拖拽“记录集连接”组件到画布中2个排序记录组件分别连接到记录集连接组件因为数据已经排序了右上角的提示可以忽略双击“记录集连接”组件第一个Transform选择“明细数据按用户ID排序”第二个Transform选择“用户属性数据按用户ID排序”连接类型选择“LEFT OUTER”分别点击两个“获得连接字段”按钮获取2个数据的字段2个数据是通过用户ID关联的所以第一个Transform的连接字段保留“user_id”第二个Transform的连接字段保留“USERID”其他字段通过删除选中的行来删除分组统计之前需要先对数据进行排序拖入排序记录组件记录集连接组件连接到排序记录组件按照等下分组聚合的分组字段升序排序即browser_name、GENDER、EDU、JOB、INCOME、PROVINCE、ISCITY、age_group拖入分组组件排序记录组件连接到分组组件按 browser_name、GENDER、EDU、JOB、INCOME、PROVINCE、ISCITY、age_group 分组聚合 user_count user_id 统计不同值的数量(N)拖入表输出组件将分组聚合结果入库表输出组件配置为数据库连接选择“团队私有数据库”目标表user_profile_stats勾选“裁剪表”清空原有数据勾选“指定数据库字段”建立字段映射点击“运行”按钮点击“元数据”tab选项右键团队私有数据库点击“加载元数据”点击“数据探查”查看以上生成的目标表是否符合预期实验收获一平台与 ETL 工具实操能力收获熟练掌握助睿数智 Uniplore 一站式零代码大数据平台全流程操作能够独立创建项目、新建多类型转换流灵活搭配 SQL 脚本、表输入输出、CSV 文件读取、排序、分组、值映射、计算器、JS 代码、记录集连接、行转列等 ETL 组件理解各组件执行顺序与数据流转逻辑。掌握千万级海量行为数据800 万 行为记录加工优化技巧明确大数据聚合前必须先排序有效解决分组统计重复计数、数据错乱问题熟练运用分组组件 “统计不同值的数量 (N)” 实现用户 ID 去重计数掌握时长单位换算、区间标签映射、分段分层等标准化数据处理手段。学会数据表安全管理操作通过DROP TABLE前置 SQL 避免建表报错使用 “裁剪表” 功能实现目标表全量覆盖写入掌握字段选择、冗余字段剔除、元数据加载、数据探查等数据校验手段具备基础的数据质量自查能力。二数据加工与统计口径专业收获完整掌握多层级数据加工体系底层明细层daily_browser_detail→中间聚合统计层各类浏览器行为统计表、用户画像表→大屏汇总指标层browser_overview理解数仓分层思想明白明细宽表是所有多维统计的统一底层数据源。掌握多类型业务指标计算逻辑时间维度日期转周区间、日期判断工作日 / 周末、出生年份换算年龄并自定义年龄分层时长指标总秒数求和、平均使用时长、秒与小时单位换算用户规模指标去重活跃用户数、分等级使用用户数量、多浏览器使用人群分布对比类指标浏览器工作日、周末使用行为差异对比画像关联指标行为数据与用户属性左关联实现按浏览器拆分人群画像分布统计。学会灵活使用自定义逻辑组件通过值映射完成区间文本转换通过 JavaScript 代码实现使用频率等级、年龄分段等复杂标签划分通过行转列实现单表多指标结构化汇总适配大屏指标展示格式。三业务分析与项目思维收获学会将数据大屏业务需求拆解为可落地的分步 ETL 任务能够把 “浏览器市场格局、活跃趋势、用户画像” 等可视化需求拆解为多张独立统计表分转换流开发、独立调度运行降低单一流计算压力便于问题排查与迭代维护。建立多维用户行为分析思维能够从市场、时间、用户习惯、人群特征、时段对比五个角度搭建完整分析体系理解浏览器分析的核心业务维度知晓各类统计结果可支撑市场投放、产品优化、用户分层运营等业务决策。理解行为数据与用户画像数据的融合价值掌握日志行为表与人口属性表的关联加工方法实现 “什么样的用户偏好使用哪款浏览器” 的联动分析具备用户分层运营的数据支撑能力。四问题排查与规范开发意识收获总结海量数据加工常见坑点分组前未排序造成统计重复、过滤条件混入非浏览器进程、聚合函数选用错误导致用户计数失真、关联数据未排序引发关联错乱、日期 / 数值字段类型不匹配计算失败等形成标准化避坑操作流程。建立规范化数据开发习惯统一数据库连接配置、规范数据表命名、统一字段映射规则、加工完成后通过元数据与数据探查校验结果保障产出数据表口径统一、数据准确可直接交付 BI 大屏进行可视化展示。具备独立完整完成大数据指标开发项目的能力能够从零完成底层明细表构建、多维度指标聚合、用户画像融合、指标汇总、数据校验全流程工作适配企业级数据分析、BI 大屏开发的基础工作场景。
浏览器市场与用户画像分析-数据加工2
浏览器市场与用户画像分析-数据加工2实验目的数据落地与基础明细表构建基于上一轮浏览器用户行为清洗结果规范构建用户-日-浏览器-小时明细宽表daily_browser_detail统一清洗、去重、排序、字段映射流程为大屏多维统计提供底层标准化行为数据源支撑千万级用户行为数据稳定入库。多维度浏览器行为指标 ETL 加工依托明细宽表分步完成 6 大类浏览器行为统计数据表的自动化抽取、转换、聚合与入库覆盖市场格局、周活跃趋势、使用频率分布、用户浏览器多设备使用分布、工作日 / 周末使用差异、核心指标汇总六大分析维度产出browser_weekly_active、browser_frequency_stat、browser_multi_usage、browser_weekday_weekend、browser_overview业务统计表满足数据大屏可视化展示需求。用户画像多维关联统计导入用户人口属性原始表demographic.csv通过年份换算生成年龄分段标签将浏览器行为明细与用户性别、年龄、学历、职业、收入、居住地、省份等画像字段左关联完成分浏览器的用户画像分组聚合生成user_profile_stats画像统计表实现浏览器使用行为与用户特征联动分析。掌握零代码大数据处理平台实操熟练使用助睿数智 Uniplore 全链路 ETL 组件掌握表输入 / 输出、SQL 脚本执行、排序、分组去重计数、值映射、字段计算、常量新增、JS 自定义逻辑、记录集关联、行转列等核心组件的搭配使用逻辑理解大数据分层加工思想。数据校验与标准化规范掌握数据表创建、覆盖重写、元数据加载、数据探查校验流程规避重复数据、字段类型不匹配、统计口径错误、关联逻辑偏差等常见数据加工问题建立规范的大数据指标开发流程产出口径统一、可直接支撑 BI 大屏可视化的标准化分析数据表。建立多维数据分析思维从市场份额、时间趋势、用户使用习惯、人群分层、时段对比多个视角拆解浏览器业务分析需求学会将业务大屏指标拆解为分步 ETL 转换流实现业务需求到数据加工流程的完整落地。实验环境实验平台助睿在线实验平台 https://lab.guilian.cn/本次实验使用助睿数智Uniplore作为一站式数据科学平台。该平台覆盖从数据接入、ETL处理、机器学习建模到可视化展示的全链路零代码功能适用于数据分析教学与企业数据加工场景。助睿数智官网为 Uniplore iDIS-大数据智能全流程服务平台-BI数据可视化工具数据处理助睿 ETL 数据集成平台建模平台助睿 AI 人工智能平台数据规模1000 用户800 万 条行为记录约 825MB实验数据本实验基于上个实验《浏览器用户行为分析与流失预测-数据加工》产出的数据以及原始数据 demographic 用户属性表。上个实验已输出的数据daily_browser_detail用户-日-浏览器-小时明细表将在本实验第4.1节中输出browser_coverage浏览器市场覆盖率统计表browser_hourly浏览器时段活跃统计表实验步骤首先我们先在团队私有数据库中创建用于存放 用户-日-浏览器-小时 明细表的数据表,打开上个实验创建的项目“互联网用户行为日志”,新建转换流“创建用户_日_浏览器_小时明细表”拖入“执行一个SQL脚本”组件双击“执行一个SQL脚本”组件数据库连接选择“团队私有数据库”,点击“运行”按钮执行转换流在上个实验的项目中找到“互联网用户行为日志数据清洗抽取”转换流右键选择“复制”右键根目录 点击“粘贴”粘贴后右键重命名为“输出用户日浏览器小时明细表”上个实验中“排序记录 1”组件仅按照 process_name 升序排序而分组组件的分组字段是user_id、usage_date、process_name、hour所以需要更正“排序记录 1”组件的排序字段与分组组件的分组字段一致否则会出现多条重复数据在分组组件后添加“值映射”组件“值映射”组件连接到原分支A的分组 1组件、复制发送到原分支B的排序记录 2组件这里需要注意上个实验的“过滤记录筛选进程为主要浏览器的数据”步骤中如果匹配条件是 process_name IN LIST “iexplore.exe;360chrome.exe;360se.exe;chrome.exe;sogouexplorer.exe;QQBrowser.exe”则继续下一步骤如果匹配条件与以上不同则删除匹配值中的EXCEL.EXE、WINWORD.EXE、AlilM.exe因为这3个不是浏览器另外转换流中的分组组件中聚合字段的聚合类型是“个数”的需要改成“统计不同值的数量(N)”并在分支A的“分组 1”组件前添加排序记录组件按 process_name 升序排序拖拽“表输出”组件到画布中值映射组件连接到“表输出”组件双击“表输出”组件配置如下数据库连接选择“团队私有数据库”。目标表daily_browser_detail。勾选“裁剪表”清空原有数据。勾选“指定数据库字段”建立字段映射击“运行”按钮执行转换流在团队私有数据库中创建本实验需要输出的目标表新建转换流“创建浏览器大屏分析目标数据表”拖拽“执行一个SQL脚本”组件双击“执行一个SQL脚本”组件数据库连接选择“团队私有数据库”并输入SQL使用DROP TABLE可以避免需要重新建表时语句报错点击“运行”按钮执行转换流新建转换流“各浏览器周活跃趋势表数据抽取”拖拽“表输入”组件画布中数据库连接选择“团队私有数据库”点击“获取SQL查询语句”选择 daily_browser_detail 获取所有查询语句这里我们需要将每个浏览器的使用日期转为周5/7-5/13、6/4-6/10、7/2-7/8、8/6-8/12可以使用值映射组件完成但是在此之前需要使用字段选择组件对usage_date进行格式转换。拖拽字段选择组件到画布中创建表输入组件到字段选择组件的连线双击字段选择组件点击“元数据”右键插入输入字段名称usage_date类型为Date格式为“yyyy-MM-dd”再拖拽值映射组件字段选择组件连接值映射组件双击值映射组件使用的字段名选择“usage_date”目标字段名空覆盖输入“week_range”表示创建新字段week_range用来存储映射结果接下来就插入行将每个日期映射为对应的周区间接下来我们按各浏览器、周分组统计用户数分组之前需要对数据进行排序避免统计结果出错。拖拽排序记录组件到画布中创建值映射组件到排序记录组件的连线排序记录组件设置为按照browser_name、week_range 升序排序排序后拖拽分组组件排序记录组件连接到分组组件分组字段为browser_name、week_range聚合时对user_id进行去重计数得到active_user_count因此聚合配置中输入字段“active_user_count”subject 为“user_id”类型为“统计不同值的数量(N)”最后拖入表输出组件将分组聚合结果入库表输出组件配置为数据库连接选择“团队私有数据库”。目标表browser_weekly_active。。勾选“裁剪表”清空原有数据。勾选“指定数据库字段”建立字段映射执行转换流新建转换流“使用频率分布数据抽取”拖拽“表输入”组件画布中数据库连接选择“团队私有数据库”点击“获取SQL查询语句”选择 daily_browser_detail 获取所有查询语句接下来我们统计每个用户使用各浏览器的使用时长拖拽排序记录组件到画布中创建表输入组件到排序记录组件的连线排序记录组件设置为按照 user_id、browser_name 升序排序排序后拖拽分组组件排序记录组件连接到分组组件分组组件的分组字段为 user_id、browser_name总使用时长 每天总使用时长 total_duration_sec 求和这样计算的总时长单位是秒我们将其转换为小时更直观小时 秒 ÷ 3600由于我们的数据中没有3600这个字段所以需要先增加这个常量字段。拖拽增加常量组件到画布中分组组件连接到增加常量组件增加常量组件配置中增加新字段“hour_m_s”将其类型设置为 Integer 并且值固定为 3600如下接下来拖入计算器组件通过计算器计算小时新增使用时长单位为小时的字段“total_hours”计算公式为“A / B”字段A为“total_seconds”字段B为“hour_m_s”保留2位小数接下来我们为使用频率划分等级。拖入JavaScript代码组件计算器组件连接到JavaScript代码组件双击JavaScript代码组件输入代码点击”获取变量”自动获取代码中的变量usage_level这个字段我们需要在之前的增加常量组件中新增接下来我们就可以统计每个浏览器的各使用等级的用户数了同样的先拖入排序记录组件将数据按照 browser_name、usage_level 升序排序再拖入分组组件按 browser_name、usage_level 分组统计 user_countuser_id去重计数最后拖入表输出组件将分组聚合结果入库表输出组件配置为数据库连接选择“团队私有数据库”目标表browser_frequency_stat;勾选“裁剪表”清空原有数据;勾选“指定数据库字段”建立字段映射执行转换流新建转换流“浏览器使用数量分布数据抽取”拖拽“表输入”组件画布中数据库连接选择“团队私有数据库”点击“获取SQL查询语句”选择 daily_browser_detail 获取所有查询语句接下来我们统计每个用户使用各浏览器的种类数量拖拽排序记录组件到画布中创建表输入组件到排序记录组件的连线,排序记录组件设置为按照 user_id 升序排序排序后拖拽分组组件排序记录组件连接到分组组件,分组组件的分组字段为 user_id使用浏览种类数量 浏览器名称去重计数接下来我们划分浏览器数量等级。拖入JavaScript代码组件计算器组件连接到JavaScript代码组件,双击JavaScript代码组件输入代码点击”获取变量”自动获取代码中的变量接下来我们就可以统计使用1种、2种、3种浏览器的用户数了同样的先拖入排序记录组件将数据按照 browser_count 升序排序再拖入分组组件按 browser_count 分组统计 user_countuser_id去重计数最后拖入表输出组件将分组聚合结果入库表输出组件配置为数据库连接选择“团队私有数据库”目标表browser_multi_usage勾选“裁剪表”清空原有数据勾选“指定数据库字段”建立字段映射执行转换流新建转换流“浏览器工作日周末对比数据抽取”拖拽“表输入”组件画布中数据库连接选择“团队私有数据库”点击“获取SQL查询语句”选择 daily_browser_detail 获取所有查询语句接下来根据使用日期获取星期几拖拽JavaScript代码组件到画布中表输入组件连接JavaScript代码组件双击JavaScript代码组件输入代码点击”获取变量”自动获取代码中的变量接下来我们就可以统计工作日和周末的使用时长和用户数了同样的先拖入排序记录组件将数据按照 browser_name、 day_type升序排序再拖入分组组件按 browser_name、 day_type 分组。聚合avg_seconds 平均使用时长秒total_seconds 总使用时长秒user_count COUNT(DISTINCT user_id)平均使用时长单位是秒的数值不会太大是比较好观察但是总使用时长的单位是秒的话数值很大不够直观所以将其转为小时参考“各浏览器使用频率分布表数据抽取”种计算小时的方法使用增加常量组件和计算器组件来实现在计算过程中出现了一些中间字段我们使用字段选择组件来删除冗余字段最后拖入表输出组件将分组聚合结果入库表输出组件配置为数据库连接选择“团队私有数据库”目标表browser_weekday_weekend勾选“裁剪表”清空原有数据勾选“指定数据库字段”建立字段映射执行转换流用一个表输入组件直接SQL一次性算出所有指标然后通过列转行将一行转为四行新建转换流“核心指标数据抽取”拖入表输入组件数据库连接团队私有数据库在SQL语句框中输入SQL接下来使用行转列组件将字段名称转为指标名称字段值转为指标值接下来使用值映射组件将指标名称映射为中文最后使用表输出组件写入目标表 browser_overview最后执行转换流即可本次实验已经将 demographic.csv 预先存放在实验平台的公共空间数据资源中可以直接导出到我们的项目文件目库中点击“公共空间”点击tab选项“数据资源”可以看到 demographic.csv点击 demographic.csv 卡片右上角的“更多” - “导出”选择导出到的目录例如根目录最后点击“确定”刷新文件库的根目录即可看到 demographic.csv新建转换流“用户画像表加工”拖拽“CSV文件输入”组件到画布中双击“CSV文件输入”组件点击“浏览文件”按钮在弹出的窗口中选择 demographic.csv然后点击“确定”列分隔符和封闭符保持不变编码选择“UTF-8”往下滑一点在空白表格处右键点击“获取字段”字段获取成功后点击“确认”原人口属性数据中没有年龄字段但是有出生年份因此我们可以通过计算获取用户的年龄属性首先我们拖入增加常量组件增加常量字段“year”值设为“2012”数据是2012年的拖入“计算器”组件来计算用户在2012年的年龄年龄 2012 - 出生年份即age year - BIRTHDAY接下来我们将年龄划分为四段18、18-25、26-35、35拖入JavaScript代码组件计算器组件连接到JavaScript代码组件双击JavaScript代码组件输入代码点击“获取变量”自动获取代码输出的变量拖入“表输入”组件到画布中双击“表输入”组件数据库连接选择“团队私有数据库”点击“获取SQL查询语句”在弹出的窗口中选择用户_日_浏览器_小时明细表 daily_browser_detail系统提示选择“确认”获取SQL查询语句后点击“确认”、我们先拖拽2个“排序记录”组件到画布中分别创建“表输入”组件到“排序记录 1”组件的连线、“CSV文件输入”组件到“排序记录”组件的连线其中“CSV文件输入”组件到“排序记录”组件的连线类型选择“主输出步骤”双击“排序记录 1”组件命名为“明细数据按用户ID排序”在空白表格处右键点击“获取字段”仅保留“user-id”其他字段选中后右键点击“删除选中的行”设置 user_id 升序排序后点击“确认”同样的双击“排序记录”组件命名为“用户属性数据按用户ID排序”设置按 USERID 升序排序接下来两个数据就可以通过记录集连接组件来关联了拖拽“记录集连接”组件到画布中2个排序记录组件分别连接到记录集连接组件因为数据已经排序了右上角的提示可以忽略双击“记录集连接”组件第一个Transform选择“明细数据按用户ID排序”第二个Transform选择“用户属性数据按用户ID排序”连接类型选择“LEFT OUTER”分别点击两个“获得连接字段”按钮获取2个数据的字段2个数据是通过用户ID关联的所以第一个Transform的连接字段保留“user_id”第二个Transform的连接字段保留“USERID”其他字段通过删除选中的行来删除分组统计之前需要先对数据进行排序拖入排序记录组件记录集连接组件连接到排序记录组件按照等下分组聚合的分组字段升序排序即browser_name、GENDER、EDU、JOB、INCOME、PROVINCE、ISCITY、age_group拖入分组组件排序记录组件连接到分组组件按 browser_name、GENDER、EDU、JOB、INCOME、PROVINCE、ISCITY、age_group 分组聚合 user_count user_id 统计不同值的数量(N)拖入表输出组件将分组聚合结果入库表输出组件配置为数据库连接选择“团队私有数据库”目标表user_profile_stats勾选“裁剪表”清空原有数据勾选“指定数据库字段”建立字段映射点击“运行”按钮点击“元数据”tab选项右键团队私有数据库点击“加载元数据”点击“数据探查”查看以上生成的目标表是否符合预期实验收获一平台与 ETL 工具实操能力收获熟练掌握助睿数智 Uniplore 一站式零代码大数据平台全流程操作能够独立创建项目、新建多类型转换流灵活搭配 SQL 脚本、表输入输出、CSV 文件读取、排序、分组、值映射、计算器、JS 代码、记录集连接、行转列等 ETL 组件理解各组件执行顺序与数据流转逻辑。掌握千万级海量行为数据800 万 行为记录加工优化技巧明确大数据聚合前必须先排序有效解决分组统计重复计数、数据错乱问题熟练运用分组组件 “统计不同值的数量 (N)” 实现用户 ID 去重计数掌握时长单位换算、区间标签映射、分段分层等标准化数据处理手段。学会数据表安全管理操作通过DROP TABLE前置 SQL 避免建表报错使用 “裁剪表” 功能实现目标表全量覆盖写入掌握字段选择、冗余字段剔除、元数据加载、数据探查等数据校验手段具备基础的数据质量自查能力。二数据加工与统计口径专业收获完整掌握多层级数据加工体系底层明细层daily_browser_detail→中间聚合统计层各类浏览器行为统计表、用户画像表→大屏汇总指标层browser_overview理解数仓分层思想明白明细宽表是所有多维统计的统一底层数据源。掌握多类型业务指标计算逻辑时间维度日期转周区间、日期判断工作日 / 周末、出生年份换算年龄并自定义年龄分层时长指标总秒数求和、平均使用时长、秒与小时单位换算用户规模指标去重活跃用户数、分等级使用用户数量、多浏览器使用人群分布对比类指标浏览器工作日、周末使用行为差异对比画像关联指标行为数据与用户属性左关联实现按浏览器拆分人群画像分布统计。学会灵活使用自定义逻辑组件通过值映射完成区间文本转换通过 JavaScript 代码实现使用频率等级、年龄分段等复杂标签划分通过行转列实现单表多指标结构化汇总适配大屏指标展示格式。三业务分析与项目思维收获学会将数据大屏业务需求拆解为可落地的分步 ETL 任务能够把 “浏览器市场格局、活跃趋势、用户画像” 等可视化需求拆解为多张独立统计表分转换流开发、独立调度运行降低单一流计算压力便于问题排查与迭代维护。建立多维用户行为分析思维能够从市场、时间、用户习惯、人群特征、时段对比五个角度搭建完整分析体系理解浏览器分析的核心业务维度知晓各类统计结果可支撑市场投放、产品优化、用户分层运营等业务决策。理解行为数据与用户画像数据的融合价值掌握日志行为表与人口属性表的关联加工方法实现 “什么样的用户偏好使用哪款浏览器” 的联动分析具备用户分层运营的数据支撑能力。四问题排查与规范开发意识收获总结海量数据加工常见坑点分组前未排序造成统计重复、过滤条件混入非浏览器进程、聚合函数选用错误导致用户计数失真、关联数据未排序引发关联错乱、日期 / 数值字段类型不匹配计算失败等形成标准化避坑操作流程。建立规范化数据开发习惯统一数据库连接配置、规范数据表命名、统一字段映射规则、加工完成后通过元数据与数据探查校验结果保障产出数据表口径统一、数据准确可直接交付 BI 大屏进行可视化展示。具备独立完整完成大数据指标开发项目的能力能够从零完成底层明细表构建、多维度指标聚合、用户画像融合、指标汇总、数据校验全流程工作适配企业级数据分析、BI 大屏开发的基础工作场景。