一、实验背景1.1 实验目的基于已完成的学生考勤主题标签表student_attendance_stats使用 K-Means 聚类算法对学生考勤行为进行自动分群。通过迟到、早退、请假、校服违规次数等核心指标识别不同类型的考勤群体生成可解释的考勤画像为校园学生管理、行为分析提供精准数据支撑。1.2 实验环境工具为助睿数智Uniplore在线实验平台https://lab.guilan.cn/ 助睿数智Uniplore是AI驱动的一站式数据科学平台覆盖从数据接入、ETL处理、机器学习建模到可视化展示的全链路零代码功能产品官网为 https://www.uniplore.com/本次实验主要用到以下功能平台数据集成平台助睿 ETL人工智能平台助睿 AI助睿BI 数据可视化探索平台数据库MySQL前置数据学生考勤主题标签表student_attendance_stats2 实验数据2.1 数据构成本次实验使用上一实验输出的学生考勤主题标签表数据包含学生基础信息与考勤次数统计结果为聚类建模提供干净、标准化的特征数据。2.2 字段说明2.3 建模思路通过对数据的观察以及对考勤分群的业务需求分析本次建模分析思路如下数据维度清晰、变量数量适中聚焦考勤行为核心指标无需复杂降维。基于考勤业务理解将变量聚焦在迟到次数、早退次数、请假次数、校服违规次数四类行为维度每个维度直接反映一类考勤特征变量间业务含义独立、相关性低可直接用于 K-Means 聚类建模避免变量冗余导致模型解释困难。本次建模采用次数类连续变量数据类型单一、适配 K-Means 算法要求。考勤次数均为非负整数属于连续型变量满足 K-Means 对数据类型的要求无需进行哑变量编码、二值化或特殊转换可直接输入模型简化预处理流程保证聚类结果稳定可靠。学生基础离散属性性别、年级、住校状态等不参与聚类建模仅作为后续画像标签的辅助解释变量。【K-Means 算法小说明】一种无监督聚类自动把相似数据分成 K 类用于分组、降维、数据划分、异常筛查。算法步骤如下预先指定聚类数K随机选 K 个初始聚类中心。按距离把所有样本划分到最近簇。重新计算每簇均值作为新中心。反复迭代中心不再变化即收敛完成聚类。三、实验步骤3.1 AI Studio 聚类建模3.1.1 新建工作流我们使用 AI Studio 搭建从数据加载到聚类建模、结果输出的完整流程为后续建模提供独立运行空间。点击左边菜单“人工智能”进入人工智能平台AI Studio。点击“” - “新建工作流”人工智能模块页面是集构建、运行、编辑、查看于一体的工作区域。在该模块页面中主要包括三个模块分别是菜单栏控件列表以及画布用于工作流构建。如下图所示3.1.2 数据导入将 student_attendance_stats 的数据载入搜索“数据库加载”控件拖拽至画布双击“数据库加载”控件右边会出现参数配置窗口将团队私有数据库的信息填入并点击“连接”完成之后在弹出的窗口中点击下拉框选择 student_attendance_stats选择后会自动加载表信息我们主要是分析各类异常考勤占比的特征所以只需保留 student_id 、class_id、late_count、early_leave_count、leave_count、uniform_violate_count其他字段跳过skip为保留的字段选择对应的属性类型最后点击“确定”右键数据库加载空间点击“运行该控件”运行成功后可右键点击“查看输出结果”可以看到保留下来的数据3.1.3 K-Means 聚类建模拖入“K-Means”组件创建数据库加载组件到“K-Means”组件的连线。双击“K-Means”组件配置窗口中簇数量选择固定3个其他保持不变右键运行该控件查看输出结果可以看到每个学生分别标记了对应的簇类C1/C2/C33.1.4 结果输出与保存聚类后的数据我们需要保存到数据库中以便后续使用拖拽“数据入库”组件到画布创建“K-Means”组件到“数据入库”组件的连线双击“数据入库”组件数据库配置中输入团队私有数据库的参数并点击“获取表信息”之后在弹出的窗口中选择“新建数据表”表名称修改为“student_cluster”并点击“确定”运行工作流各控件均运行成功则工作流运行成功。3.2 分析聚类簇编号对应的考勤群体分类上一步骤输出的聚类簇编号无法确定对应的考勤群体分类可要通过助睿BI 可视化分析来确定。点击实验平台左边菜单“助睿BI”进入助睿BI平台进入助睿BI 平台的首页可以看到该账户下的数据情况、数据分析处理流程、支持的数据源有哪些。点击左上角“” - “新建连接” - “MySQL”在弹出的窗口中输入自己所在小组在 Uniplore实验平台 的数据库连接账号信息点击“测试连接”出现“测试连接成功”表示我们的连接正确点击“确认”。完成之后点击新建的数据库目录可以看到本次实验所用的学生考勤主题标签表右键点击-查看表数据可以预览表内数据。3.2.2 构建数据集数据源连接成功后我们要将需要分析的数据表构建为数据集。点击左边菜单中的“数据集”点击左上角“” - “新建数据集”在弹窗中输入数据集名称、所属分组、备注信息后点击“确认”。数据集创建成功后会自动跳到该数据集的配置页面第一步需要先选择数据源助睿BI平台为防止这个步骤遗漏做了强提醒点击“好的我知道了”可关闭提醒。数据源的第一个选项选择我们刚刚新建的数据源“商业数据分析实验” 第二个选项则选择student_cluster 所在的目录“labs”这里是根据自己实际情况填写数据源选择完成后labs目录下的数据表自动出现在画布左边将student_cluster 拖拽至画布中。查看数据的表结构及数据为方便进行后续分析将字段备注分别修改为中文在student_id的字段备注输入框中输入“学生ID”并点击“√”保存。在保存提示中点击“保存并发布”只有发布后的数据集才能在工作表中引用。3.2.3 制作工作表工作表是助睿BI 平台中用于承载可视化图表、完成数据探索与分析的核心单元是实现数据可视化展示的基础载体。接下来我们开始制作聚类簇编号对应的考勤群体分类工作表。点击左边菜单中的“工作表”进入工作表模块。为了方便管理我们将本次制作的工作表集中存放在一个目录下点击左上角的“” - “新建分组”。右键或者点击聚类簇对应的考勤画像群体分类分析分组的“…”在操作列表中点击“新建工作表”在弹窗中输入工作表名称为“迟到早退次数的聚类簇分析”、选择所属分组、填写备注信息后点击“确认”。数据集选择刚刚创建的“聚类簇编号数据集”图表类型选择“探索器”。将字段“late_count迟到次数”拖拽到X轴“early_leave_count早退次数”拖拽到Y轴。点击图形设置按钮打开设置面板在设置面板中点击颜色区域的“”在下拉框中选择“Cluster聚类簇编号”并点击“确认”。点击信息区域的“”在下拉框中选择“student_id学生ID”并点击“确认”。将“student_id学生ID”设置为“维度”。系统默认限额为2000条数据因此需要将限额设置为100%避免数据过多不显示全部。为了区分更明显我们可以设置聚类簇编号的颜色点击颜色区域的设置按钮切换对比强烈的主题。颜色设置后需要点击一下颜色区域外的地方才会生效。点击保存按钮保存并发布工作表。相似的操作重新新建工作表依次两两分析4个异常考勤次数的3个聚类簇的表现情况【迟到与请假次数的聚类簇分析】【迟到与没穿校服次数的聚类簇分析】【早退与请假次数的聚类簇分析】【早退与没穿校服次数的聚类簇分析】【请假与没穿校服次数的聚类簇分析】3.2.4 搭建仪表盘为了更好地观察分析以上制作的6个工作表我们可以将它们放在一起。点击左边菜单“仪表盘”点击左上角“” - “新建仪表盘”仪表盘名字输入“聚类簇分析”备注信息输入“聚类簇分析”点击“确认”在右边组件与工作表区域点击“基础组件”拖拽一个文本组件到画布中文本内容输入“聚类簇分析”并设置字体颜色、字体大小、加粗、居中鼠标移至文本组件上组件右下角可以拖动跳转组件大小为了防止后续位置改变可以点击右上角图钉图表固定位置点击工作表组件显示按钮切换到“工作表”将前面制作的工作表都拖拽至画布中拖入完毕后可以按住图标顶部中间位置拖动图标并使用鼠标对图表大小和布局进行调整点击保存按钮保存并发布仪表盘3.2.5 聚类群体画像解读结合 6 组两两指标散点图的分布特征我们可以为 C1、C2、C3 三类聚类簇赋予清晰的业务含义完成从机器编号到可解释学生画像的转化C1蓝色自律模范型在迟到、早退、请假、校服违规次数的所有组合中数据点高度集中在低频次区间无明显离群值。这类学生出勤稳定、纪律意识强各类异常行为极少是校园考勤行为的正面典型。C2青色轻微波动型 整体数据点同样集中在低频次区间但相比 C1 分布略散少量记录存在轻微的校服违规或请假行为迟到、早退次数始终保持低位。这类学生整体纪律可控仅存在偶发的轻微考勤波动属于需要日常提醒的群体。C3黄色纪律高危型 数据点呈现明显的 “离群特征”在迟到次数与其他指标的组合图中出现了大量高频迟到记录且伴随有不同程度的早退、请假或校服违规行为是唯一存在多维度叠加违纪的群体。这类学生考勤问题突出是校园管理中需要重点关注和干预的核心对象。3.3 将映射结果加入学生考勤主题标签表我们需要将最终群体分类数据增加到上一个实验输出的结果表学生考勤主题标签表 student_attendance_stats 中3.3.1 新增扩展字段上一个实验输出的结果表学生考勤主题标签表 student_attendance_stats 中没有考勤群体分类的字段需要增加。首先在 student_attendance_stats 中增加2个字段cluster聚类簇编号attendance_group考勤群体分类进入上一个实验在数据集成平台中创建的ETL项目新建转换流“增加考勤主题扩展标签字段”拖拽并“”组件到画布中。编辑后执行转换流。-- 为学生考勤统计表添加聚类结果字段ALTER TABLE student_attendance_statsADD COLUMN cluster VARCHAR(10) NULL DEFAULT NULL COMMENT 聚类簇编号,ADD COLUMN attendance_group VARCHAR(30) NULL DEFAULT NULL COMMENT 考勤群体分类;3.3.2 聚类簇编号数据获取接下来我们需要使用 3.1这步骤中 AI Studio 输出的结果表 student_cluster 打开上一个实验创建的项目创建转换流“增加考勤群体分类标签”。总览3.3.3 字段选择获取的数据中我们只需保留 student_id、Cluster 字段拖拽“字段选择”组件到画布中并创建“表输入”组件到“字段选择”组件的连线。在“字段选择”组件点击“移除”选项并在字段名称下方空白区域右键-点击“获取字段”选中 student_id、Cluster,class_id 字段后右键“删除选中的行”表述除 student_id、class_id,Cluster 外其他字段均被移除。为了保持和 student_attendance_stats 表中字段类型一致不影响后续数据更新到 student_attendance_stats需要将 student_id、class_id 的类型修改为Integer点击元数据选项插入2行 student_id、class_id 的配置如下3.3.4 聚类簇编号映射原始聚类簇编号以编号形式存储可读性差通过映射转换增加中文说明。使用的字段名为“Cluster ” 目标字段名为“attendance_group”如下图设置3.3.5 更新学生考勤主题标签更新字段表格空白处获取字段删除 student_id这里需要注意我们在增加扩展字段时聚类簇编号的字段为cluster所以在表字段的 Cluster 字段中需要双击后点击下拉框选择正确的表字段用来查询的关键字表格空白处获取字段保留 student_id、class_id表示更新时查询到数据表与流里的字段1相同时执行更新操作。3.3.6 运行转换流点击运行按钮。最终查询结果考勤画像可视化分析基于已完成 K-Means 聚类并标注考勤群体的学生考勤主题标签表本实验聚焦“纪律高危型”群体分析其行为特征。相比其他群体该群体存在高频违纪、多维度异常叠加等行为特征是校园考勤管理中风险最高、影响最大的群体。通过专项画像分析可为精准干预和重点整治提供数据支撑助力校园精细化管理。4.1 实验步骤4.1.1进入助睿BI进入实验平台后点击左边菜单的“助睿BI”进入助睿BI可视化探索平台。4.1.2 连接数据源student_attendance_stats 存放于我们的团队私有数据库中而上一个实验在“分析聚类簇编号对应的考勤群体分类”时已经创建了团队私有数据库的连接因此我们可以直接使用这个数据源无需再连接数据源。4.1.3 构建数据集使用 student_attendance_stats 构建数据集用于后续分析。与之前操作相似点击左边菜单中的“数据集”点击左上角“” - “新建数据集”在弹窗中输入数据集名称、所属分组、备注信息后点击“确认”数据源的第一个选项选择我们刚刚新建的数据源“商业数据分析实验” 第二个选项则选择student_attendance_stats 所在的目录“labs”根究实际情况填写数据源选择完成后labs目录下的数据表自动出现在画布左边将student_attendance_stats拖拽至画布中查看数据的表结构及数据由于我们之前实验中的建表语句中已经包含了字段的中文备注因此这里我们不需要设置字段备注直接点击画布左上角“保存”按钮在保存提示中点击“保存并发布”只有发布后的数据集才能在工作表中引用4.1.4 制作工作表工作表是承载可视化图表、开展数据分析的基础单元.点击左边菜单中的“工作表”进入工作表模块创建纪律高危型人数纪律高危型中的所有学生ID去重计数在左边基础图表中点击“指标卡”注意点开字段“student_id”的聚合类型点击“去重计数”。与之前相似的方法创建如下的工作表4.2整体概况指标卡从整体指标卡可以清晰看到纪律高危型学生总人数为 283人其中男生 34 人、女生 17 人、未知性别 232 人。高危群体整体规模清晰其中男生人数多于女生说明高危群体存在明显的性别分布特点需要从性别角度进一步深入分析。4.3 纪律高危型学生性别特征分析排除性别未知数据的情况下从全校性别分布来看男生本身基数略高于女生占比为 56%女生占比为 44%在纪律高危型学生群体中男生占比进一步上升至 66.67%女生占比则下降至33.33%。对比两组数据可以发现男生在高危群体中的占比高于其在全校的基数占比而女生在高危群体中的占比则低于其在全校的基数占比。这一结果表明纪律高危型学生中男生占比偏高并非由全校性别基数差异导致而是男生在考勤违纪行为上的真实风险更高。男生规则意识、时间观念相对薄弱更易出现高频违纪行为因此是高危群体的主要构成对象后续管理需针对性加强男生考勤纪律引导。4.4纪律高危型学生年级特征分析从年级分布柱状图可以看出纪律高危型学生在各年级的分布存在明显差异其中高三年级的高危学生人数最多高一和高二年级的高危学生人数相对较少分别为40115。这可能与高三学生面临的升学压力、在校时间长度以及部分学生的课程安排调整有关例如备考节奏紧张、校外培训或特殊升学路径安排都可能导致考勤行为出现波动。4.5纪律高危型学生校区类型 年级交叉特征分析从校区类型 年级交叉柱状图可以看出纪律高危型学生的校区分布差异显著老校区是高危学生的主要聚集地各年级高危人数均明显高于新校区其中高一 39人、高二 101人、高三 190 人高三年级高危人数最多。新校区的高危学生整体规模较小仅高一 1人、高二 14人有少量分布高三年级无高危学生记录。仅从高危群体的分布来看老校区的违纪行为发生率远高于新校区且高危人数随年级升高呈明显增长态势。为进一步判断这一差异是否由校区本身的学生基数导致下一步将引入全校新、老校区的学生总人数数据进行交叉对比排除基数干扰分析校区管理模式、通勤条件、学风氛围等因素对学生考勤行为的真实影响。4.6不同校区类型各年级学生人数根究交叉图可知高一老校区学生1169人新校区 148 人高二老校区 1079 人新校区 295 人高三老校区 1883 人新校区无学生分布结合纪律高危型学生校区类型 年级交叉特征分析可以发现高三老校区是高危行为的绝对高发区高三年级学生全部集中在老校区且高危学生人数达到 190人是所有校区和年级中的最高值这一结果与高危群体年级分布特征高度吻合。新校区整体风险可控新校区学生基数较小高危学生人数也相应较少且高三年级无学生分布因此不存在高三高危学生整体考勤纪律表现优于老校区。综合来看老校区中尤其是高三年级是纪律高危型学生的核心聚集区后续管理需重点聚焦老校区高年级学生群体结合校区通勤条件、管理模式、学风氛围等因素制定针对性的考勤管理措施。4.7纪律高危型学生班级特征分析从班级水平条图可以清晰看到纪律高危型学生高度集中在少数班级其中高三(13)班高危人数最多30人其次为高三(09)班26人、高二(13)班18人等多数班级高危人数极少呈现明显的班级聚集性。结合年级分布特征来看高危学生主要集中在高三年级的部分班级这既与高三学生升学备考节奏紧张、课程安排灵活有关也说明高危行为与班级管理强度、班风氛围、同伴影响密切相关。同时高二少数薄弱班级需要重点整治通过加强班主任监管、整顿班风阻断不良风气传染。4.8 纪律高危型学生画像分析总结4.8.1核心特征性别特征男生为高危群体主体占比显著高于女生是高危行为的主要发生对象与男生规则意识薄弱、时间观念不足相关。年级特征高度集中于高年级随年级升高高危学生占比明显上升高年级学生学业压力大、自主空间广、心态浮躁对考勤纪律重视度下降。校区特征在不同校区呈现明显分布差异高危学生高度集中在老校区新校区风险较低与校区通勤条件、管理模式、学风氛围密切相关。班级特征存在明显班级聚集性集中在少数管理薄弱、班风涣散的班级与班级管理强度、同伴效应直接相关。4.8.2管理建议通过以上画像刻画重点关注高年级男生群体针对性开展考勤纪律教育与时间管理培训强化规则意识减少违纪行为发生。且可通过加强老校区高年级管理针对老校区优化通勤管理、强化考勤监督营造严谨学风氛围降低学生违纪风险。整治高危学生集中班级加强班主任监管力度整顿班风建立班级考勤责任制阻断不良风气传染。建立高危学生台账一对一建档家校联动制定个性化矫正方案跟踪干预效果防止违纪行为固化。五、实验过程中的问题与解决问题实验二中的的分组组件之前需要先将考勤数据排序否则数据会出错解决方法将“考勤数据按学号排序”的排序记录组件移到分组组件之前。六、实验总结本实验基于已完成的学生考勤主题标签表student_attendance_stats使用 K-Means 聚类算法对学生考勤行为进行自动分群。通过迟到、早退、请假、校服违规次数等核心指标识别不同类型的考勤群体生成可解释的考勤画像为校园学生管理、行为分析提供精准数据支撑。且通过student_attendance_stats打上标签以高危型学生为例做出可视化分析详细刻画了学生考勤画像。通过实验熟练掌握了零代码数据处理的核心操作熟练掌握了机器学习建模到可视化全链路过程这一过程为聚类建模提供干净、标准化的特征数据。
学生用户画像-考勤主题扩展标签构建与可视化分析
一、实验背景1.1 实验目的基于已完成的学生考勤主题标签表student_attendance_stats使用 K-Means 聚类算法对学生考勤行为进行自动分群。通过迟到、早退、请假、校服违规次数等核心指标识别不同类型的考勤群体生成可解释的考勤画像为校园学生管理、行为分析提供精准数据支撑。1.2 实验环境工具为助睿数智Uniplore在线实验平台https://lab.guilan.cn/ 助睿数智Uniplore是AI驱动的一站式数据科学平台覆盖从数据接入、ETL处理、机器学习建模到可视化展示的全链路零代码功能产品官网为 https://www.uniplore.com/本次实验主要用到以下功能平台数据集成平台助睿 ETL人工智能平台助睿 AI助睿BI 数据可视化探索平台数据库MySQL前置数据学生考勤主题标签表student_attendance_stats2 实验数据2.1 数据构成本次实验使用上一实验输出的学生考勤主题标签表数据包含学生基础信息与考勤次数统计结果为聚类建模提供干净、标准化的特征数据。2.2 字段说明2.3 建模思路通过对数据的观察以及对考勤分群的业务需求分析本次建模分析思路如下数据维度清晰、变量数量适中聚焦考勤行为核心指标无需复杂降维。基于考勤业务理解将变量聚焦在迟到次数、早退次数、请假次数、校服违规次数四类行为维度每个维度直接反映一类考勤特征变量间业务含义独立、相关性低可直接用于 K-Means 聚类建模避免变量冗余导致模型解释困难。本次建模采用次数类连续变量数据类型单一、适配 K-Means 算法要求。考勤次数均为非负整数属于连续型变量满足 K-Means 对数据类型的要求无需进行哑变量编码、二值化或特殊转换可直接输入模型简化预处理流程保证聚类结果稳定可靠。学生基础离散属性性别、年级、住校状态等不参与聚类建模仅作为后续画像标签的辅助解释变量。【K-Means 算法小说明】一种无监督聚类自动把相似数据分成 K 类用于分组、降维、数据划分、异常筛查。算法步骤如下预先指定聚类数K随机选 K 个初始聚类中心。按距离把所有样本划分到最近簇。重新计算每簇均值作为新中心。反复迭代中心不再变化即收敛完成聚类。三、实验步骤3.1 AI Studio 聚类建模3.1.1 新建工作流我们使用 AI Studio 搭建从数据加载到聚类建模、结果输出的完整流程为后续建模提供独立运行空间。点击左边菜单“人工智能”进入人工智能平台AI Studio。点击“” - “新建工作流”人工智能模块页面是集构建、运行、编辑、查看于一体的工作区域。在该模块页面中主要包括三个模块分别是菜单栏控件列表以及画布用于工作流构建。如下图所示3.1.2 数据导入将 student_attendance_stats 的数据载入搜索“数据库加载”控件拖拽至画布双击“数据库加载”控件右边会出现参数配置窗口将团队私有数据库的信息填入并点击“连接”完成之后在弹出的窗口中点击下拉框选择 student_attendance_stats选择后会自动加载表信息我们主要是分析各类异常考勤占比的特征所以只需保留 student_id 、class_id、late_count、early_leave_count、leave_count、uniform_violate_count其他字段跳过skip为保留的字段选择对应的属性类型最后点击“确定”右键数据库加载空间点击“运行该控件”运行成功后可右键点击“查看输出结果”可以看到保留下来的数据3.1.3 K-Means 聚类建模拖入“K-Means”组件创建数据库加载组件到“K-Means”组件的连线。双击“K-Means”组件配置窗口中簇数量选择固定3个其他保持不变右键运行该控件查看输出结果可以看到每个学生分别标记了对应的簇类C1/C2/C33.1.4 结果输出与保存聚类后的数据我们需要保存到数据库中以便后续使用拖拽“数据入库”组件到画布创建“K-Means”组件到“数据入库”组件的连线双击“数据入库”组件数据库配置中输入团队私有数据库的参数并点击“获取表信息”之后在弹出的窗口中选择“新建数据表”表名称修改为“student_cluster”并点击“确定”运行工作流各控件均运行成功则工作流运行成功。3.2 分析聚类簇编号对应的考勤群体分类上一步骤输出的聚类簇编号无法确定对应的考勤群体分类可要通过助睿BI 可视化分析来确定。点击实验平台左边菜单“助睿BI”进入助睿BI平台进入助睿BI 平台的首页可以看到该账户下的数据情况、数据分析处理流程、支持的数据源有哪些。点击左上角“” - “新建连接” - “MySQL”在弹出的窗口中输入自己所在小组在 Uniplore实验平台 的数据库连接账号信息点击“测试连接”出现“测试连接成功”表示我们的连接正确点击“确认”。完成之后点击新建的数据库目录可以看到本次实验所用的学生考勤主题标签表右键点击-查看表数据可以预览表内数据。3.2.2 构建数据集数据源连接成功后我们要将需要分析的数据表构建为数据集。点击左边菜单中的“数据集”点击左上角“” - “新建数据集”在弹窗中输入数据集名称、所属分组、备注信息后点击“确认”。数据集创建成功后会自动跳到该数据集的配置页面第一步需要先选择数据源助睿BI平台为防止这个步骤遗漏做了强提醒点击“好的我知道了”可关闭提醒。数据源的第一个选项选择我们刚刚新建的数据源“商业数据分析实验” 第二个选项则选择student_cluster 所在的目录“labs”这里是根据自己实际情况填写数据源选择完成后labs目录下的数据表自动出现在画布左边将student_cluster 拖拽至画布中。查看数据的表结构及数据为方便进行后续分析将字段备注分别修改为中文在student_id的字段备注输入框中输入“学生ID”并点击“√”保存。在保存提示中点击“保存并发布”只有发布后的数据集才能在工作表中引用。3.2.3 制作工作表工作表是助睿BI 平台中用于承载可视化图表、完成数据探索与分析的核心单元是实现数据可视化展示的基础载体。接下来我们开始制作聚类簇编号对应的考勤群体分类工作表。点击左边菜单中的“工作表”进入工作表模块。为了方便管理我们将本次制作的工作表集中存放在一个目录下点击左上角的“” - “新建分组”。右键或者点击聚类簇对应的考勤画像群体分类分析分组的“…”在操作列表中点击“新建工作表”在弹窗中输入工作表名称为“迟到早退次数的聚类簇分析”、选择所属分组、填写备注信息后点击“确认”。数据集选择刚刚创建的“聚类簇编号数据集”图表类型选择“探索器”。将字段“late_count迟到次数”拖拽到X轴“early_leave_count早退次数”拖拽到Y轴。点击图形设置按钮打开设置面板在设置面板中点击颜色区域的“”在下拉框中选择“Cluster聚类簇编号”并点击“确认”。点击信息区域的“”在下拉框中选择“student_id学生ID”并点击“确认”。将“student_id学生ID”设置为“维度”。系统默认限额为2000条数据因此需要将限额设置为100%避免数据过多不显示全部。为了区分更明显我们可以设置聚类簇编号的颜色点击颜色区域的设置按钮切换对比强烈的主题。颜色设置后需要点击一下颜色区域外的地方才会生效。点击保存按钮保存并发布工作表。相似的操作重新新建工作表依次两两分析4个异常考勤次数的3个聚类簇的表现情况【迟到与请假次数的聚类簇分析】【迟到与没穿校服次数的聚类簇分析】【早退与请假次数的聚类簇分析】【早退与没穿校服次数的聚类簇分析】【请假与没穿校服次数的聚类簇分析】3.2.4 搭建仪表盘为了更好地观察分析以上制作的6个工作表我们可以将它们放在一起。点击左边菜单“仪表盘”点击左上角“” - “新建仪表盘”仪表盘名字输入“聚类簇分析”备注信息输入“聚类簇分析”点击“确认”在右边组件与工作表区域点击“基础组件”拖拽一个文本组件到画布中文本内容输入“聚类簇分析”并设置字体颜色、字体大小、加粗、居中鼠标移至文本组件上组件右下角可以拖动跳转组件大小为了防止后续位置改变可以点击右上角图钉图表固定位置点击工作表组件显示按钮切换到“工作表”将前面制作的工作表都拖拽至画布中拖入完毕后可以按住图标顶部中间位置拖动图标并使用鼠标对图表大小和布局进行调整点击保存按钮保存并发布仪表盘3.2.5 聚类群体画像解读结合 6 组两两指标散点图的分布特征我们可以为 C1、C2、C3 三类聚类簇赋予清晰的业务含义完成从机器编号到可解释学生画像的转化C1蓝色自律模范型在迟到、早退、请假、校服违规次数的所有组合中数据点高度集中在低频次区间无明显离群值。这类学生出勤稳定、纪律意识强各类异常行为极少是校园考勤行为的正面典型。C2青色轻微波动型 整体数据点同样集中在低频次区间但相比 C1 分布略散少量记录存在轻微的校服违规或请假行为迟到、早退次数始终保持低位。这类学生整体纪律可控仅存在偶发的轻微考勤波动属于需要日常提醒的群体。C3黄色纪律高危型 数据点呈现明显的 “离群特征”在迟到次数与其他指标的组合图中出现了大量高频迟到记录且伴随有不同程度的早退、请假或校服违规行为是唯一存在多维度叠加违纪的群体。这类学生考勤问题突出是校园管理中需要重点关注和干预的核心对象。3.3 将映射结果加入学生考勤主题标签表我们需要将最终群体分类数据增加到上一个实验输出的结果表学生考勤主题标签表 student_attendance_stats 中3.3.1 新增扩展字段上一个实验输出的结果表学生考勤主题标签表 student_attendance_stats 中没有考勤群体分类的字段需要增加。首先在 student_attendance_stats 中增加2个字段cluster聚类簇编号attendance_group考勤群体分类进入上一个实验在数据集成平台中创建的ETL项目新建转换流“增加考勤主题扩展标签字段”拖拽并“”组件到画布中。编辑后执行转换流。-- 为学生考勤统计表添加聚类结果字段ALTER TABLE student_attendance_statsADD COLUMN cluster VARCHAR(10) NULL DEFAULT NULL COMMENT 聚类簇编号,ADD COLUMN attendance_group VARCHAR(30) NULL DEFAULT NULL COMMENT 考勤群体分类;3.3.2 聚类簇编号数据获取接下来我们需要使用 3.1这步骤中 AI Studio 输出的结果表 student_cluster 打开上一个实验创建的项目创建转换流“增加考勤群体分类标签”。总览3.3.3 字段选择获取的数据中我们只需保留 student_id、Cluster 字段拖拽“字段选择”组件到画布中并创建“表输入”组件到“字段选择”组件的连线。在“字段选择”组件点击“移除”选项并在字段名称下方空白区域右键-点击“获取字段”选中 student_id、Cluster,class_id 字段后右键“删除选中的行”表述除 student_id、class_id,Cluster 外其他字段均被移除。为了保持和 student_attendance_stats 表中字段类型一致不影响后续数据更新到 student_attendance_stats需要将 student_id、class_id 的类型修改为Integer点击元数据选项插入2行 student_id、class_id 的配置如下3.3.4 聚类簇编号映射原始聚类簇编号以编号形式存储可读性差通过映射转换增加中文说明。使用的字段名为“Cluster ” 目标字段名为“attendance_group”如下图设置3.3.5 更新学生考勤主题标签更新字段表格空白处获取字段删除 student_id这里需要注意我们在增加扩展字段时聚类簇编号的字段为cluster所以在表字段的 Cluster 字段中需要双击后点击下拉框选择正确的表字段用来查询的关键字表格空白处获取字段保留 student_id、class_id表示更新时查询到数据表与流里的字段1相同时执行更新操作。3.3.6 运行转换流点击运行按钮。最终查询结果考勤画像可视化分析基于已完成 K-Means 聚类并标注考勤群体的学生考勤主题标签表本实验聚焦“纪律高危型”群体分析其行为特征。相比其他群体该群体存在高频违纪、多维度异常叠加等行为特征是校园考勤管理中风险最高、影响最大的群体。通过专项画像分析可为精准干预和重点整治提供数据支撑助力校园精细化管理。4.1 实验步骤4.1.1进入助睿BI进入实验平台后点击左边菜单的“助睿BI”进入助睿BI可视化探索平台。4.1.2 连接数据源student_attendance_stats 存放于我们的团队私有数据库中而上一个实验在“分析聚类簇编号对应的考勤群体分类”时已经创建了团队私有数据库的连接因此我们可以直接使用这个数据源无需再连接数据源。4.1.3 构建数据集使用 student_attendance_stats 构建数据集用于后续分析。与之前操作相似点击左边菜单中的“数据集”点击左上角“” - “新建数据集”在弹窗中输入数据集名称、所属分组、备注信息后点击“确认”数据源的第一个选项选择我们刚刚新建的数据源“商业数据分析实验” 第二个选项则选择student_attendance_stats 所在的目录“labs”根究实际情况填写数据源选择完成后labs目录下的数据表自动出现在画布左边将student_attendance_stats拖拽至画布中查看数据的表结构及数据由于我们之前实验中的建表语句中已经包含了字段的中文备注因此这里我们不需要设置字段备注直接点击画布左上角“保存”按钮在保存提示中点击“保存并发布”只有发布后的数据集才能在工作表中引用4.1.4 制作工作表工作表是承载可视化图表、开展数据分析的基础单元.点击左边菜单中的“工作表”进入工作表模块创建纪律高危型人数纪律高危型中的所有学生ID去重计数在左边基础图表中点击“指标卡”注意点开字段“student_id”的聚合类型点击“去重计数”。与之前相似的方法创建如下的工作表4.2整体概况指标卡从整体指标卡可以清晰看到纪律高危型学生总人数为 283人其中男生 34 人、女生 17 人、未知性别 232 人。高危群体整体规模清晰其中男生人数多于女生说明高危群体存在明显的性别分布特点需要从性别角度进一步深入分析。4.3 纪律高危型学生性别特征分析排除性别未知数据的情况下从全校性别分布来看男生本身基数略高于女生占比为 56%女生占比为 44%在纪律高危型学生群体中男生占比进一步上升至 66.67%女生占比则下降至33.33%。对比两组数据可以发现男生在高危群体中的占比高于其在全校的基数占比而女生在高危群体中的占比则低于其在全校的基数占比。这一结果表明纪律高危型学生中男生占比偏高并非由全校性别基数差异导致而是男生在考勤违纪行为上的真实风险更高。男生规则意识、时间观念相对薄弱更易出现高频违纪行为因此是高危群体的主要构成对象后续管理需针对性加强男生考勤纪律引导。4.4纪律高危型学生年级特征分析从年级分布柱状图可以看出纪律高危型学生在各年级的分布存在明显差异其中高三年级的高危学生人数最多高一和高二年级的高危学生人数相对较少分别为40115。这可能与高三学生面临的升学压力、在校时间长度以及部分学生的课程安排调整有关例如备考节奏紧张、校外培训或特殊升学路径安排都可能导致考勤行为出现波动。4.5纪律高危型学生校区类型 年级交叉特征分析从校区类型 年级交叉柱状图可以看出纪律高危型学生的校区分布差异显著老校区是高危学生的主要聚集地各年级高危人数均明显高于新校区其中高一 39人、高二 101人、高三 190 人高三年级高危人数最多。新校区的高危学生整体规模较小仅高一 1人、高二 14人有少量分布高三年级无高危学生记录。仅从高危群体的分布来看老校区的违纪行为发生率远高于新校区且高危人数随年级升高呈明显增长态势。为进一步判断这一差异是否由校区本身的学生基数导致下一步将引入全校新、老校区的学生总人数数据进行交叉对比排除基数干扰分析校区管理模式、通勤条件、学风氛围等因素对学生考勤行为的真实影响。4.6不同校区类型各年级学生人数根究交叉图可知高一老校区学生1169人新校区 148 人高二老校区 1079 人新校区 295 人高三老校区 1883 人新校区无学生分布结合纪律高危型学生校区类型 年级交叉特征分析可以发现高三老校区是高危行为的绝对高发区高三年级学生全部集中在老校区且高危学生人数达到 190人是所有校区和年级中的最高值这一结果与高危群体年级分布特征高度吻合。新校区整体风险可控新校区学生基数较小高危学生人数也相应较少且高三年级无学生分布因此不存在高三高危学生整体考勤纪律表现优于老校区。综合来看老校区中尤其是高三年级是纪律高危型学生的核心聚集区后续管理需重点聚焦老校区高年级学生群体结合校区通勤条件、管理模式、学风氛围等因素制定针对性的考勤管理措施。4.7纪律高危型学生班级特征分析从班级水平条图可以清晰看到纪律高危型学生高度集中在少数班级其中高三(13)班高危人数最多30人其次为高三(09)班26人、高二(13)班18人等多数班级高危人数极少呈现明显的班级聚集性。结合年级分布特征来看高危学生主要集中在高三年级的部分班级这既与高三学生升学备考节奏紧张、课程安排灵活有关也说明高危行为与班级管理强度、班风氛围、同伴影响密切相关。同时高二少数薄弱班级需要重点整治通过加强班主任监管、整顿班风阻断不良风气传染。4.8 纪律高危型学生画像分析总结4.8.1核心特征性别特征男生为高危群体主体占比显著高于女生是高危行为的主要发生对象与男生规则意识薄弱、时间观念不足相关。年级特征高度集中于高年级随年级升高高危学生占比明显上升高年级学生学业压力大、自主空间广、心态浮躁对考勤纪律重视度下降。校区特征在不同校区呈现明显分布差异高危学生高度集中在老校区新校区风险较低与校区通勤条件、管理模式、学风氛围密切相关。班级特征存在明显班级聚集性集中在少数管理薄弱、班风涣散的班级与班级管理强度、同伴效应直接相关。4.8.2管理建议通过以上画像刻画重点关注高年级男生群体针对性开展考勤纪律教育与时间管理培训强化规则意识减少违纪行为发生。且可通过加强老校区高年级管理针对老校区优化通勤管理、强化考勤监督营造严谨学风氛围降低学生违纪风险。整治高危学生集中班级加强班主任监管力度整顿班风建立班级考勤责任制阻断不良风气传染。建立高危学生台账一对一建档家校联动制定个性化矫正方案跟踪干预效果防止违纪行为固化。五、实验过程中的问题与解决问题实验二中的的分组组件之前需要先将考勤数据排序否则数据会出错解决方法将“考勤数据按学号排序”的排序记录组件移到分组组件之前。六、实验总结本实验基于已完成的学生考勤主题标签表student_attendance_stats使用 K-Means 聚类算法对学生考勤行为进行自动分群。通过迟到、早退、请假、校服违规次数等核心指标识别不同类型的考勤群体生成可解释的考勤画像为校园学生管理、行为分析提供精准数据支撑。且通过student_attendance_stats打上标签以高危型学生为例做出可视化分析详细刻画了学生考勤画像。通过实验熟练掌握了零代码数据处理的核心操作熟练掌握了机器学习建模到可视化全链路过程这一过程为聚类建模提供干净、标准化的特征数据。