一、实验说明1.1 实验目的本次实验依托已生成的学生考勤主题标签表student_attendance_stats运用K-Means 聚类算法对学生考勤行为开展自动化分群。以迟到、早退、请假、校服违规次数为核心分析指标精准识别不同考勤特征的学生群体构建直观易懂的考勤用户画像为校园日常管理、学生行为分析与针对性教育引导提供数据依据。1.2 实验环境本次实验全程在助睿数智Uniplore在线实验平台完成该平台是 AI 驱动的一站式数据科学平台支持数据接入、ETL 处理、机器学习建模、可视化展示全流程零代码操作。·核心使用模块数据集成平台助睿 ETL、人工智能平台助睿 AI、助睿 BI 数据可视化探索平台·数据库MySQL·基础数据学生考勤主题标签表student_attendance_stats二、实验数据2.1 数据构成实验采用上一阶段产出的学生考勤主题标签表整合学生基础信息与各类考勤行为统计数据数据经过清洗与标准化处理可直接用于聚类模型训练。2.2 字段说明名称 说明 类型id 自增主键 连续整数student_id 学生 ID 连续整数student_name 学生姓名 文本class_id 班级 ID 连续整数class_name 班级名称 文本grade 年级 文本 / 分类gender 性别 二分类birth_date 出生日期 文本 / 日期political_status 政治面貌 文本 / 分类is_boarder 是否住校 二分类campus_type 校区类型 文本 / 分类late_count 迟到次数 连续整数early_leave_count 早退次数 连续整数leave_count 请假次数 连续整数uniform_violate_count 没穿校服次数 连续整数create_time 统计入库时间 日期时间2.3 建模思路本次建模聚焦考勤行为核心指标选取迟到、早退、请假、校服违规 4 个独立维度作为聚类特征各指标业务含义清晰、相关性低无需额外降维处理适配 K-Means 算法对数据的要求。所有建模指标均为非负整数型连续变量无需哑变量编码、二值化等复杂转换可直接输入模型简化数据预处理流程保障聚类结果稳定。学生性别、年级、住校状态等基础属性不参与建模仅用于后续画像辅助解读。三、实验步骤AI Studio 是零代码可视化机器学习平台支持数据加载、预处理、模型训练、结果输出全流程操作本次通过拖拽组件完成聚类建模。3.1 AI Studio 聚类建模3.1.1 新建工作流点击左侧菜单栏「人工智能」进入 AI Studio 平台在用户空间点击「」→「新建工作流」搭建数据加载至结果输出的完整建模流程为实验提供独立运行环境。3.1.2 数据导入拖拽「数据库加载」组件至画布双击配置数据库连接信息连接团队私有 MySQL 数据库选择数据表student_attendance_stats。仅保留student_id、class_id、late_count、early_leave_count、leave_count、uniform_violate_count关键字段其余字段设置为跳过skip并配置对应字段属性运行组件后可查看输出数据。字段对应的属性类型参考如下属性名称 属性类型 属性名称 属性类型id skip political_status skipstudent_id categorical is_boarder skipstudent_name skip campus_type skipclass_id categorical late_count numericclass_name skip early_leave_count numericgrade skip leave_count numericgender skip uniform_violate_count numericbirth_date skip create_time skip3.1.3 K-Means 聚类建模拖拽「K-Means」组件与「数据库加载」组件建立连接双击配置参数设置聚类簇数量为3其余参数保持默认运行组件后输出结果会为每位学生标注所属聚类簇C1/C2/C3。3.1.4 结果输出与保存拖拽「数据入库」组件与 K-Means 组件连接配置数据库信息新建数据表student_cluster运行工作流完成聚类结果的数据库存储。3.2 分析聚类簇编号对应的考勤群体分类通过助睿 BI 平台对聚类簇数据进行可视化展示明确各聚类簇对应的学生考勤群体特征。3.2.1 连接数据源进入助睿 BI 平台点击「数据源」→「」→「新建连接」→「MySQL」输入团队私有数据库账号信息测试连接成功后完成数据源配置。点击新建的数据库目录可以看到本次实验所用的学生考勤主题标签表右键点击-查看表数据可以预览表内数据。3.2.2 构建数据集点击「数据集」→「」→「新建数据集」命名后选择已配置的数据源关联student_cluster数据表将所有英文字段备注修改为中文如 student_id 改为学生 ID、Cluster 改为聚类簇编号保存并发布数据集。3.2.3 制作工作表新建分组用于分类管理工作表在分组内创建多张工作表分别分析迟到 - 早退、迟到 - 请假、迟到 - 校服违规、早退 - 请假、早退 - 校服违规、请假 - 校服违规6 组指标的聚类分布。将对应指标拖拽至 X 轴、Y 轴以「聚类簇编号」区分颜色设置数据展示限额为 100%清晰呈现不同聚类簇的行为分布特征完成后保存并发布工作表。右键或者点击聚类簇对应的考勤画像群体分类分析分组的“…”在操作列表中点击“新建工作表”在弹窗中输入工作表名称为“迟到早退次数的聚类簇分析”、选择所属分组、填写备注信息后点击“确认”自动跳转到工作表设计页面点击右上角“好的我知道了”来关闭提醒数据集选择刚刚创建的“聚类簇编号数据集”图表类型选择“探索器”将字段“late_count迟到次数”拖拽到X轴“early_leave_count早退次数”拖拽到Y轴。点击图形设置按钮打开设置面板在设置面板中点击颜色区域的“”在下拉框中选择“Cluster聚类簇编号”并点击“确认”点击信息区域的“”在下拉框中选择“student_id学生ID”并点击“确认”将“student_id学生ID”设置为“维度”系统默认限额为2000条数据因此需要将限额设置为100%避免数据过多不显示全部。为了区分更明显我们可以设置聚类簇编号的颜色点击颜色区域的设置按钮切换对比强烈的主题颜色设置后需要点击一下颜色区域外的地方才会生效点击保存按钮保存并发布工作表。同样的重新新建工作表依次两两分析4个异常考勤次数的3个聚类簇的表现情况迟到与请假次数的聚类簇分析迟到与没穿校服次数的聚类簇分析早退与请假次数的聚类簇分析早退与没穿校服次数的聚类簇分析请假与没穿校服次数的聚类簇分析3.2.4 搭建仪表盘点击「仪表盘」→「新建仪表盘」命名为「聚类簇分析」添加标题文本组件将 6 张可视化工作表拖拽至画布调整布局与大小保存并发布仪表盘实现聚类结果一站式查看。3.2.5 聚类群体画像解读结合可视化分布特征为 3 个聚类簇赋予业务化标签完成从机器编号到学生画像的转化聚类簇编号 颜色 群体类型 核心行为特征C1 蓝色 自律模范型 所有异常考勤次数均处于极低水平出勤稳定纪律意识强C2 青色 轻微波动型 迟到、早退次数极少仅偶发请假或校服违规整体纪律表现良好C3 黄色 纪律高危型 多类异常考勤次数偏高存在高频违纪行为是重点关注干预对象3.3 将映射结果加入学生考勤主题标签表将聚类结果与群体分类标签添加至原始学生考勤主题标签表完成扩展标签构建。3.3.1 新增扩展字段进入数据集成平台 ETL 项目新建转换流通过「执行 SQL 脚本」组件在student_attendance_stats表中新增cluster聚类簇编号和attendance_group考勤群体分类两个字段。进入上一个实验在数据集成平台中创建的ETL项目新建转换流“增加考勤主题扩展标签字段”拖拽并“”组件到画布中双击“执行一个SQL脚本”组件在配置窗口中数据库连接“团队私有数据库_hyl”输入SQL脚本后点击“确认”执行转换流3.3.2 聚类簇编号数据获取新建转换流通过「表输入」组件读取student_cluster表的全部数据获取聚类簇编号信息。3.3.3 字段选择使用「字段选择」组件仅保留student_id、Cluster关键字段调整字段类型为 Integer与原始表格式保持一致。3.3.4 聚类簇编号映射通过「值映射」组件将聚类簇编号转换为中文群体名称C1→自律模范型、C2→轻微波动型、C3→纪律高危型生成attendance_group字段。3.3.5 更新学生考勤主题标签拖拽「更新」组件以student_id、class_id为匹配关键字将聚类簇编号与群体分类标签更新至student_attendance_stats表中。3.3.6 运行转换流执行完整转换流日志显示数据处理完成后通过数据探查功能查看表数据确认扩展标签已成功写入。3.3.7 查看结果切换“元数据”选项右键“团队私有数据库”点击“加载元数据”加载成功后点击“数据探查”在团队私有数据库中点击 student_attendance_stats 在点击“查询”可以看到 cluster、attendance_group的数据已经更新成功了。四、实验总结本次实验以学生考勤统计数据为基础借助 K-Means 聚类算法实现学生考勤群体的智能划分依托助睿 BI 可视化平台完成聚类结果的业务解读精准划分出自律模范型、轻微波动型、纪律高危型三类学生。最终将聚类标签回写至原始考勤表完成考勤主题扩展标签的构建为校园学生精细化管理、个性化行为干预提供了科学、精准的数据支撑。
学生用户画像 - 考勤主题扩展标签构建
一、实验说明1.1 实验目的本次实验依托已生成的学生考勤主题标签表student_attendance_stats运用K-Means 聚类算法对学生考勤行为开展自动化分群。以迟到、早退、请假、校服违规次数为核心分析指标精准识别不同考勤特征的学生群体构建直观易懂的考勤用户画像为校园日常管理、学生行为分析与针对性教育引导提供数据依据。1.2 实验环境本次实验全程在助睿数智Uniplore在线实验平台完成该平台是 AI 驱动的一站式数据科学平台支持数据接入、ETL 处理、机器学习建模、可视化展示全流程零代码操作。·核心使用模块数据集成平台助睿 ETL、人工智能平台助睿 AI、助睿 BI 数据可视化探索平台·数据库MySQL·基础数据学生考勤主题标签表student_attendance_stats二、实验数据2.1 数据构成实验采用上一阶段产出的学生考勤主题标签表整合学生基础信息与各类考勤行为统计数据数据经过清洗与标准化处理可直接用于聚类模型训练。2.2 字段说明名称 说明 类型id 自增主键 连续整数student_id 学生 ID 连续整数student_name 学生姓名 文本class_id 班级 ID 连续整数class_name 班级名称 文本grade 年级 文本 / 分类gender 性别 二分类birth_date 出生日期 文本 / 日期political_status 政治面貌 文本 / 分类is_boarder 是否住校 二分类campus_type 校区类型 文本 / 分类late_count 迟到次数 连续整数early_leave_count 早退次数 连续整数leave_count 请假次数 连续整数uniform_violate_count 没穿校服次数 连续整数create_time 统计入库时间 日期时间2.3 建模思路本次建模聚焦考勤行为核心指标选取迟到、早退、请假、校服违规 4 个独立维度作为聚类特征各指标业务含义清晰、相关性低无需额外降维处理适配 K-Means 算法对数据的要求。所有建模指标均为非负整数型连续变量无需哑变量编码、二值化等复杂转换可直接输入模型简化数据预处理流程保障聚类结果稳定。学生性别、年级、住校状态等基础属性不参与建模仅用于后续画像辅助解读。三、实验步骤AI Studio 是零代码可视化机器学习平台支持数据加载、预处理、模型训练、结果输出全流程操作本次通过拖拽组件完成聚类建模。3.1 AI Studio 聚类建模3.1.1 新建工作流点击左侧菜单栏「人工智能」进入 AI Studio 平台在用户空间点击「」→「新建工作流」搭建数据加载至结果输出的完整建模流程为实验提供独立运行环境。3.1.2 数据导入拖拽「数据库加载」组件至画布双击配置数据库连接信息连接团队私有 MySQL 数据库选择数据表student_attendance_stats。仅保留student_id、class_id、late_count、early_leave_count、leave_count、uniform_violate_count关键字段其余字段设置为跳过skip并配置对应字段属性运行组件后可查看输出数据。字段对应的属性类型参考如下属性名称 属性类型 属性名称 属性类型id skip political_status skipstudent_id categorical is_boarder skipstudent_name skip campus_type skipclass_id categorical late_count numericclass_name skip early_leave_count numericgrade skip leave_count numericgender skip uniform_violate_count numericbirth_date skip create_time skip3.1.3 K-Means 聚类建模拖拽「K-Means」组件与「数据库加载」组件建立连接双击配置参数设置聚类簇数量为3其余参数保持默认运行组件后输出结果会为每位学生标注所属聚类簇C1/C2/C3。3.1.4 结果输出与保存拖拽「数据入库」组件与 K-Means 组件连接配置数据库信息新建数据表student_cluster运行工作流完成聚类结果的数据库存储。3.2 分析聚类簇编号对应的考勤群体分类通过助睿 BI 平台对聚类簇数据进行可视化展示明确各聚类簇对应的学生考勤群体特征。3.2.1 连接数据源进入助睿 BI 平台点击「数据源」→「」→「新建连接」→「MySQL」输入团队私有数据库账号信息测试连接成功后完成数据源配置。点击新建的数据库目录可以看到本次实验所用的学生考勤主题标签表右键点击-查看表数据可以预览表内数据。3.2.2 构建数据集点击「数据集」→「」→「新建数据集」命名后选择已配置的数据源关联student_cluster数据表将所有英文字段备注修改为中文如 student_id 改为学生 ID、Cluster 改为聚类簇编号保存并发布数据集。3.2.3 制作工作表新建分组用于分类管理工作表在分组内创建多张工作表分别分析迟到 - 早退、迟到 - 请假、迟到 - 校服违规、早退 - 请假、早退 - 校服违规、请假 - 校服违规6 组指标的聚类分布。将对应指标拖拽至 X 轴、Y 轴以「聚类簇编号」区分颜色设置数据展示限额为 100%清晰呈现不同聚类簇的行为分布特征完成后保存并发布工作表。右键或者点击聚类簇对应的考勤画像群体分类分析分组的“…”在操作列表中点击“新建工作表”在弹窗中输入工作表名称为“迟到早退次数的聚类簇分析”、选择所属分组、填写备注信息后点击“确认”自动跳转到工作表设计页面点击右上角“好的我知道了”来关闭提醒数据集选择刚刚创建的“聚类簇编号数据集”图表类型选择“探索器”将字段“late_count迟到次数”拖拽到X轴“early_leave_count早退次数”拖拽到Y轴。点击图形设置按钮打开设置面板在设置面板中点击颜色区域的“”在下拉框中选择“Cluster聚类簇编号”并点击“确认”点击信息区域的“”在下拉框中选择“student_id学生ID”并点击“确认”将“student_id学生ID”设置为“维度”系统默认限额为2000条数据因此需要将限额设置为100%避免数据过多不显示全部。为了区分更明显我们可以设置聚类簇编号的颜色点击颜色区域的设置按钮切换对比强烈的主题颜色设置后需要点击一下颜色区域外的地方才会生效点击保存按钮保存并发布工作表。同样的重新新建工作表依次两两分析4个异常考勤次数的3个聚类簇的表现情况迟到与请假次数的聚类簇分析迟到与没穿校服次数的聚类簇分析早退与请假次数的聚类簇分析早退与没穿校服次数的聚类簇分析请假与没穿校服次数的聚类簇分析3.2.4 搭建仪表盘点击「仪表盘」→「新建仪表盘」命名为「聚类簇分析」添加标题文本组件将 6 张可视化工作表拖拽至画布调整布局与大小保存并发布仪表盘实现聚类结果一站式查看。3.2.5 聚类群体画像解读结合可视化分布特征为 3 个聚类簇赋予业务化标签完成从机器编号到学生画像的转化聚类簇编号 颜色 群体类型 核心行为特征C1 蓝色 自律模范型 所有异常考勤次数均处于极低水平出勤稳定纪律意识强C2 青色 轻微波动型 迟到、早退次数极少仅偶发请假或校服违规整体纪律表现良好C3 黄色 纪律高危型 多类异常考勤次数偏高存在高频违纪行为是重点关注干预对象3.3 将映射结果加入学生考勤主题标签表将聚类结果与群体分类标签添加至原始学生考勤主题标签表完成扩展标签构建。3.3.1 新增扩展字段进入数据集成平台 ETL 项目新建转换流通过「执行 SQL 脚本」组件在student_attendance_stats表中新增cluster聚类簇编号和attendance_group考勤群体分类两个字段。进入上一个实验在数据集成平台中创建的ETL项目新建转换流“增加考勤主题扩展标签字段”拖拽并“”组件到画布中双击“执行一个SQL脚本”组件在配置窗口中数据库连接“团队私有数据库_hyl”输入SQL脚本后点击“确认”执行转换流3.3.2 聚类簇编号数据获取新建转换流通过「表输入」组件读取student_cluster表的全部数据获取聚类簇编号信息。3.3.3 字段选择使用「字段选择」组件仅保留student_id、Cluster关键字段调整字段类型为 Integer与原始表格式保持一致。3.3.4 聚类簇编号映射通过「值映射」组件将聚类簇编号转换为中文群体名称C1→自律模范型、C2→轻微波动型、C3→纪律高危型生成attendance_group字段。3.3.5 更新学生考勤主题标签拖拽「更新」组件以student_id、class_id为匹配关键字将聚类簇编号与群体分类标签更新至student_attendance_stats表中。3.3.6 运行转换流执行完整转换流日志显示数据处理完成后通过数据探查功能查看表数据确认扩展标签已成功写入。3.3.7 查看结果切换“元数据”选项右键“团队私有数据库”点击“加载元数据”加载成功后点击“数据探查”在团队私有数据库中点击 student_attendance_stats 在点击“查询”可以看到 cluster、attendance_group的数据已经更新成功了。四、实验总结本次实验以学生考勤统计数据为基础借助 K-Means 聚类算法实现学生考勤群体的智能划分依托助睿 BI 可视化平台完成聚类结果的业务解读精准划分出自律模范型、轻微波动型、纪律高危型三类学生。最终将聚类标签回写至原始考勤表完成考勤主题扩展标签的构建为校园学生精细化管理、个性化行为干预提供了科学、精准的数据支撑。