从原始CSV到分析宽表_基于助睿平台的自媒体运营数据清洗实战

从原始CSV到分析宽表_基于助睿平台的自媒体运营数据清洗实战 前言本次实验整理的是自媒体运营数据清洗与预处理过程。实验使用助睿数智Uniplore一站式数据科学实验平台中的数据集成模块对自媒体作品数据明细.csv进行读取、分支加工、过滤清洗和结果入库。原始数据中包含 B站、CSDN、微信、知乎、小红书等多个平台的作品互动数据。不同平台的数据字段和数据质量并不完全一致比如部分平台的浏览量缺失较多也有一些作品浏览量、点赞量、收藏量都为 0。为了让后续分析更加稳定本次实验先对数据进行基础清洗并输出两张结果表。整个实验可以理解为一条“先建表、再读数、分两路加工、最后入库验证”的流程这次实验的重点不是单纯把 CSV 文件导入数据库而是根据不同分析目标设计两条处理分支。全平台分支用于观察整体运营概况重点平台分支用于后续内容表现分析。第一部分实验背景1.1 实验目的本次实验的主要目标是使用助睿平台完成自媒体作品互动数据的清洗与预处理为后续指标计算、内容分析和可视化仪表盘搭建准备规范的数据表。通过本次实验我主要练习以下内容1. 熟悉助睿数据集成模块的基本使用流程 2. 掌握 CSV 文件输入组件的配置方法 3. 学会使用执行 SQL 脚本组件创建目标表 4. 掌握排序记录、分组、过滤记录、缺失值填充、字段选择、表输出等组件的使用 5. 理解分支式 ETL 处理思路 6. 能够根据不同分析需求输出不同用途的数据表。本次实验中我把原始数据分成两个加工方向第一条分支用于全平台概况统计不对平台做筛选主要统计不同日期、不同平台下的作品数量和互动总量。第二条分支用于重点平台明细清洗只保留 B站 和 CSDN 中浏览量大于 0 的有效作品作为后续内容分析的基础数据。1.2 实验环境平台全称助睿数智Uniplore一站式数据科学实验平台 平台定位覆盖数据接入、ETL处理、机器学习建模到可视化分析的全链路 Agentic 零代码数据智能产品 产品官网https://www.uniplore.com/ 实验平台地址https://lab.guilian.cn/本次主要使用平台中的数据集成 / ETL 模块。该模块可以通过拖拽组件的方式完成数据读取、清洗、转换和入库不需要单独编写完整的数据处理程序。1.3 实验数据说明本次实验使用的数据文件为自媒体作品数据明细.csv数据记录了多个自媒体平台上的作品互动情况主要字段包括字段说明日期数据采集日期作者名称作品发布者标题作品标题平台作品发布平台点赞数量作品点赞数收藏数量作品收藏数分享数量作品分享数投币数量B站特有互动指标浏览数量播放量或阅读量url作品链接source_file数据来源文件标记这份数据不能直接用于后续分析。原因主要有三个1. 不同平台字段含义不完全一致 2. 部分平台浏览量缺失或为 0 3. 个别文本字段可能为空后续处理时容易出现异常。因此本次实验先对数据做基础预处理再输出结构更加清晰的结果表。第二部分实验步骤2.1 创建实验目标表开始搭建转换流前我先创建两个目标表用来分别保存两条分支的输出结果。第一张表是summary_all_platforms这张表用于保存全平台概况统计结果主要存放不同日期、不同平台下的作品数量、浏览量、点赞量、收藏量、分享量等聚合指标。第二张表是content_analysis这张表用于保存清洗后的重点平台作品明细只保留 B站 和 CSDN 的有效记录作为后续内容分析的数据基础。在助睿数据集成模块中新建转换流后我拖入“执行 SQL 脚本”组件连接数据库并输入建表 SQL。这里先创建全平台概况表DROPTABLEIFEXISTSsummary_all_platforms;CREATETABLEIFNOTEXISTSsummary_all_platforms(idINTAUTO_INCREMENTPRIMARYKEYCOMMENT自增主键ID,crawl_dateDATENOTNULLCOMMENT采集日期,platformVARCHAR(20)NOTNULLCOMMENT平台名称,content_countINTCOMMENT作品数量,total_viewsINTCOMMENT总浏览数,total_likesINTCOMMENT总点赞数,total_favoritesINTCOMMENT总收藏数,total_sharesINTCOMMENT总分享数,total_coinsINTCOMMENT总投币数仅B站,total_recommendINTCOMMENT总推荐数仅微信,total_likes_zhihuINTCOMMENT总喜欢数仅知乎,total_approvalsINTCOMMENT总赞同数仅知乎)ENGINEInnoDBDEFAULTCHARSETutf8mb4COMMENT全平台概况汇总表;接着创建内容分析明细表DROPTABLEIFEXISTScontent_analysis;CREATETABLEIFNOTEXISTScontent_analysis(idINTAUTO_INCREMENTPRIMARYKEYCOMMENT自增主键ID,dateDATENOTNULLCOMMENT采集日期,author_nameVARCHAR(100)COMMENT作者昵称,titleVARCHAR(500)NOTNULLCOMMENT作品标题,platformVARCHAR(20)NOTNULLCOMMENTB站 / CSDN,likesINTCOMMENT点赞数,favoritesINTCOMMENT收藏数,sharesINTCOMMENT分享数,coinsINTCOMMENT投币数仅B站,viewsINTCOMMENT播放量/阅读量,urlVARCHAR(500)COMMENT作品链接,total_interactionINTCOMMENT互动总数,has_bestTINYINT(1)COMMENT是否含“保姆级” 0否1是,has_lowcodeTINYINT(1)COMMENT是否含“零代码” 0否1是,has_practiceTINYINT(1)COMMENT是否含“实战” 0否1是,has_tutorialTINYINT(1)COMMENT是否含“教程/指南” 0否1是,has_pitTINYINT(1)COMMENT是否含“踩坑” 0否1是)ENGINEInnoDBDEFAULTCHARSETutf8mb4COMMENT内容分析明细表;执行完成后查看日志如果没有出现 SQL 执行错误就说明目标表已经创建成功。配置要点1. 执行 SQL 脚本组件需要先选择正确的数据源连接。 2. 建表前使用 DROP TABLE IF EXISTS方便多次实验时重新运行。 3. summary_all_platforms 用于汇总统计字段以聚合指标为主。 4. content_analysis 用于明细分析字段尽量保留作品本身的信息。 5. 表字段类型要和后续输入数据匹配数值类字段建议使用 INT。2.2 导入并读取原始 CSV 数据目标表创建完成后我开始导入原始数据文件。先在公共空间导入自媒体作品数据明细.csv。然后在转换流中拖入“CSV 文件输入”组件。在 CSV 文件输入组件中选择对应文件后点击“获取字段”让平台自动识别字段名称和字段类型。配置完成后先不要急着继续往下连组件而是先点击“预览”确认数据是否能够正常读取。预览时主要看三点1. 中文字段是否乱码 2. 第一行是否被正确识别为字段名 3. 每一列数据是否对应正确没有出现字段错位。如果预览结果中日期、作者名称、标题、平台、点赞数量、浏览数量等字段都能正常显示就可以继续后续处理。配置要点1. 文件编码建议选择 UTF-8。 2. 如果 CSV 第一行是字段名需要勾选“包含列头行”。 3. 分隔符一般选择英文逗号具体以文件实际格式为准。 4. 配置后一定要先预览数据确认没有乱码和字段错位。 5. 只有输入数据正常后面的分组、过滤和表输出才有意义。2.3 构建全平台概况统计分支原始数据读取成功后我先搭建第一条分支全平台概况统计分支。这条分支的目的不是筛掉某个平台而是保留所有平台的数据按日期和平台汇总作品数量及互动数据。这样后续可以用它做整体运营概况分析比如每天各平台发布了多少作品、总浏览量是多少、不同平台互动量有什么差异。这一分支的组件流程为CSV 文件输入 ↓ 排序记录 ↓ 分组 ↓ 表输出 ↓ summary_all_platforms我先拖入“排序记录”组件将数据按照日期和平台进行排序。排序不是为了改变业务含义而是为了让后续分组时字段顺序更加稳定。然后拖入“分组”组件以日期和平台作为分组字段。作品数量可以通过标题或记录数统计得到浏览数量、点赞数量、收藏数量、分享数量、投币数量等字段使用求和方式处理。分组后的数据已经从“作品明细”变成了“平台日期汇总”。接着拖入“表输出”组件把结果写入summary_all_platforms表。配置要点1. 排序字段选择“日期”和“平台”。 2. 分组字段同样选择“日期”和“平台”。 3. 作品数量字段使用计数方式统计。 4. 浏览、点赞、收藏、分享、投币等数值字段使用求和。 5. 输出表选择 summary_all_platforms。 6. 字段映射时要检查中文字段和目标表英文字段是否正确对应。2.4 构建重点平台有效记录分支全平台分支用于整体统计但如果要继续分析作品内容表现就不能直接使用所有平台数据。因为原始数据里有些平台浏览量缺失较多直接纳入明细分析会影响结果。所以我又从 CSV 文件输入后拉出第二条分支用来筛选重点平台有效记录。本实验中只保留 B站 和 CSDN并且要求浏览数量大于 0。这一分支的核心组件是“过滤记录”。过滤条件设置为(平台 B站 AND 浏览数量 0) OR (平台 CSDN AND 浏览数量 0)这个条件的意思是记录必须属于 B站 或 CSDN同时浏览数量必须大于 0。这样可以去掉其他平台数据也可以过滤掉没有有效浏览量的记录。配置要点1. 本分支只服务于内容明细分析不用于全平台概况统计。 2. 过滤条件中 AND 和 OR 要配合使用。 3. 建议用括号明确条件范围避免逻辑优先级导致筛选错误。 4. 平台字段只保留 B站 和 CSDN。 5. 浏览数量必须大于 0避免无效记录影响后续分析。2.5 处理文本字段缺失值完成过滤后我继续添加“替换NULL值”组件。这一步主要是为了避免后续字段选择、入库或标题特征分析时遇到空值。比如作者名称为空、标题为空时后续如果继续做字符串判断就容易出现异常。本次实验中我主要对文本字段进行填充将所有空值统一替换为未知。配置要点填充值要保持业务含义清楚不要随意填入无关内容。2.6 选择分析所需字段原始 CSV 中有一些字段只是采集过程中的辅助信息比如source_file。这类字段对后续内容分析帮助不大所以我使用“字段选择”组件进行字段裁剪和字段规范。本次保留的字段主要包括日期 作者名称 标题 平台 点赞数量 收藏数量 分享数量 投币数量 浏览数量 url配置要点1. 字段选择不是越多越好只保留后续分析真正需要的字段。 2. source_file 属于采集来源标记本次明细分析中可以删除。 3. 字段顺序最好和目标表 content_analysis 保持一致。 4. 字段类型要注意浏览量、点赞量等应保持数值类型。2.7 输出重点平台内容分析表字段处理完成后我拖入“表输出”组件将清洗后的明细数据写入content_analysis表。在表输出组件中选择数据库连接和目标表然后点击获取字段检查输入流字段是否能正确映射到目标表字段。如果字段名称已经在“字段选择”组件中改好了映射会比较顺利如果字段名不一致就需要手动调整映射关系。运行前我重点检查了三个地方1. 目标表是否选择为 content_analysis 2. 输入字段和目标字段是否一一对应 3. 数值字段是否写入到数值字段中没有出现字段错位。确认无误后运行转换流将清洗后的 B站 和 CSDN 有效作品数据写入目标表。配置要点1. 表输出组件要选择正确的数据库连接。 2. 目标表选择 content_analysis。 3. 字段映射必须逐项检查尤其是 likes、favorites、shares、coins、views。 4. 如果多次运行实验可以先清空目标表避免重复写入。 5. 写入失败时优先检查字段类型和字段名是否匹配。2.8 运行完整转换流并查看日志所有组件连接完成后我运行完整转换流。运行时主要观察每个组件的输入、输出和错误数量。完整流程大致如下CSV 文件输入 ├─ 全平台概况统计分支排序记录 → 分组 → 表输出 summary_all_platforms └─ 重点平台明细清洗分支过滤记录 → 缺失值填充 → 字段选择 → 表输出 content_analysis运行完成后接着进入数据探查中查看两张表的数据。查看全平台汇总表查看重点平台明细表配置要点1. 运行后先看日志不要只看是否有结果。 2. 表输出组件如果报错重点检查字段映射和数据类型。 3. summary_all_platforms 应该包含多个平台的汇总数据。 4. content_analysis 应该只包含 B站 和 CSDN。 5. content_analysis 中 views 应该全部大于 0。第三部分实验结果3.1 生成全平台概况汇总表本次实验输出的第一张表是summary_all_platforms这张表按日期和平台进行汇总能够看到不同平台在不同日期下的作品数量、浏览量、点赞量、收藏量、分享量等指标。这张表适合用于后续仪表盘中的整体概况模块比如作品总数 总浏览量 总点赞数 总收藏数 不同平台作品分布 不同平台互动量对比由于这张表没有过滤平台所以它更适合回答“整体表现如何”的问题。3.2 生成重点平台内容分析表本次实验输出的第二张表是content_analysis这张表只保留 B站 和 CSDN 的有效作品记录并删除了暂时不参与分析的字段。可以使用下面的 SQL 检查平台范围SELECTplatform,COUNT(*)ASrecord_countFROMcontent_analysisGROUPBYplatform;如果查询结果中只出现 B站 和 CSDN说明平台筛选正确。还可以检查是否存在无效浏览记录SELECTCOUNT(*)ASinvalid_countFROMcontent_analysisWHEREviews0ORviewsISNULL;如果查询结果为 0说明浏览量过滤规则生效。3.3 实验结果分析从结果来看两张表的作用是分开的。summary_all_platforms偏向整体统计适合做平台概况、总量指标和趋势分析。content_analysis偏向明细分析适合继续计算互动率、标题关键词特征、内容表现分层等指标。这种分开处理的方式比把所有数据都塞进一张表更清楚。后续做仪表盘时可以直接让指标卡读取汇总表让内容分析图表读取明细表数据来源会更明确。第四部分问题与解决4.1 CSV 读取后出现乱码或字段错位问题现象在 CSV 文件输入组件中预览数据时中文标题、平台名称或作者名称显示异常或者字段内容没有落在正确的列中。问题原因可能是文件编码和组件编码不一致也可能是没有勾选“包含列头行”导致第一行字段名被当成普通数据读取。解决方法重新打开 CSV 文件输入组件将编码设置为 UTF-8并勾选“包含列头行”。配置后重新点击获取字段和预览确认中文内容正常显示字段没有错位后再继续后续组件配置。4.2 过滤记录后数据不符合预期问题现象过滤后仍然出现微信、知乎、小红书等平台数据或者 B站、CSDN 中浏览量为 0 的记录没有被过滤掉。问题原因过滤条件中 AND 和 OR 的组合关系不清楚导致系统没有按照预期逻辑筛选数据。解决方法使用括号明确条件范围(平台 B站 AND 浏览数量 0) OR (平台 CSDN AND 浏览数量 0)这样可以确保每条保留下来的记录都同时满足“平台正确”和“浏览数量有效”两个条件。4.3 表输出时报字段不匹配问题现象运行到表输出组件时报错或者目标表中字段为空、字段写入位置不正确。问题原因输入流字段名和目标表字段名不一致或者字段类型不匹配。例如输入字段仍然叫“浏览数量”但目标表字段为views自动映射时可能无法正确对应。解决方法在“字段选择”组件中提前完成字段重命名或者在表输出组件中手动调整字段映射关系。运行前逐项检查输入字段和目标字段是否一致。4.4 多次运行后结果表数据重复问题现象多次运行转换流后目标表中的数据量不断增加统计结果明显偏大。问题原因表输出组件默认会继续向目标表追加数据。如果实验过程中多次运行而没有清空目标表就会产生重复记录。解决方法调试阶段可以在运行前先执行清空表操作或者在建表脚本中使用DROP TABLE IF EXISTS后重新创建表。正式保存结果前再运行一次完整转换流保证结果表数据干净。4.5 缺失值没有处理导致后续字段异常问题现象后续对标题、作者名称或互动字段进行处理时出现空值异常。问题原因原始数据中部分文本字段为空如果后续继续进行字符串判断或字段输出就可能出现异常或结果为空。解决方法在过滤记录后添加“缺失值填充”组件。文本字段填充为“未知作者”“未命名作品”等默认值数值字段如果为空则填充为 0。这样可以保证后续数据流更加稳定。第五部分实验总结本次实验完成了自媒体作品互动数据的清洗与预处理。整个过程使用助睿数智Uniplore一站式数据科学实验平台中的数据集成模块通过可视化组件搭建了完整的 ETL 流程。这次实验中我没有直接把原始 CSV 数据导入数据库后就结束而是根据后续分析目标设计了两条处理分支。第一条分支用于全平台概况统计保留所有平台数据并按日期和平台进行分组聚合最终输出summary_all_platforms表。第二条分支用于重点平台内容分析只保留 B站 和 CSDN 中浏览量大于 0 的有效记录再经过缺失值填充、字段选择和字段规范后输出content_analysis表。通过这次实验我进一步理解了数据清洗在数据分析流程中的作用。原始数据如果不经过筛选和标准化处理后续做指标统计和可视化时很容易出现结果偏差。尤其是在多平台数据场景下不同平台的字段质量和互动指标含义并不完全一致必须先根据分析目标确定清洗规则。本次实验最终生成的两张结果表可以继续用于后续的自媒体运营分析、内容互动指标计算和数据可视化仪表盘搭建。