# 第一章读书笔记大数据可视化——从“看天书”到“一眼丁真”的修炼手册 本笔记融合了1.1~1.5节的核心内容全程高能但每个公式和案例都经过大脑皮层验证。放心食用查重友好。## 一、开篇暴击大数据到底有多大你以为1TB的硬盘已经能装下你所有的“学习资料”太天真了。到2030年光是全球物联网设备一年就会产生 **200–300 ZB** 的数据。ZB是什么概念给你一个公式链体会一下\[1\,\text{KB}1024\,\text{B},\quad1\,\text{MB}1024\,\text{KB},\quad1\,\text{GB}1024\,\text{MB},\quad1\,\text{TB}1024\,\text{GB},\quad1\,\text{PB}1024\,\text{TB},\quad1\,\text{EB}1024\,\text{PB},\quad1\,\text{ZB}1024\,\text{EB}\]也就是说**1 ZB \(2^{70}\) 字节**。300 ZB 你拿Excel打开试试电脑会直接原地飞升。所以大数据的真正定义不是“大”而是**传统工具在合理时间内搞不定的数据**。必须用分布式、并行处理来伺候它。但这堆冷冰冰的字节里面藏着金矿——电商知道你想买什么交通系统知道哪里堵车医院知道哪种治疗方案更靠谱。关键是怎么把这些金子从屎山一样的数字里挖出来然后让别人一眼就能看懂。这就引出了本门神功**大数据可视化**。## 二、可视化的灵魂三问给谁看看什么怎么看### 2.1 两大门派探索派 vs 解释派- **探索派**使用者是数据分析师、科学家。他们不知道数据里有什么妖魔鬼怪画图是为了**发现模式、异常、相关性**。典型场景你拿到一堆用户行为日志画几个散点图矩阵突然发现某个时段数据全塌了——哦服务器挂了。- **解释派**受众是老板、客户、公众。他们已经知道结论你只需要**把故事讲清楚**。典型场景年终汇报一张柱状图告诉老板“我们Q3营收涨了20%全靠那个骚气的功能”。两者不是水火不容而是**阶段不同**。你自己探索时用散点图矩阵给老板汇报时用干净漂亮的条形图。### 2.2 三大功能记录、分析、传递- **信息记录**相当于给数据拍一张“全球定位快照”。NASA那个“夜间地球”图就是典型——通过卫星把地球夜晚的灯光分布画出来不光好看还能比较不同国家的城市化进程。- **信息分析**用图来**找出因果**。1854年伦敦霍乱John Snow把死亡病例和水泵位置画在一张地图上发现病例全围着宽街水泵转——**可视化直接破案**推翻了“毒气传播”的迷信。这波操作比福尔摩斯还早。- **信息传递**让看不懂数字的人秒懂。南丁格尔玫瑰图也叫鸡冠花图用扇形面积展示英军死亡原因结果英国皇室一看“卧槽传染病才是头号杀手”于是战地医院改革死亡率从42%降到2.2%。一张图救了无数条命。## 三、可视化四步走别想跳过任何一步完整流程是**采集 → 处理变换 → 映射 → 感知**。跳步等于作死。### 3.1 数据采集源头别翻车你得先搞清楚要收什么数据、从哪里收、多久收一次。如果采集目标搞错了比如你想分析用户年龄分布结果只采集了付费用户后面画出来的图再漂亮也是**精准的废话**。### 3.2 数据处理和变换给数据洗澡整容原始数据脏得离谱缺值、异常值、重复值、格式不统一……必须清洗。更关键的是**变换**——不同维度的数值范围差几个数量级直接画图会导致小数值被大数值碾压。所以需要**归一化**或**标准化**- 最小-最大归一化把数据压到 [0,1] 区间\[x \frac{x - \min(x)}{\max(x) - \min(x)}\]- Z-score 标准化转化为均值为0、标准差为1的分布\[z \frac{x - \mu}{\sigma}\]举个例子人口几百万和增长率0~5%放在一起不归一化的话人口直接支配了色标。归一化以后两个维度才能公平竞争视觉通道。### 3.3 可视化映射把数字翻译成颜色、大小、位置这是核心中的核心。你需要决定- 用什么**图表类型**比较大小用条形图看趋势用折线图看相关性用散点图看关系网络用力导向图。- 用什么**视觉通道**位置、长度、面积、颜色、形状……每种通道的精确度不同。人眼对长度最敏感对面积和颜色饱和度没那么敏感——这就是为什么**饼图经常被嫌弃**除非占比差别极大。### 3.4 用户感知别自嗨图做完了给几个路人看问三个问题“你第一眼看到什么”“你觉得图想表达什么”“哪里看不懂” 根据反馈迭代。顺便照顾色盲人士——别只用红绿加个纹理或者蓝橙配色。## 四、五大数据类型对号入座别乱点鸳鸯谱### 4.1 结构化数据——表格界的强迫症患者每一列类型固定每一行格式整齐。学生成绩表、银行流水、实验记录都算。这种数据最省心直接用**柱状图、折线图、散点图、热力图**就能打。**反模式**有人非要把十个变量的折线全塞进一张图结果线条缠成一团乱麻——这叫“意大利面图”不是可视化。### 4.2 文本数据——爱说废话的非主流评论、新闻、论文摘要……没有固定格式还带情感和语义。想可视化先做**分词、去停用词、统计词频**然后画个**词云图**——字体越大表示出现次数越多。但注意词云只能看到**表层频率**它不知道“核废水”和“海鲜”在句子里的因果关系。科研中想梳理大量文献词云只能帮你快速锁定高频词真正要深入还得读原文。别把词云当圣旨。### 4.3 网络数据——关系户的狂欢数学上一个网络可以写成 \( G (V, E) \)- \( V \) 是节点集合人、网页、论文- \( E \subseteq V \times V \) 是边集合关注、超链接、引用如果关心关系的方向就是**有向图**如果关心关系强弱就是**加权图**加一个权重函数 \( w: E \to \mathbb{R} \)。邻接矩阵 \( A \) 是这样定义的\[A_{ij} \begin{cases}w_{ij} \text{如果有连接}\\0 \text{否则}\end{cases}\]网络可视化的目标就是把这张抽象的图画出来节点大小表示重要度比如度中心性边的粗细表示关联强度颜色表示不同社群。经典案例《Nature》百年论文共被引网络——8万篇论文的引用关系变成一张拓扑图哪个学科是中心、哪些领域在交叉融合一目了然。### 4.4 地理空间数据——经纬度是它的身份证每个数据点都带着经纬度坐标 \((\lambda, \phi)\)需要投影到地图上。**热力图、点密度图、流向图**是常用手法。我最喜欢的是 **Earth wind map**一个三维地球仪用流动线条表示风向用蓝绿红渐变表示风速。你可以旋转地球、拉时间轴看到台风怎么旋转。这已经不是“画图”而是**交互式动态地理可视化**。### 4.5 复杂数据——什么都有的大杂烩高维、异构、实时更新。比如飓风红外监测图同时包含卫星遥感数据非结构化、地理坐标、时序预测。怎么画先对高维数据降维——常用**PCA主成分分析**。数学上PCA 求解协方差矩阵的特征值问题\[\Sigma v \lambda v\]取前两个最大特征值对应的特征向量把原始高维数据投影到二维平面。虽然丢了信息但能在屏幕上显示了。复杂数据可视化是真正的“技术大礼包”需要你同时懂数据处理、网络分析、GIS、实时流计算……门槛很高但产出也最震撼。## 五、可视化发展史古人比你想的会玩- **公元前6200年**恰塔霍裕克壁画——远古版Google Maps但手绘。- **公元950年**行星运动轨迹图居然**用了坐标轴和网格线**还有类似平行坐标的玩意。震惊当时欧洲还在黑暗中世纪。- **1786年**William Playfair 发明条形图、折线图、饼图。他当时就知道**饼图不直观**主要用条形图。可惜后人还是疯狂滥用饼图。- **1869年**Minard 的拿破仑远征流线图——**可视化界的蒙娜丽莎**。一张图包含兵力线宽、方向颜色、地理位置、气温。没有交互但信息量爆炸。- **1933年**伦敦地铁图抛弃地理精确性只用水平、垂直、45°线——**认知负荷最低**。这个“失真”反而更真实。- **1967年**Jacques Bertin 写出《图形符号学》提出7个视觉通道位置、尺寸、明度、纹理、颜色、方向、形状。现代可视化库的理论地基。- **2005年**Gapminder 动态气泡图拖动时间轴看国家发展。交互式探索从此流行。- **2017年**Uber Movement基于Spark、Hadoop处理PB级行程数据实时展示城市拥堵。**大数据驱动可视化的典范**。教训**新不等于好**。Minard的图虽然静态但信息传达效率完爆很多3D炫酷夜店风大屏。先准后美。## 六、我的反思与flag通过第一章的学习我发现自己之前的可视化实践就是“只会画条形图的小白”。遇到文本数据、网络数据、高维数据就抓瞎。接下来我准备1. 系统学习 **Python NetworkX** 画网络图顺便复习图论基础度中心性、聚类系数。2. 学会用 **Scikit-learn** 做 PCA 降维然后把高维数据投影到二维散点图。3. 记住可视化是**信息传递**不是艺术展。画图之前先问“我的观众是谁他们需要看到什么”最后送你一个万能公式\[\text{好的可视化} \text{干净的数据} \text{合适的图表} \text{清晰的标注} - \text{无用的特效}\]合上书动手画。别光做笔记。
01绪论——数据挖掘(主编:吕欣 王梦宁)
# 第一章读书笔记大数据可视化——从“看天书”到“一眼丁真”的修炼手册 本笔记融合了1.1~1.5节的核心内容全程高能但每个公式和案例都经过大脑皮层验证。放心食用查重友好。## 一、开篇暴击大数据到底有多大你以为1TB的硬盘已经能装下你所有的“学习资料”太天真了。到2030年光是全球物联网设备一年就会产生 **200–300 ZB** 的数据。ZB是什么概念给你一个公式链体会一下\[1\,\text{KB}1024\,\text{B},\quad1\,\text{MB}1024\,\text{KB},\quad1\,\text{GB}1024\,\text{MB},\quad1\,\text{TB}1024\,\text{GB},\quad1\,\text{PB}1024\,\text{TB},\quad1\,\text{EB}1024\,\text{PB},\quad1\,\text{ZB}1024\,\text{EB}\]也就是说**1 ZB \(2^{70}\) 字节**。300 ZB 你拿Excel打开试试电脑会直接原地飞升。所以大数据的真正定义不是“大”而是**传统工具在合理时间内搞不定的数据**。必须用分布式、并行处理来伺候它。但这堆冷冰冰的字节里面藏着金矿——电商知道你想买什么交通系统知道哪里堵车医院知道哪种治疗方案更靠谱。关键是怎么把这些金子从屎山一样的数字里挖出来然后让别人一眼就能看懂。这就引出了本门神功**大数据可视化**。## 二、可视化的灵魂三问给谁看看什么怎么看### 2.1 两大门派探索派 vs 解释派- **探索派**使用者是数据分析师、科学家。他们不知道数据里有什么妖魔鬼怪画图是为了**发现模式、异常、相关性**。典型场景你拿到一堆用户行为日志画几个散点图矩阵突然发现某个时段数据全塌了——哦服务器挂了。- **解释派**受众是老板、客户、公众。他们已经知道结论你只需要**把故事讲清楚**。典型场景年终汇报一张柱状图告诉老板“我们Q3营收涨了20%全靠那个骚气的功能”。两者不是水火不容而是**阶段不同**。你自己探索时用散点图矩阵给老板汇报时用干净漂亮的条形图。### 2.2 三大功能记录、分析、传递- **信息记录**相当于给数据拍一张“全球定位快照”。NASA那个“夜间地球”图就是典型——通过卫星把地球夜晚的灯光分布画出来不光好看还能比较不同国家的城市化进程。- **信息分析**用图来**找出因果**。1854年伦敦霍乱John Snow把死亡病例和水泵位置画在一张地图上发现病例全围着宽街水泵转——**可视化直接破案**推翻了“毒气传播”的迷信。这波操作比福尔摩斯还早。- **信息传递**让看不懂数字的人秒懂。南丁格尔玫瑰图也叫鸡冠花图用扇形面积展示英军死亡原因结果英国皇室一看“卧槽传染病才是头号杀手”于是战地医院改革死亡率从42%降到2.2%。一张图救了无数条命。## 三、可视化四步走别想跳过任何一步完整流程是**采集 → 处理变换 → 映射 → 感知**。跳步等于作死。### 3.1 数据采集源头别翻车你得先搞清楚要收什么数据、从哪里收、多久收一次。如果采集目标搞错了比如你想分析用户年龄分布结果只采集了付费用户后面画出来的图再漂亮也是**精准的废话**。### 3.2 数据处理和变换给数据洗澡整容原始数据脏得离谱缺值、异常值、重复值、格式不统一……必须清洗。更关键的是**变换**——不同维度的数值范围差几个数量级直接画图会导致小数值被大数值碾压。所以需要**归一化**或**标准化**- 最小-最大归一化把数据压到 [0,1] 区间\[x \frac{x - \min(x)}{\max(x) - \min(x)}\]- Z-score 标准化转化为均值为0、标准差为1的分布\[z \frac{x - \mu}{\sigma}\]举个例子人口几百万和增长率0~5%放在一起不归一化的话人口直接支配了色标。归一化以后两个维度才能公平竞争视觉通道。### 3.3 可视化映射把数字翻译成颜色、大小、位置这是核心中的核心。你需要决定- 用什么**图表类型**比较大小用条形图看趋势用折线图看相关性用散点图看关系网络用力导向图。- 用什么**视觉通道**位置、长度、面积、颜色、形状……每种通道的精确度不同。人眼对长度最敏感对面积和颜色饱和度没那么敏感——这就是为什么**饼图经常被嫌弃**除非占比差别极大。### 3.4 用户感知别自嗨图做完了给几个路人看问三个问题“你第一眼看到什么”“你觉得图想表达什么”“哪里看不懂” 根据反馈迭代。顺便照顾色盲人士——别只用红绿加个纹理或者蓝橙配色。## 四、五大数据类型对号入座别乱点鸳鸯谱### 4.1 结构化数据——表格界的强迫症患者每一列类型固定每一行格式整齐。学生成绩表、银行流水、实验记录都算。这种数据最省心直接用**柱状图、折线图、散点图、热力图**就能打。**反模式**有人非要把十个变量的折线全塞进一张图结果线条缠成一团乱麻——这叫“意大利面图”不是可视化。### 4.2 文本数据——爱说废话的非主流评论、新闻、论文摘要……没有固定格式还带情感和语义。想可视化先做**分词、去停用词、统计词频**然后画个**词云图**——字体越大表示出现次数越多。但注意词云只能看到**表层频率**它不知道“核废水”和“海鲜”在句子里的因果关系。科研中想梳理大量文献词云只能帮你快速锁定高频词真正要深入还得读原文。别把词云当圣旨。### 4.3 网络数据——关系户的狂欢数学上一个网络可以写成 \( G (V, E) \)- \( V \) 是节点集合人、网页、论文- \( E \subseteq V \times V \) 是边集合关注、超链接、引用如果关心关系的方向就是**有向图**如果关心关系强弱就是**加权图**加一个权重函数 \( w: E \to \mathbb{R} \)。邻接矩阵 \( A \) 是这样定义的\[A_{ij} \begin{cases}w_{ij} \text{如果有连接}\\0 \text{否则}\end{cases}\]网络可视化的目标就是把这张抽象的图画出来节点大小表示重要度比如度中心性边的粗细表示关联强度颜色表示不同社群。经典案例《Nature》百年论文共被引网络——8万篇论文的引用关系变成一张拓扑图哪个学科是中心、哪些领域在交叉融合一目了然。### 4.4 地理空间数据——经纬度是它的身份证每个数据点都带着经纬度坐标 \((\lambda, \phi)\)需要投影到地图上。**热力图、点密度图、流向图**是常用手法。我最喜欢的是 **Earth wind map**一个三维地球仪用流动线条表示风向用蓝绿红渐变表示风速。你可以旋转地球、拉时间轴看到台风怎么旋转。这已经不是“画图”而是**交互式动态地理可视化**。### 4.5 复杂数据——什么都有的大杂烩高维、异构、实时更新。比如飓风红外监测图同时包含卫星遥感数据非结构化、地理坐标、时序预测。怎么画先对高维数据降维——常用**PCA主成分分析**。数学上PCA 求解协方差矩阵的特征值问题\[\Sigma v \lambda v\]取前两个最大特征值对应的特征向量把原始高维数据投影到二维平面。虽然丢了信息但能在屏幕上显示了。复杂数据可视化是真正的“技术大礼包”需要你同时懂数据处理、网络分析、GIS、实时流计算……门槛很高但产出也最震撼。## 五、可视化发展史古人比你想的会玩- **公元前6200年**恰塔霍裕克壁画——远古版Google Maps但手绘。- **公元950年**行星运动轨迹图居然**用了坐标轴和网格线**还有类似平行坐标的玩意。震惊当时欧洲还在黑暗中世纪。- **1786年**William Playfair 发明条形图、折线图、饼图。他当时就知道**饼图不直观**主要用条形图。可惜后人还是疯狂滥用饼图。- **1869年**Minard 的拿破仑远征流线图——**可视化界的蒙娜丽莎**。一张图包含兵力线宽、方向颜色、地理位置、气温。没有交互但信息量爆炸。- **1933年**伦敦地铁图抛弃地理精确性只用水平、垂直、45°线——**认知负荷最低**。这个“失真”反而更真实。- **1967年**Jacques Bertin 写出《图形符号学》提出7个视觉通道位置、尺寸、明度、纹理、颜色、方向、形状。现代可视化库的理论地基。- **2005年**Gapminder 动态气泡图拖动时间轴看国家发展。交互式探索从此流行。- **2017年**Uber Movement基于Spark、Hadoop处理PB级行程数据实时展示城市拥堵。**大数据驱动可视化的典范**。教训**新不等于好**。Minard的图虽然静态但信息传达效率完爆很多3D炫酷夜店风大屏。先准后美。## 六、我的反思与flag通过第一章的学习我发现自己之前的可视化实践就是“只会画条形图的小白”。遇到文本数据、网络数据、高维数据就抓瞎。接下来我准备1. 系统学习 **Python NetworkX** 画网络图顺便复习图论基础度中心性、聚类系数。2. 学会用 **Scikit-learn** 做 PCA 降维然后把高维数据投影到二维散点图。3. 记住可视化是**信息传递**不是艺术展。画图之前先问“我的观众是谁他们需要看到什么”最后送你一个万能公式\[\text{好的可视化} \text{干净的数据} \text{合适的图表} \text{清晰的标注} - \text{无用的特效}\]合上书动手画。别光做笔记。