时间序列预测:超越基础

时间序列预测:超越基础 原文towardsdatascience.com/time-series-forecasting-beyond-the-basics-d11e37229ed8?sourcecollection_archive---------3-----------------------#2024-03-09解锁时间序列预测在现实世界中的真正潜力的技巧和窍门https://medium.com/thauridattadeen?sourcepost_page---byline--d11e37229ed8--------------------------------https://towardsdatascience.com/?sourcepost_page---byline--d11e37229ed8-------------------------------- Thauri Dattadeen·发表于 Towards Data Science ·8 分钟阅读·2024 年 3 月 9 日–https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/049a193017fcc5ba54d86c692100f9a1.png图片来源Alex Chumak 在 Unsplash预测未来的能力是一种超能力幸运的是时间序列预测存在并且任何人都可以使用这种超能力可以使任何人做出前瞻性决策改善未来规划。时间序列预测的应用几乎是无限的想象一下能够预测你公司产品的需求做出更明智的投资财务决策或者仅仅是能够预测天气。虽然互联网上充斥着关于预测核心原则的资源但现实世界的复杂性往往超出了教科书的内容。本指南深入探讨了我在多年将这一强大工具应用于商业环境中的发现和未言明的秘密。我们将探索一些策略超越通常关注特征工程和模型选择的范畴帮助你真正解锁时间序列预测的潜力。1. 目的、影响、努力PIE框架2. 领域知识3. 非平稳性和突变4. 利益相关者管理https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/483c3034aaf86abb587adcfcbc84e9f2.png图片来源rc.xyz NFT gallery 在 Unsplash1. 目的、影响、努力PIE框架在任何数据科学项目中第一步始终是查看与工作相关的目标、影响和投入。在进入复杂的数据分析和建模世界之前重要的是停下来评估基本问题这个项目的目的是什么它最终会带来什么影响值得付出这份努力吗数据科学项目往往需要大量的时间和资源。因此你必须不断问自己一个关键问题“通过利用数据科学组织能获得多少附加价值”令人惊讶的是这个问题的答案并非总是显而易见。有时候选择一个“快捷而粗糙”的解决方案——符合帕累托法则即 20%的努力产生 80%的结果——就能解决大部分日常问题。那么如果一个更简单的解决方案就能满足需求为什么要花费额外的时间和精力呢这时PIE 框架就派上了用场。在令人兴奋的数据科学技术背后有一个重要的决策使用更高级技术的边际收益是否真的值得额外的成本和努力在大多数情况下答案是响亮的“不是”。尽管它看起来可能很令人兴奋但在直接进入数据科学项目之前重要的是要进行批判性思考。通过遵循 PIE 框架你可以自信地决定要承担哪些项目确保你的努力既有意义又富有影响力。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/82d47a0379f7d58c15cbc44bbd93ec35.pngPIE 框架中的饼图。2.领域知识许多课程和教材通常专注于教授各种时间序列预测技术往往将它们呈现为成功的关键。然而正如我的实际经验所教导的那样真正的“秘密武器”并不在于模型本身而是深入理解你所处理的数据。没有一种放之四海而皆准的预测模型。例如想象一下如果你试图在松散的沙地上建造梦想中的房子。你可以找到最好的建筑师和施工队设计出最复杂的蓝图但最终这座房子注定会倒塌。同样地如果在无关数据或者充满错误和不一致的数据上构建强大的预测模型就像是在不稳定的地基上建房子。模型的输出将是不可靠的容易崩溃。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/4f51d2c2492985397aca6d88be687075.pngJohn Hult 摄影来源于 Unsplash在时间序列预测的背景下领域知识不仅仅是了解数据所代表的内容。它还涉及深入挖掘并理解与问题分析相关的潜在关系、机制和细节。每个数据集都是独一无二的理解数据的过程会因每个项目的不同而有所变化。尽管这一步看起来可能相当无聊但它可能决定整个项目的成败。从指导特征工程决策到引导模型选择领域知识在塑造项目过程中起着非常重要的作用。如果你能够找到并利用最好的数据来输入模型那么你的输出将更加有用。3.非平稳性和突变当你第一次学习时间序列预测时你通常会在许多预测模型中遇到“平稳性”这一核心假设。然而在现实世界中时间序列数据很少符合这一假设。相反你会发现数据和交互随着时间变化。这通常表现为波动、趋势和季节性。在构建可靠的预测模型时识别并适应这些动态模式以准确捕捉和预测潜在的趋势和行为是非常重要的。另一个常见的问题是当数据中发生突变或不连续时。传统的预测方法对于这种突变的处理并不好但考虑到这些突变是非常重要的。这些突变可能是由外部因素引起的例如市场条件变化、消费者行为转变或新法规或新技术的引入。它们可能并不总是可以直接衡量或获得但在这一点上你的专业知识将发挥作用帮助你找到最佳方法来考虑这些细微差别。例如假设你正在尝试预测英格兰超级联赛足球的观众数量。除了明显的赛季变化外还有一些其他的特点比如赛季末期观众兴趣会更高因为竞争更加激烈观众变得更加关注。现在假设梅西转会到英超或者天空体育提高了他们的月度订阅费——这些突变有时是不可预测的但它们对实际观众数量的影响非常显著。处理这些突变没有简单的方法但有一些技术可以提供帮助。以下是我通常用来应对这些细微差别的一些方法但它们的应用高度依赖于数据的特性1.时间序列分解— 这包括将数据分解为其核心组成部分——如趋势、季节性和噪声。通常这一步应该作为预分析的一部分来完成以更好地理解数据并单独建模每个组成部分的行为。外生特征— 这些是你认为影响数据短期波动或长期趋势的外部变量。这可以是手动标记或其他作为回归变量使用的重要特征。领域知识在这里至关重要。每一次突变通常都有解释。并非总能将每个解释作为特征纳入所以过滤出最有用、可靠且可预测的特征非常重要以避免过拟合。自适应建模— 这涉及到选择最合适的模型以便能够检测和适应潜在模式的变化。这一步是我最喜欢的之一因为它涉及到通过研究找到或创建最适合数据的模型。然而说起来容易做起来难。可能会有一些时候这需要一些手动工作例如超参数调优或者使用某些考虑到数据细微差异的特定模型。请记住这也可能增加过拟合的风险。尽管这些技术无法完美预测每一个前所未见的效应但它们确实让我们为这些效应做好更多准备并构建出更强大的预测模型。4. 利益相关者管理成功实施模型远远超出了模型选择和数据分析的技术复杂性——它还包括有效的利益相关者管理。将“利益相关者管理”看作是根据参与人员定制过程。目标是确保你的模型正在做它应该做的事情同时你继续创造价值。如何定制过程和输出取决于利益相关者的需求无论是高管、经理还是消费者。这一切都关乎提供可操作的洞察以帮助他们做出明智的决策**。**作为一名数据科学家你的价值通常取决于你将技术洞察转化为实际决策的能力。这对我们大多数人来说既是福也是祸——软技能在技术领域中常常被低估但它是连接我们艰苦工作和从中获得价值的桥梁。虽然技术技能为我们的工作奠定了基础但你有效沟通、与利益相关者共情并推动行动的能力才是真正提升我们影响力的关键。沟通是数据科学家最重要的技能然而它也是被认为最难掌握的技能。以下是一些能够帮助有效沟通的实用建议1. 定制化模型选择选择正确的模型远远超越了识别最精确的算法。的确黑箱模型可能对我们数据科学家来说是最准确和最具吸引力的但它们通常不透明或难以解释这使得利益相关者很难信任结果。在这种情况下选择像 ARIMA 或指数平滑这样简单的模型可能更好虽然可能会降低准确性但能提高可解释性。最好还是对现有的各种模型进行研究。这是一些最常见的预测模型及其可解释性的示例https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/77ebce2a7db7130b1bd1a0bab0c18272.png2. 清晰的可视化以与受众产生共鸣的方式呈现你的结果。考虑设计良好的图表、图形和仪表盘。这涉及到清晰、简洁和与受众的相关性。你如何帮助利益相关者快速理解关键见解并做出明智决策网上有许多关于数据可视化的文章和课程高层管理人员可能偏好高层次的仪表盘而经理可能需要包含误差度量的详细报告。消费者通常从清晰且可操作的可视化中受益将预测转化为实际应用。就个人而言我从 Prophet 的基本可视化中汲取了很多灵感因为它清楚地展示了实际值与模型预测值的对比。我通常会添加注释或突出某些点包括未来和过去的关键时刻。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/324bd3ae71e63e3fcfd78c556098317e.pngProphet 输出的示例。3. 讲故事不仅要呈现数据还要讲一个故事。突出预测的背景、关键发现和潜在影响。了解你的受众并将叙述框架调整为与特定目标和挑战相关的方式。在“如何做”之前先关注“为什么做”你试图通过预测实现的总体目标是什么这些预测将如何用于支持决策不准确的预测可能带来什么潜在后果承认模型预测中的局限性和不确定性。突出过程而不仅仅是结果始终将过程与当前任务联系起来。分享你在数据预处理或模型选择过程中遇到的主要挑战以及你是如何克服这些挑战的。突出你在过程中发现的任何意外见解。使其具有可关联性和可操作性讲述你的受众能够理解的语言。量化你的预测在收入、成本节省或资源分配等指标上的潜在影响。提供清晰的建议和基于你的见解利益相关者可以采取的可操作步骤。记住成功预测的关键不仅仅是模型的准确性更在于其能赋能利益相关者做出明智决策。时间序列预测是一个强大的工具所以要明智且小心地使用它除非另有说明所有图片均为作者提供。