2024 年将塑造现代数据架构的趋势

2024 年将塑造现代数据架构的趋势 原文towardsdatascience.com/trends-that-will-shape-the-modern-data-stack-in-2024-6b7de28335c2?sourcecollection_archive---------11-----------------------#2024-01-10生成性 AI、数据网格、监管和可观察性。2024 年将是充满乐趣的一年https://medium.com/salmabakouk?sourcepost_page---byline--6b7de28335c2--------------------------------https://towardsdatascience.com/?sourcepost_page---byline--6b7de28335c2-------------------------------- Salma Bakouk·发表于Towards Data Science ·阅读时间 6 分钟·2024 年 1 月 10 日–https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/22334390425c4f7a80244d510e6067a0.png来源www.istockphoto.com/frAndrey Suslov2023 年将永远被铭记为生成性人工智能的年份。在这个数字时代你几乎找不到一个拥有互联网接入的人没有听说过 ChatGPT。如果你足够长时间地见证了几次技术周期你就知道我们正进入一个相当具有变革性的周期。根据麦肯锡的调查自 2017 年以来人工智能的应用已经翻了一番。尽管最近的进展无疑会加速这种应用但我倾向于相信我们在 2024 年看到的成果仍然相对较小因为大多数公司仍在努力弄清楚如何将数据战略与业务目标对接同时应对日益增加的监管审查。就数据行业而言人工智能的应用将通过让数据和数据基础设施更易于组织内的广泛用户访问推动数据的进一步采用从而为更多的人工智能项目提供支持。数据的安全民主化将是一个重要话题我们将看到数据网格的更多实际应用以及更多对安全、隐私和可观察性的投资。本文的目的不是做出关于 AI 如何改变我们所知的数据行业的大胆声明而是希望揭示一些我们可能会看到企业持续投资的领域以及围绕数据与 AI 成为自我实现的预言所激发的热情。AI 将被投入工作并且会颠覆我们所知的现代数据栈。当然我们从这里开始。不可否认的是LLMs 已经完全改变了我们对技术的思考方式数据与分析领域也不例外。就现代数据栈而言以下是 LLMs 将会改变游戏规则的一些领域数据分析将 AI 引入分析工作流将提高自动化、效率和可访问性。自动化AI 可以用于自动化繁琐的任务如数据收集、准备和清理并减少手动错误的可能性。效率使用更复杂的预测模型将使公司能够预测未来趋势提高预测的准确性。AI 算法可以用于识别和研究客户行为从而提供高度个性化的产品推荐和更具针对性的营销活动。可访问性AI 将帮助 AI 的普及。自然语言处理NLP可以被用来使 AI 驱动的数据分析更加易于访问允许即使是最不懂技术的用户也能以对话的方式与数据进行互动。向量数据库的崛起大型语言模型LLMs需要支持快速查询和处理大量结构化和非结构化无模式数据的基础设施。这正是向量和向量搜索数据库的数学概念发挥作用的地方。与传统关系型数据库的行和列不同数据在多维空间中表示典型的数学向量表示方式。在生成 AI 应用的背景下向量数据库允许对向量化数据进行快速处理和查询。更多信息请见这里和这里。“[把向量数据库想象成一个庞大的仓库人工智能则是熟练的仓库经理。在这个仓库里每个物品数据都被存储在一个箱子向量里整齐地组织在多维空间的货架上]”正如Mark Hinkle 在《The New Stack》中所述。“机器学习管道”在传统的数据工程中数据管道是将数据从源头传输到目标的过程通常是为了通过商业智能BI使其对企业可访问以便进行报告和分析。机器学习管道与传统数据管道类似都是数据传输的过程然而它的主要目的是支持机器学习模型的开发和部署与数据管道不同机器学习管道并不是一条“直线”——关于数据管道和机器学习管道的差异请参阅这里和这里。成功的机器学习ML、人工智能AI和数据科学项目需要强大的基础设施以便构建、测试、训练、优化和维护模型的准确性。这个过程始于结构良好的机器学习管道。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/f2f83c95241bf658c37738e6cf8fb033.png来源:https://www.forepaas.com/en/blog/data-pipelines-ai-pipelines-2/隐私请。不可否认的是数据使用量以及公司对数据和平台民主化的需求将在 2024 年继续大幅增长。也就是说随着数据和人工智能的监管越来越严格个人数据保护政策的审查将加剧。关于未来 12 个月人工智能监管的预期总结请见这里。BYODM: 自带数据网格自从 2019 年由其创始人 Zhamak 首次提出以来数据网格经历了无数次辩论和相当多的怀疑。四年后出现了几种实现方式和变体其中公司采纳了这一概念的原则并将其应用于自己的架构。去中心化、面向领域的设计、IaaS、数据即产品以及端到端的联合治理都是组织应当采纳的原则以创建和促进一个无孤岛的、民主化的数据环境。然而从传统的单体结构转向完整的数据网格并不容易且需要进行重大的文化和组织变革。这就是为什么渐进式采纳允许慢慢引入这一概念并证明其价值同时对齐现有和未来的技术与商业考量是过去几年中最有效的方式。最终需要记住的是数据网格是一种架构和组织上的转变而不是技术解决方案。我认为 BYODM 方法将在 2024 年占据主导地位。数据与 AI 可观察性我在这里可能有偏见。但话说回来在每个组织都在思考大语言模型LLM潜力的世界里支持数据与 AI 可观察性的观点是很难反驳的。“没有数据战略就没有 AI 战略。我们所追求的智能最终都体现在数据上。” ——Frank Slootman在过去几年里数据可观察性已成为每个现代组织数据战略的关键组成部分。如果你对这一概念不熟悉我建议你从这里或这里开始了解。不可否认AI 也将重塑数据可观察性领域。采用 AI 代理并使用自然语言处理NLP将提高平台解决方案的自动化和包容性从而推动其采纳。我们所知的数据可观察性概念将发展以捕捉 AI 在可观察性中的潜力并覆盖更多的 AI 应用场景。市场上大多数现有解决方案已经涵盖了将成为数据与 AI 可观察性的部分内容。如果你将数据科学视为数据消费的应用场景监控进入模型训练的数据在大多数框架下已经有所涵盖。数据与 AI 可观察性的未来将发展为包括对机器学习ML模型行为、输出和性能的洞察。就像今天的数据管道一样数据可观察性平台将包括关于 ML 管道的可操作性洞察以实现有效的异常检测、根本原因分析和事件管理并为 ML 产品部署带来可靠性和效率。结论2024 年是闰年这意味着我们有 366 次机会去做更多的事情并创造数据创新。尽管 2023 年将永远被铭记为生成 AI 的元年但 2024 年将是我们开始看到组织朝着数据与 AI 成熟度迈进的时刻。但要做好 AI一个深思熟虑的数据战略至关重要。现代数据堆栈是一个不断发展的领域2024 年我们将看到更多由 AI 日益普及所带来的创新。随着企业在 2024 年更多地试验 AI治理和可观察性将成为核心以确保顺利高效的部署。