推动 Quant 和 AI 的数据结构

快速阅读: 据《芬格尔》最新报道，本文探讨了数据管理、数据科学和量化金融三者间的文化差异与历史联系。2008年后，量化分析师引入了Python的pandas库，统一了表格和矩阵计算，推动了数据科学的发展。如今，矩阵技术和图结构共同促进AI进步，而表格依然在大数据管理和分析中扮演重要角色。量化分析师不仅是原始数据科学家，还推动了AI治理实践。

商务发展团队要求我解释为什么数据管理与数据科学形成了不同的文化和语言。我发现这很难，部分原因是我的背景中有工程数学，而工程数学多年来与金融工程学科紧密相连，而我的同事很少涉及这些术语。这是因为量化和金融工程，就像数据管理一样，比现代数据科学早几十年出现。事实上，数据科学直到2010年代中期才成为一个热门话题。我之前曾争论过，量化分析师是原始的数据科学家。鉴于DeepSeek的出现——一个主要由量化分析师组成并支持的公司，量化分析师也成为了现代AI工程师。因此，这篇文章将三个不同的但相互关联的世界联系在一起：技术计算，启发了计算密集型量化金融和神经网络增强的AI先驱，比如杰弗里·辛顿等人。数据管理，以表格和表操作为主导。企业统计和数据分析，同样以表格和表操作为主导。

我还将提出一个论点，不涉及摩尔定律或廉价数据存储（尽管这两者都很重要），为什么数据科学突然成为了一个热门话题，2008年是一个关键年份。统一表格和矩阵基础学科预示着AI的新黄金时代。量化分析师继续创新。为了帮助我们的商务发展团队，我绘制了一个融合这三个学科的数据科学之前的年代线，并添加了Ne-Yo、Pink和Taylor Swift的照片，稍后我会解释。

前数据科学年代

对于像我这样没有表格背景的人来说，这里是对表格历史的简要总结，以及它们如何与量化、数据管理和分析团队对齐。

### 计算中的表格简史

– **20世纪以前**：数学家和统计学家使用表格来分类和组织数据，如早期的科学记录、会计账簿和统计表格。
– **1950年代至1960年代**：早期计算在打孔卡系统（IBM）和层次数据库（如1966年的IMS）中结构化数据，但缺乏关系表的灵活性。
– **1970年**：埃德加·科德引入了关系模型到数据存储，引入了现代数据库和数据管理中的表格（“关系”）。
– **1974年至1979年**：关系数据库（IBM System R，Oracle）用于企业计算。
– **1976年至1993年**：编程语言拥抱表格数据：SAS编程语言引入了结构化的数据步表格。R编程语言（1993年）使用数据框——本质上是表格。S-Plus，基于R并得到商业支持，在20世纪90年代末在量化金融领域流行，而SAS则在企业风险分析、信用风险和基于风险的决策制定中占据主导地位。所有这些都在大学统计系和生物技术、制药和化学组织中的决策科学团队中流行。与此同时，我的基于矩阵的语言MATLAB在金融工程和量化研究中占主导地位，特别是在期权和衍生品定价方面，以及在新兴的专有交易台上进行原型设计和生产。

为什么？

因为这些团队雇佣了精通矩阵代数的工程师和应用物理学家，而风险和分析功能倾向于聘请熟悉表格的统计学家和数学家。一些部门同时拥有这两种人才，例如买方投资组合研究团队或计量经济学家。这意味着统计学家强调表格的便利性和工程师强调矩阵计算能力之间的良性竞争。我之所以用“力量”这个词是因为矩阵对于计算密集型操作表现良好，例如主成分分析、回归、模拟、神经网络/人工智能、优化、时间序列操作等。因此，矩阵代数量化应用程序包括：

– 随机蒙特卡洛模拟，包括期权和衍生品定价。
– 投资组合理论，特别是推动买方的均值-方差优化，由诺贝尔奖得主威廉·夏普强调，但利用了哈利·马科维茨的工作。
– 宏观经济建模，从控制和系统工程中借鉴，开发状态空间、均衡和DSGE模型。
– 随机资产-负债模拟及相关金融产品，用于养老金、长期投资和保险的资产负债现金流建模。
– 回测和交易策略开发，用于系统性对冲基金和自营交易台。
– 风险价值（VaR）模拟和其他风险类型，如市场风险（例如CVaR）、信贷风险（LGD与PD计算）、对手方风险（模拟或伴随算法微分（AAD））和操作风险（例如测度变化）。
– 经济和风险情景生成，即模拟合成数据。

### 2008年及以后

Ne-Yo的快节奏旋律歌曲《Closer》及其后续单曲《Miss Independent》，加上Pink在其音乐巅峰时期的歌曲，以及Taylor Swift仍在演唱乡村音乐，主宰了流行音乐排行榜。信贷紧缩造成了影响。其监管影响将在本文末尾简要提及。然而，AQR资本管理公司的量化分析师兼数据工程师韦斯·麦金尼将开源表格库pandas（Python数据分析）引入了Python编程语言。Python远早于麦金尼的pandas。作为一种函数式语言，它起源于20世纪90年代初，最初用于单元测试脚本。直到Travis Oliphant在2001年发布了SciPy，在2005年发布了NumPy，它才进入数学和工程领域，利用了像MATLAB这样的矩阵代数库。然而，在2008年，韦斯·麦金尼将pandas带到了Python中，从而为Travis Oliphant的NumPy和SciPy的矩阵库带来了表格便利性。现在，数据科学可以在一个统一的开源编程语言Python中充分发挥作用，服务于统计学家、数据工程师、量化分析师和金融工程师。新工具进一步推动了社区增长，例如可重复使用的Jupyter笔记本、scikit-learn用于机器学习，以及PyTorch、Keras、TensorFlow和其他深度学习库，这些库驱动了支撑现代AI和LLM的新转换技术。数据科学在2010年代统一于Pandas快速前进到2025年。随着向量数据库、图结构和AI驱动的数据处理，表格还会如此有影响力吗？好吧，矩阵和向量将继续为AI引擎提供动力。然而，作为一名从事图技术工作的人员，我认为图的关系性优势在于基于矩阵代数（作为稀疏矩阵）构建，并延续了表格的便利性。引用所谓的知识图谱专家托尼·西尔的话，“客户不仅仅是一行数据库；他们与过去的购买、支持工单、电子邮件交流、书面笔记、社交情绪和价格偏好相关联。保险索赔不仅仅是一个条目——它与保单详情、车辆历史、维修记录和类似案例相关联。这不是关于存储的问题——而是关于在规模上理解复杂性的能力，这是刚性数据库和API无法比拟的。”我同意这一点。然而，由于Parquet、Arrow和Iceberg格式支持所谓的湖屋和新的流分析生态系统，表格也将继续存在。我们在金融科技领域有很多值得庆祝的事情，推动和治理AI。金融服务行业较早地部署了矩阵技术，这些技术推动了神经网络的发展。他们在十年前也做了同样的事情。AQR资本管理公司带来了pandas，统一了Pythonic开源、表格和矩阵环境，从而推动了企业数据管理、分析、统计和量化使用案例。量化分析师实际上是原始的大数据工程师和数据科学家。DeepSeek的量化分析师最近通过巧妙的数学方法扰乱了LLM行业，充分利用了现有的硬件。鉴于2008年全球金融危机后监管机构施加的模型和数据治理实践的发展，金融服务行业非常适合指导其他行业进行AI治理。

(以上内容均由Ai生成)