思想印记：AI in Finance & Symbolic AI

基于 Atlas (UT Austin / XTX Markets) 与 hosts 的对谈重构

01. 核心哲学：追求极致的低维性 (Low Dimensionality)

从压缩感知到深度学习，研究的终极主线始终是如何在复杂数据中找到低维结构。

演进路径：稀疏性 (Sparsity) → 低秩 (Low Rank) → 非线性流形 (Manifold) → 符号化 (Symbolic)。
神经网络的局限：目前的深度学习倾向于学习巨大的黑盒函数。
终极压缩形式：不仅是将大模型压缩为小模型，而是将神经网络压缩为非神经网络（即符号知识/公式）。
人类知识的本质：教科书上的公式（如 $F=ma$）是压缩的最高级形式。我们追求的是干净、紧凑的 $1/R^2$，而不是拟合出来的 $1/R^{2.015}$。

"I consider symbolic representation to be the ultimate form of low dimensionality... converting what you have learned into knowledge that you can write with symbols."

02. 神经符号 AI (Neuro-Symbolic AI) 的双重价值

为什么要将神经网络转化为符号系统？

1. 极致效率 (Efficiency)：
- 在延迟极其敏感的高频交易 (HFT) 或 CPU 受限的场景（如网络拥塞控制）中，运行一个大型神经网络是不现实的。
- 案例：将用于拥塞控制的强化学习 (RL) 模型转化为决策树 (Decision Tree)，在 CPU 环境下实现了 400-500倍 的加速。
2. 可解释性与真理发现 (Interpretability)：
- 试图理解黑盒背后的逻辑。
- 理论突破：证明了梯度下降（连续动力学）可以收敛到离散的符号结构。这是一项令人惊讶的发现，表明神经网络不仅能做统计识别，还能通过特定约束学习到代数和逻辑结构。

03. 范式转移：大融合理论 (The Great Convergence)

AI 发展的趋势正在从特定算法的微调转向数据驱动的通用性。

算法的收敛：一旦数据量达到临界点，不同的模型架构最终往往会收敛到相似的性能表现。
关注点的转移：
- 过去：高度手工设计的特征、专门的算法、特定领域的归纳偏置。
- 现在：更通用的基础模型架构 + 高质量的数据分布采样。
从“怎么学”到“学什么”：研究重心从优化算法本身，转移到了对数据分布和问题设定的审视上。

04. 金融领域的 AI 挑战：噪声与对抗

为什么金融领域的 AI 落地比语言/视觉领域更难？

数据特质差异：
- 语言/视觉：具有内在的结构和规律（如语法、物体形状），属于“幸运领域”。合成数据 (Synthetic Data) 在此可行且有效。
- 金融市场：本质是一个多方博弈系统，数据由极其强烈的噪声主导。这就像是“试图从噪声中预测噪声”。
合成数据的困境：在金融领域，生成高质量的合成数据极其困难，因为市场包含难以模拟的私有信息和复杂的博弈动态。
成功的门槛：
- 预测准确率只需比 50% 高出微小的一点点 (Small Margin)。
- 利用大数定律 (Law of Large Numbers)，通过海量的交易次数，将微小的概率优势转化为天文数字般的利润。

05. 未来人才画像：数学家与工程师的合体

现代量化研究与 AI 研究的边界正在模糊。

核心画像：Mathematicians who code 或 Engineers who speak math。
技能融合：不再单纯依赖传统的金融工程（随机微积分），而是转向通用的高维数据搜索与优化能力。
行业趋势：
- 传统金融机构正在激进地建设 AI 中心。
- 研究者不再需要在“去科技大厂做 LLM”和“去金融公司做量化”之间做二元选择，两者的技术栈正在高度重合。
- 真正稀缺的是能够跨越理论证明与工程落地鸿沟的人才。

"We want mathematicians who can write code, or engineers who know how to speak math. Maybe they mean the same thing."

科技参考

搜索此博客