迈进金融数据服务3.0时代，DolphinDB +聚源数据在路上

来源：

2023-10-26

编辑：晓露

【1.0时代终端+Excel】

1.0时代，我们获取数据的方式是在终端点开浏览器，把数据通过 Excel 下载到本地中使用。Excel 中各种透视表与插件组合满足了绝大多数小批量数据使用的场景。Excel+终端浏览器，基本解决了小批量数据使用的问题。

【2.0时代 SQL+单一数据来源】

随着研究的深入、数据维度的拓展、数据规范的清晰，结构化数据开始成为标配。相比于过去的数据浏览器提取方式，SQL 通过一个或几个语句就能实现全部数据的提取，让用户倍感轻松。信息化带来的效率提升，仿佛经历了“工业革命”般的体验。

【2.0时代后期更高的算力需求】

逐渐地，SQL 也开始暴露一些无法满足研究需求的问题。假如研究的重心放在组合管理、因子挖掘、风险控制领域，SQL 似乎既不能满足计算要求、也无法满足数据处理的时效性要求，这意味着，用户需要花费大量的精力提高一点点效率。

于是，DolphinDB 与聚源也开始给合作探索一种全新的业务模式。

【3.0时代探索高质量+高性能】

高质量数据与高性能数据库的融合是市场对3.0时代新业务场景的期待，但目前来看仍存在一些难题待解。以MySQL为例，在海量的时序数据场景下存在一些问题：

·存储成本大：对于时序数据压缩不佳，需占用大量机器资源。

·维护成本高：单机系统，需要在上层人工的分库分表，维护成本高。

·写入吞吐低：单机写入吞吐低，很难满足时序数据千万级的写入压力（针对tick级数据场景）。

·查询性能差：海量数据的聚合分析性能差。

在3.0时代的探索过程中，DolphinDB 与聚源数据达成合作，我们为构建一站式行情数据库服务模式共同努力。

全新的业务场景下，用户可以通过 DolphinDB 访问和调用聚源数据库的各类数据，快速实现高频数据对接、存储、查询、指标计算、因子研究等，助力实现更便捷、更高效的投研。海量数据意味着数据质量高、历史可追溯时间长、维度多，因此全量数据供应商显得尤为重要，而数据质量是一切的基础。

从数据质量的角度：

聚源数据库以金融证券为核心，服务内容涵盖投研数据、财富数据、固收数据、风险数据、ESG 数据等，广泛应用于金融资讯展示、金融投研、大数据分析、风控、量化回测、金融监管等多个领域，经过二十余年的发展，公司与国内券商、基金、保险、信托、银行、期货、资产管理公司等机构建立了广泛的业务合作，确立了在中国金融数据服务领域的领先地位，是中国最优秀的金融资讯服务供应商之一。

从数据库性能的角度：

SQL 或者单一 Python 的处理方法，无论便携性还是成本都不算友好。比如计算一个投资组合的协方差矩阵，无法在 SQL 中完成，需要借助额外的 Python 反推回数据库。高性能时序数据库 DolphinDB 有出色的内置函数、多范式的脚本语言、灵活的自定义计算，无论是在数据存储端，还是在复杂分析端，都是比 SQL 和 Python 更优的选择。以下图为例：

高质量数据、高性能数据库二者怎么融合？从最传统的量化场景出发，以聚源提供的因子库为例。

DolphinDB 支持直接加工底层数据结果并且及时反馈结果到使用者手中，量化场景下的基础因子、特色因子、回测框架都可以直接依托其后的数据基准进行融合。这些步骤的融合帮助用户解决数据储存量极大、读取缓慢的通病。也就意味着，当拥有了捆绑好的高质量基础数据与高性能平台的时候，用户便有了所有想要的内容。同时，因为 DolphinDB 自定义的优势加上聚源数据除常规的披露数据外，还有包括但不限于其它主流另类数据（司法，工商，舆情，预期、宏观行业等）等，极大方便机构客户做特色因子挖掘和回测的工作流程，将原本离散化的工作任务集成式布置在 DolphinDB 上，真正发挥出1+1融合但是产出远大于2的效果。

数据质量与数据库性能的优势相互结合，机构可以直接享受到聚源高质量数据加 DolphinDB 高性能数据库的一站式服务。

除此之外，分布式高性能的数据存储，必然对高频率的数据量处理有着显著优势，对于聚源在金融全场景下涵盖的各更新频率不一的数据，科学合理的插值方法，是提高数据频率的有效手段;因子算法部署在更为高频的数据空间（如 Alpha191 算法由日K，调整为 1分钟K），也是挖掘非线性因子的，进入市场颗粒化程度更深领域的主要路径。数据升频与 DolphinDB 的高性能协作，势必会开辟量化数据场景的新赛道。

这也意味着，3.0时代将迎来数据库与编程语言的融合。

在传统的数据库时代，我们更看重数据的写入，所以我们强调数据库的一致性、原子性、持久性等，而用于分析的 SQL 语句功能则相对简单，复杂的分析和计算通常由更高级的编程语言（如 C++， Python 等）来完成。在海量数据时代，我们更看重数据的读取，也就是通过对海量数据的分析，发掘数据背后的价值，数据分析的时效性则对企业的竞争能力至关重要。未来 SQL 语句和更高级的编程语言也将走向融合，高质量的数据+高性能的数据库将解决数据来源广、时效性差、成本开销大等一系列长期困扰市场的难题。

基于此，DolphinDB 与聚源，在路上。