3月6日晚,由北大汇丰创新创业中心主办的【科创家讲坛】邀请了周小华博士,分享“国产自研数据库Dolphin DB,赋能金融实时计算”这一主题。周小华博士是智臾科技创始人兼CEO、金融科技领域资深专家,其研发的高性能分布式时序数据库Dolphin DB已成为国内头部金融机构量化交易的核心基础设施。
周小华分享
突围:从华尔街痛点到国产化机遇
周小华在摩根士丹利担任量化系统架构师期间,亲历了传统金融数据库的局限性:单机架构的数据库在高并发场景下频繁崩溃,学习曲线陡峭的SQL语法让策略迭代举步维艰。“当时处理一个包含10亿条记录的逐笔成交数据集,传统数据库需要数小时完成聚合计算,而高频交易策略的生命周期可能只有几分钟。”他回忆道。
2016年,周小华回国后发现国内量化投资正值爆发前夜,尽管金融机构对实时计算需求激增,但市场仍被Oracle、KDB+等海外产品垄断。这些系统不仅价格高昂,更存在水土不服问题——无法适配A股特有的T+1结算、涨跌停机制等规则。与此同时,政策层面对信创产业的扶持力度空前,国产替代浪潮涌动。
“量化机构如同壁虎,必须在市场错误定价的‘蚊子’出现时,以毫秒级速度完成捕捉。”周小华用这一比喻阐释量化行业的本质。量化行业的核心竞争力已从策略独创性转向工程化能力。90年代简单因子策略年化收益可达20%,但如今同质化严重,策略生命周期大幅缩短。想要持续胜出,必须依赖更高效的数据处理体系。以数据量为例,一家中型量化机构每日需处理5000只股票的逐笔成交、委托及快照数据,若叠加上万个因子计算,数据量可达数百TB,传统关系型数据库根本无法支撑。2024年A股市场平均单笔高频策略持有期已缩短至12秒,较2020年下降60%;而头部机构的订单传输延迟需控制在0.3毫秒以内,相当于光在光纤中行进60公里的时间。
在此背景下,Dolphin DB凭借分布式时序数据库架构迅速崛起。其核心突破在于将数据存储与计算引擎深度融合:通过列式存储压缩技术,将逐笔行情数据体积缩减至传统方案的1/10;利用向量化计算引擎,使万级别因子批量计算耗时从小时级压缩至分钟级。目前,Dolphin DB已服务超130家付费客户,包括30家顶级券商和幻方、九坤等量化巨头,社区版用户群体突破5000人。
讲坛现场
攻坚:DolphinDB的三大技术创新
在量化领域,数据量级正以惊人速度膨胀。一家中型机构每日需处理5000只股票的逐笔成交、委托及3秒快照数据,叠加数万个因子计算后,数据规模可达数百TB。传统方案中,机构往往陷入两难:使用MySQL等关系型数据库面临性能瓶颈,采用自研二进制文件则导致管理混乱。DolphinDB曾日均生成15,000个数据文件,十年积累的文件量超过5000万,检索一次全市场历史数据需耗时数小时。
针对行情数据与因子数据的存储难题,Dolphin DB提出差异化解决方案。行情数据方面,采用时序数据库架构,通过列式存储与智能压缩技术,将原始数据压缩至1/10,解决传统文件系统“数量爆炸”问题(如单只股票日生成15,000个文件)。同时引入Co-location机制,确保同一股票不同时间片的数据物理邻近,使查询效率提升8倍。因子数据方面,创新性推荐窄表存储模式。对比测试显示,窄表在增删因子时的运维效率较宽表提升百倍,查询性能亦领先30%,且数据压缩率保持在1.5:1以内。窄表如同乐高积木,通过并行读取与动态拼接,既能应对因子库动态变化,又避免宽表结构僵化的痛点。实测数据显示,在存储10万个因子、5年历史数据的场景下,Dolphin DB的磁盘占用仅为传统宽表方案的1.3倍,而运维人工成本下降90%。
金融数据分析的复杂性远超互联网场景,一个高频因子可能涉及滑动窗口统计、订单簿深度解析等上百个计算步骤,传统工具如Pandas性能不足,Spark又难以适配复杂逻辑。周小华指出:“互联网公司的数据分析如同流水线生产,而量化机构的数据分析更像珠宝匠人手工雕琢——每个因子都是独特的艺术品。”Dolphin DB通过三大优化破解难题:脚本性能方面,引入JIT(即时编译)技术,将脚本运行速度提升至接近C++水平。在某期货CTA策略回测中,Dolphin DB耗时0.75秒完成100万次交易信号模拟,而开源框架Backtrader需53秒。计算引擎方面,内置2000余个金融专用函数,支持事件驱动、增量计算等模式。例如,滑动窗口求和通过“新值加、旧值减”实现时间复杂度从O(n)降至O(1)。订单簿处理方面,支持上交所、深交所、港交所等23种市场规则,可实时生成买卖失衡因子、挂单时长离散度等50余种指标。
生产环境的严苛要求,将技术竞争推向更深水区。Dolphin DB的解决方案是“流批一体”——投研与生产共享同一套代码,仅在数据输入、撮合引擎等环节切换配置。更值得关注的是其流计算生态的开放性。Quant工程师无需掌握复杂的流式编程思维,只需以批处理逻辑编写策略,系统即可自动转换为低延迟流任务。这种降维式开发体验,使得某私募的外包团队经两周培训后,日均可迁移50个因子代码,错误率不足1%。实时头寸监控系统可在0.5毫秒内完成百亿级组合的风险价值(VaR)计算,较传统T+1风控模式提升43万倍响应速度。
讲坛现场
未来布局:从异构计算到AI融合
面对大模型时代的算力军备竞赛,Dolphin DB的布局已延伸至异构计算领域。其Shark平台通过CUDA加速,使遗传算法因子挖掘任务在A800显卡上获得百倍性能提升。更具突破性的是“无感迁移”设计——用户只需在现有脚本中添加“@GPU”注释,即可将蒙特卡洛期权定价等任务自动分配至GPU运行。测试显示,10万次雪球期权仿真耗时从128核CPU的15.6秒降至GPU的0.9秒,而硬件成本仅增加20%。
针对通用大模型的“函数幻觉”问题,智臾科技正构建金融垂域模型。通过800个标注样本微调DeepSeek模型,其Dolphin DB代码生成准确率提升40%;开发多轮交互系统,系统可解析错误日志并自动修正代码,某CTA策略在5轮对话内完成从报错到盈利的闭环验证;整合向量数据库与结构化数据引擎,大模型能调用实时市场数据生成策略建议。测试显示,AI生成的沪深300指数增强策略年化超额收益达12.7%。
Dolphin DB正加速出海步伐,与AWS、Snowflake等云厂商合作推出量化投研云平台。用户可通过API一键调用全球50个交易所的实时数据、GPU算力及AI工具链。此外,Dolphin DB正加速海外布局,与AWS、Snowflake等云厂商合作推出量化投研云平台,用户可一键调用数据、算力与工具链。周小华展望道,就像TikTok重构短视频生态,我们希望通过技术普惠,让全球中小机构也能拥有华尔街级的基础设施。
过去十年,国内量化机构策略迭代速度加快5倍,但IT成本占比从15%降至8%,这背后正是Dolphin DB等基础软件的价值。当算法红利逐渐消退,真正的竞争优势正向下转移——谁能在数据存储的每一个字节、计算的每一毫秒中抠出效率,谁就能在未来的“微秒战争”中占据先机。正如周小华所言,金融市场的时间晶体正在加速,而我们要做的,是成为锻造晶体的人。
合影