文丨张若海 伍家豪
全球数据总量增速持续维持高位,数据要素将助力传统数字经济与前沿AIGC生产力提升。面向行业投研跟踪服务,基于市场、基本面、情绪等多个维度,我们构建了时序指标的标准化存储和管理框架,其中行业级指标超过300条,个股级指标超过20万条;面向LLM训练服务,我们聚焦投研垂类场景,围绕文本摘要、金融文本情绪识别、行业景气框架生成、代码生成等场景储备了20万条训练数据,助力数据资产向模型资产转化,并不断创新服务边界。
▍全球数据总量与数据流量保持高增速,数字经济的发展具备战略意义。
习近平总书记指出“要构建以数据为关键要素的数字经济”,定位了数字经济的重要性与数据要素的战略意义。产业数字化与数字产业化是数字经济发展的两大方向,同时数据也逐步成为新的生产资料和关键生产要素。IDC Global DataSphere预测中国数据量规模将从2022年的23.88ZB增长至2027年的76.6ZB,年均增长速度达到26.3%。
▍数据孤岛等问题仍普遍存在,产业数字化进程仍处于发展阶段。
我们同时也看到大量行业的数字化只实现了数据的可记录、可存储,远未达到数字化可交互、可共享的要求,技术体系与治理体系脱节导致数据孤岛等问题普遍存在,大量数字化场景仅仅替换了数据的存储介质,所以很多产业的数字化进程仍然处于高速发展阶段。为了实现数据流通与数据潜力释放,全国数据交易市场体系的建设已经初具规模,为数据要素流通奠定基础。
▍泛投研数据应用升级:聚焦数据资产服务+科技与工程能力赋能。
大模型应用加速落地的背景下,需要更加重视投研流程中所有数据的归集、存储、联通。我们认为投研领域的数据资产与科技能力服务将引领行业有效融入AI,一方面将围绕传统数据指标服务赋能,另一方面专业的训练数据将赋能垂直领域大模型的应用创新。同时,算力降本、算法封装的趋势会不断提升领域专业标注数据的价值。
▍传统投研数据资产:从离散化、系统化到体系化逐步演进,赋能投研效率与基本面量化。
时间序列指标是投研数据最通用的形式之一,但当前大量时序数据仍未形成数据资产。指标数据体系化管理不仅可以助力数据共享,也是基本面量化研究的重要基础。因此,我们构建了标准指标存储与管理框架,其中包含行业级指标超过300条,个股级指标超过20万条,并打通了外部经济指标数据库的接入流程。同时,针对每个指标关联了具备业务逻辑的通用数据标签,例如指标相关行业、相关个股、指标区域范围等。
▍金融领域模型训练数据资产:重视投研数据资产的专业化梳理,助力数据资产向模型资产转化。
通过对海量文本数据的无监督学习,大模型一定程度具备了自然语言理解与知识压缩属性,在小样本微调时也具备强大的学习能力。预训练模型的微调过程可以看作新数据与新知识的学习和压缩,可以通过监督学习、强化学习等技术手段将垂直应用场景内的数据泛化为新的智能模型工具,形成模型资产并赋能更多业务场景从而实现价值变现。面向投研领域的垂直场景,金融机构数据资产可以切实赋能文本摘要、金融文本情绪识别、行业景气框架生成、代码生成等应用,助力数据资产向模型资产转化,不断创新投研体系。
▍风险因素:
国际贸易与技术封锁加剧;国内大模型技术发展不及预期;投资机构数字化不及预期。