特征提取

在金融领域，特征提取是一个至关重要的过程，它涉及到从海量的、多样化的金融数据中提炼出有意义且可操作的信息。这些数据可能来自于股票市场、债券市场、外汇市场、商品市场等，其形式可能是价格、成交量、财务报表、新闻报道等。特征提取的目标是利用统计学、机器学习等技术，将这些原始数据转化为能够揭示金融市场运行规律的特征。有效的特征提取不仅可以增强我们对市场行为的理解，而且可以提升预测模型的准确性和稳健性。例如，通过分析历史价格数据，我们可以提取出波动率、动量等特征，进而构建出能够预测未来价格走势的模型。又如，通过自然语言处理技术，我们可以从新闻和社交媒体数据中提取出市场情绪特征，用以解释和预测市场的短期波动。总的来说，特征提取是从金融数据中提炼有价值信息的桥梁，对于金融分析、风险管理和投资决策等领域具有深远的影响。在不断发展的金融科技领域中，特征提取的方法和技巧也在不断地进步和优化，以适应日益复杂和多变的金融市场环境。

数据合并

两个“输入特征（DAI SQL）”模块，分别从两个数据表提取数据，之后可以共同连接一个新的“输入特征（DAI SQL）”模块，做到数据连接的功能

我们来看一个具体的例子，在下面这个例子中：

m1模块的作用是从cn_stock_prefactors表中提取出pe_ttm和total_market_cap两个字段，并且过滤掉ST股票
m2模块的作用是从cn_stock_money_flow表中提取出main_flow和main_rate两个字段

![](/wiki/api/attachments.redirect?id=2d891157-85

更新时间：2025-07-01 07:55

导语

本文是对于medium上Boris博主的一篇文章的学习笔记，这篇文章中利用了生成对抗性网络（GAN）预测股票价格的变动，其中长短期记忆网络LSTM是生成器，卷积神经网络CNN是鉴别器，使用贝叶斯优化（以及高斯过程）和深度强化学习（DRL）优化模型中超参数。此外，文章中非常完整地实现了从特征抽取、模型建立、参数优化、实现预测的过程，其中运用了多种机器学习方法，比如BERT进行文本情绪分析、傅里叶变换提取总体趋势、autoencoder识别高级特征、XGboost实现特征重要性排序等。本文学习的思路是：GAN算法概览 – 项目思路 – 项目详解。拟在学习完成后，在Bigquant平台

更新时间：2025-07-01 07:35

深度学习因子选股模型-基于卷积神经网络

用卷积网络处理序列数据

我们知道卷积神经网络(convnet)在计算机视觉问题上表现出色，原因在于它能够进行卷积运算，从局部输入图块中提取特征，并能够将表示模块化，同时可以高效地利用数据。这些性质让卷积神经网络在计算机视觉领域表现优异，同样也让它对序列处理特别有效。时间可以被看作一个空间维度，就像二维图像的高度或宽度。

对于某些序列处理问题，比如金融时间序列数据，这种一维卷积神经网络的效果可以媲美RNN[循环神经网络]，而且计算代价通常要小很多。最近，一维卷积神经网络[通常与空洞卷积核(dilated kernel)一起使用]已经在音频生成和机器翻译领域取得了巨大成功。除了这

更新时间：2025-07-01 07:35

主动学习（Active Learning）

背景

机器学习的研究领域包括有监督学习（Supervised Learning），无监督学习（Unsupervised Learning），半监督学习（Semi-supervised Learning）和强化学习（Reinforcement Learning）等诸多内容。针对有监督学习和半监督学习，都需要一定数量的标注数据，也就是说在训练模型的时候，全部或者部分数据需要带上相应的标签才能进行模型的训练。但是在实际的业务场景或者生产环境中，工作人员获得样本的成本其实是不低的，甚至在某些时候是相对较高的，那么如何通过较少成本来获得较大价值的标注数据，进一步地提升

更新时间：2025-07-01 07:35

Tensorflow第三讲 - 深入MNIST（CNN）

构建一个多层卷积网络 CNN

在MNIST上只有91%正确率，实在太糟糕。在这个小节里，我们用一个稍微复杂的模型：卷积神经网络来改善效果。这会达到大概99.2%的准确率。虽然不是最高，但是还是比较让人满意。

卷积层

卷积层（Convolutional layer），卷积神经网路中每层卷积层由若干卷积单元组成，每个卷积单元的参数都是通过反向传播算法优化得到的。卷积运算的目的是提取输入的不同特征，第一层卷积层可能只能提取一些低级的特征如边缘、线条和角等层级，更多层的网络能从低级特征中迭代提取更复杂的特征。

线性整流层

线性整流层（Rectified Linear U

更新时间：2025-07-01 07:35

利用深度学习技术预测股票价格

更新

本文内容对应旧版平台与旧版资源，其内容不再适合最新版平台，请查看新版平台的使用说明

新版量化开发IDE（AIStudio）：

https://bigquant.com/wiki/doc/aistudio-aiide-NzAjgKapzW

新版模版策略：

https://bigquant.com/wiki/doc/demos-ecdRvuM1TU

新版数据平

更新时间：2025-07-01 07:10

LSTM模型构建

导语

本文将介绍LSTM模型的原理与构建其选股模型的流程

LSTM简介

循环神经网络（RNN）

传统的神经网络是基于所有时刻的输入和输出间相互独立的假设来生成已学习数据的静态模型，并根据新接受的数据进行运算。但在很多情景中，如语音识别中预测当前的单词的含义，需要知道之前的输出结合上文语境做出判断，循环神经网络（Recurrent Neural Networks，简称 RNN）可以用于解决这类问题。循环神经网络也被称为递归神经网络是受到人类对于近期事件会有所保留的背景而启发，循环神经网络会随着数据的输入生成动态模型。理论上，RNN可以支持无限长的时间序列，然

更新时间：2025-07-01 07:09

Deep Residual Networks学习(二)

通过上次在Cifar10上复现ResNet的结果，我们得到了上表，最后一栏是论文中的结果，可以看到已经最好的初始化方法(MSRA)已经和论文中的结果非常接近了！今天我们完全按照论文中的实验环境，复现一下ResNet论文中的结果。

上次的论文复现主要和原文中有两点不同：

Data Augmentation

Cifar10中的图像都是32X32的，论文中对测试集中的每张图

更新时间：2025-04-24 04:14

Word2Vec 学习心得

好嘛博主食言了。不过本文没什么干货，主要是前后看了大概一个星期，反复去读源码和解读文章，终于感觉这东西不那么云山雾罩了。同时也发现网上很多材料有点扯淡，99% 的博文不过是把别人的东西用自己的话说一下，人云亦云。好多人自己理解错了而不自知，实在是误人误己。

我也不敢说理解得有多深，下面的内容甚至可能有自相矛盾的地方，所以阅读本文时请一定擦亮眼睛，认真思考。

源码才是根本，作者那两篇论文感觉参考价值也不高。说到底，Machine Learning/Deep Learning 的价值在于实践，而实际开发的应用中经过大量的 tricks 之后，代码跟论文推导、实验可能相去甚远。

Data Mi

更新时间：2025-04-24 04:14

基于卷积神经网络的多因子预测

更新

本文内容已经过期，不再适合平台最新版本，请查看如下最新内容：

https://bigquant.com/wiki/doc/5z65lqo5y2356ev56we57up572r57uc55qe5asa5zug5a2q6ycj6ikh-3hXXZIwYtI

策略案例

[https://bigquant.com/experimentshare/86296263b27

更新时间：2025-03-13 02:08

【历史文档】策略-可视化模块深入理解

更新

本文内容对应旧版平台与旧版资源，其内容不再适合最新版平台，请查看新版平台的使用说明

新版量化开发IDE（AIStudio）：

https://bigquant.com/wiki/doc/aistudio-aiide-NzAjgKapzW

新版模版策略：

https://bigquant.com/wiki/doc/demos-ecdRvuM1TU

新版数据平

更新时间：2025-02-27 02:34

深度学习在期货高频上的应用

问题

深度学习在期货高频上的应用

策略源码

8月19日Meetup问题模板：

https://bigquant.com/experimentshare/f58dbfb388454407b8a2b99eb14cf1ea

更新时间：2024-06-07 10:55

利用CNN对股票“图片”进行涨跌分类——一次尝试

首先解释一下标题： CNN：卷积神经网络（Convolutional Neural Network）, 在图像处理方面有出色表现，不是被川普怒怼的那个新闻网站； 股票涨跌：大家都懂的，呵呵； 股票图片：既然使用CNN，那么如果输入数据是股票某个周期的K线图片就太好了。当然，本文中使用的图片并不是在看盘软件上一张一张截下来的，而是利用OHLC数据“画”出来的；尝试：这个词委婉一点说就是“一个很好的想法^_^"，比较直白的说法是“没啥效果T_T”。

进入正题：首先是画出图片。本文目前是仿照柱线图画的。 ![{w:100}](/wi

更新时间：2023-11-28 10:03

停止模块读取缓存，更新改动执行情况

m7 = M.derived_feature_extractor.v3(
        input_data=m1.data,
        features=m15.data,
        date_col='date',
        instrument_col='instrument',
        drop_na=False,
        remove_extra_columns=False,
        m_cached=False, # 去掉缓存
        user_functions={}
    )

更新时间：2023-06-06 02:58

AI+涨停板特征提取

策略案例

https://bigquant.com/experimentshare/6ac00fc386f74acb886b8168d7809b98

更新时间：2022-11-20 03:34

分享一个可视化深度学习建模的例子

策略案例

https://bigquant.com/experimentshare/9426627188af4f488644532c01328c14

更新时间：2022-11-20 03:34

Learning a Vector Representation of Time

/wiki/static/upload/c9/c94fbe09-58ac-483f-8d29-ba184e00cfb3.pdf

更新时间：2022-08-31 09:37

QIML Insight：基于多源特征及机器学习的股票聚类模型

核心观点

本文提出了一种基于数据驱动的行业分类方法，该方法以不同的粒度级别将类似的公司聚集在一起；机器学习的技术可以从相关数据源中提取特征，并学习相关关系，从而识别出在样本外时期风险回报情况相似的公司。历史收益相关性、GICS分类、10-K报告、规模、动量、资产负债率等基本因子对企业相似性的预测贡献最大。

行业分类体系在投资组合构建中有着非常广泛的应用，一个好的行业分类体系有以下两个特点：最小化组内股票的差距和最大化的组间股票区别。构建投资组合时，投资者往往通过分散行业配置来达到组合风险分散化的效果。但这种基于公司业务的分类体系，相对比较固定，在多变的市场环境及多样的市场观念下，很多

更新时间：2022-08-31 07:21

FactorVAE：基于变分自编码器的动态因子模型

摘要

{w:100} 公众号遴选了各大期刊前沿论文，按照理解和提炼的方式为读者呈现每篇论文最精华的部分。QIML希望大家能够读到可以成长的量化文章，愿与你共同进步！

本期遴选论文标题：FactorVAE: A Probabilistic Dynamic Factor Model Based on Variational Autoencoder for Predicting Cross-sectional Stock Returns

更新时间：2022-08-31 06:22

机器学习流程和算法介绍及金融领域应用实例-长江证券-20180207

摘要

机器学习问题和其流程

机器学习问题本质上在于找出使得经验风险泛函（样本误差）最小的建模流程，基本的流程可以分为特征工程、模型训练和模型融合。本篇就上述三个过程，给出相关算法的介绍，并补充了之前系列报告中未详细介绍的内

机器学习三大步骤

特征工程包含特征构建、特征提取和特征选择三个过程，以选择相对最优的特征空间。特征工程往往会采用无监督和有监督的机器学习算法。机器学习模型可以分为线性模型、树模型和深度学习模型。线性模型主要体现了数据中的线性关系，如输入与输出的线性关系，点集的线性可分；树模型可以很好的捕捉输入与输出的非线性关系，和线性模型相辅相成。一些改进的随

更新时间：2022-08-31 01:53

华泰证券-华泰证券人工智能52：神经网络组合优化初探 202201

摘要

初步探索基于神经网络的组合优化

在基于因子的量化投资流程中，因子生成、多因子合成、组合优化是三个重要步骤。组合优化一般是指通过凸优化方法将收益预测转换为资产权重的步骤，本文将尝试把组合优化融入到神经网络中，构建端到端的量化投资框架，该框架输入资产的原始数据，通过神经网络进行特征提取和合成，再通过可传播梯度的凸优化层(如 CvxpyLayers)优化得到资产权重，目标函数可直接定义为资产组合的收益率或其他指标，并以该目标优化整个神经网络。本文以资产配置中的风险预算模型为例，测试了基于神经网络的组合优化效果。在合理限制下，模型在两组资产配置测试中均能获得更好的收益表现。

更新时间：2022-07-25 09:16

华泰人工智能系列之十五：人工智能选股之卷积神经网络-华泰证券-20190213

摘要

卷积神经网络引领深度学习的发展，能够运用于多因子选股

卷积神经网络（CNN）是目前最为成熟的深度学习模型，是近年来人工智能蓬勃发展的重要推手之一，其主要特点是通过卷积和池化操作进行自动的特征提取和特征降维。本文首先通过原理分析给出了CNN运用于多因子选股的经验方法；然后在全A股票池内对CNN的预测结果进行单因子测试，其单因子测试结果相比对比模型具有良好表现；本文还构建了行业、市值中性全A选股策略并进行回测，CNN在以中证500为基准的全A选股测试中相比对比模型表现优秀。

本文通过原理分析总结了卷积神经网络运用于多因子选股的经验方法

将卷积神经网络运用于多因子

更新时间：2021-11-26 07:30

Transformer在量化选股中的应用

一、基于时间嵌入的方法

原文链接：https://towardsdatascience.com/stock-predictions-with-state-of-the-art-transformer-and-time-embeddings-3a4485237de6

当前应用于NLP领域的Transformer，结构过于庞大，并不适用于股票数据（开盘价，收盘价，最高价，最低价，等）这样的时序数据，因此，本文提出一种简化的适用于股票数据的Transformer结构，其根据时间嵌入的思想构建，能很好的应用于量化选股中。下面以一个例子来介绍用于股票数据的Transformer体系结构，以及

更新时间：2021-02-03 07:05

分页第1页