过拟合

在金融领域，"过拟合"是一个重要概念，尤其在使用复杂模型和算法进行数据分析和预测时。过拟合主要指的是模型在训练数据上表现过于优越，以至于把训练数据中的噪声或特殊情况也考虑进去，从而使得模型在新的、未见过的数据上表现不佳。更具体地说，当一个模型过度拟合训练数据时，它会将自身调整得过于复杂，以适应训练数据中的每一个细节。这导致模型对训练数据的预测非常准确，但对新数据的预测能力大大降低。在金融市场的应用中，这可能意味着模型在历史数据上表现良好，但在实际交易中却无法实现预期的回报。过拟合的原因有很多，例如训练数据量不足、模型复杂度过高、训练时间过长等。为了防止过拟合，金融从业人员通常会采用一系列策略，如交叉验证、使用正则化方法、提前停止训练、增加训练数据量、降低模型复杂度等。这些方法的目标都是使模型能够在不见过的数据上保持稳健的预测性能，从而在实际金融决策中提供可靠的依据。

监督学习的方法介绍及金融领域应用实例-长江证券-20170727

摘要

机器学习系列报告

本系列报告试图系统全面性的介绍各种不同的机器学习方法，并且结合具体的在投资研究领域应用实例、交易策略及code示例，说明其应用情景和实现方法。机器学习的方法可以分为以下几类：监督学习、无监督学习、深度学习及其他机器学习方法（例如强化学习），对应到具体的模型上数量则更是繁多，目前大部分机器学习模型并未广泛的应用在投研领域，因此本系列主要偏重于在投研领域有应用潜力的模型及方法。此篇将以介绍监督学习方法为主

监督学习模型之回归类模型及其应用

与普通线性回归不同，监督学习中的惩罚回归模型和非参数回归，可以分别用于处理输入变量中存在大量线性相关性关系

更新时间：2022-08-31 01:52

东方机器选股模型Ver1.0-东方证券-20161107

研究结论

机器学习容易给人“黑箱模型”和“过拟合”的印象，但事实上一些机器学习算法的逻辑和结果都非常直白，而且算法自身带有一套避免过拟合的参数估计机制。众多的实践研究说明，机器学习方法的预测能力大部分情况下都强于线性模型，很值得在量化投资中测试使用。本报告主要讲述机器学习的基本原理和用其来做量化选股的实证结果。

机器学习模型众多，不存在所谓的最强模型，不同的数据，不同的问题适用不同的模型。我们测试了LASSO、SVM、增强型决策树、随机森林等几种常见机器学习方法，最终选择用随机森林，主要是因为它结构简单、参数少、过拟合概率低，同时还具有非常强的样本外预测能力。机器选股模型省

更新时间：2022-08-30 02:27

基本面量化

更新时间：2022-08-25 02:16

DeepAlpha实践报告（一）

作者：woshisilvio

DeepAlpha 的优势

deepAlpha的延展性和可塑性。

相比同样的决策树模型还有线性分类模型，deepAlpha无疑具有更大的可扩展空间。一般的机器学习模型一旦出现训练数据量过大，又或者面对一些极值数据样本和极端数据差异过大的情况，模型容易陷入过拟合的状态。模型比较依赖训练的因子特征，如果因子选择不好，会导致模型学习效果不佳，而且在后期难以通过参数去调整学习的效果。

StockRanker绩效：98个因子

![{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}

更新时间：2022-08-17 00:16

回测交易

涉及国内主要品种的不同的频率的回测与交易

更新时间：2022-07-31 01:58

华泰人工智能系列之十四：对抗过拟合，从时序交叉验证谈起华泰证券_20181128_

摘要

时序交叉验证方法适用于时间序列数据，能够有效防止过拟合交叉验证是选择模型最优超参数的重要步骤，本文关注传统交叉验证和时序交叉验证的比较。我们采用机器学习公共数据集以及全A选股数据集，分别比较两种交叉验证方法的表现。结果表明，对于时序数据，时序交叉验证方法在训练集上的表现相对较差，但是在测试集上表现更好。传统交叉验证方法面对时序数据表现出较明显的过拟合，而时序交叉验证方法能够有效防止过拟合。借助时序交叉验证的机器学习选股策略能够获得更高并且更稳定的收益。推荐投资者在选择机器学习模型超参数时，使用时序交叉验证方法。传统交叉验证用于时序数据可能出现未来信息预测历史的“作弊”行为交叉验

更新时间：2022-07-29 06:13

https://bigquant.com/community/t/topic/164619新闻文本情感文章里的策略报错

https://bigquant.com/experimentshare/5f74d02dff0e45d595f7494edb417019

更新时间：2022-06-15 05:58

高质量AI量化策略

https://bigquant.com/experimentshare/dd9cff01459a41f9be40d7e660164795

更新时间：2022-05-22 01:17

【研报分享】华泰证券——对抗过拟合：从时序交叉验证谈起

报告摘要

时序交叉验证方法适用于时间序列数据，能够有效防止过拟合

交叉验证是选择模型最优超参数的重要步骤，本文关注传统交叉验证和时序交叉验证的比较。我们采用机器学习公共数据集以及全 A 选股数据集，分别比较两种交叉验证方法的表现。结果表明，对于时序数据，时序交叉验证方法在训练集上的表现相对较差，但是在测试集上表现更好。传统交叉验证方法面对时序数据表现出较明显的过拟合，而时序交叉验证方法能够有效防止过拟合。借助时序交叉验证的机器学习选股策略能够获得更高并且更稳定的收益。推荐投资者在选择机器学习模型超参数时，使用时序交叉验证方法。

传统交叉验证用于时序数据可

更新时间：2022-05-05 09:17

xgboost自定义目标和评估函数

https://bigquant.com/experimentshare/648ff204e53d44059c2d726e9219cfa3

更新时间：2022-04-21 06:21

xgboost自定义目标和评估函数

https://bigquant.com/experimentshare/85eb463354e54a9695eddc0c570040e6

更新时间：2022-03-31 18:20

策略回测正常，模拟不正常

https://bigquant.com/experimentshare/fd3d5958d8d840e3b8897aaa971443d1

更新时间：2022-03-09 09:08

超参搜索状态保存

test h1

test h2

test h3

test h1

更新时间：2021-11-30 03:40

《因子选股系列研究之十五》：东方机器选股模型Ver1.0-东方证券-20161107

机器学习模型众多，不存在所谓的最强模型，不同的数据，不同的问题适用不同的模型。我们测试了LASSO、SVM、增强型决策树、随机森林等几种常见机器学习方法，最终选择用随机森林，主要是因为它结构简单、参数少、过拟合概率低，同时还具有非常强的样本外预测能力

机器选股模型省去了“因子筛选”、“因子加权

更新时间：2021-11-22 07:53

关于过拟合：机器学习方法 vs. 传统人工方法

自 BigQuant AI策略详解继续讨论： @soft05jun

拟合是一种学习能力，过度拟合是机器学习方法重点在优化解决的问题之一。

关于过拟合，机器学习方法相对传统人工调参有明显的优势：

让过拟合可衡量：if you cannot measure it, you cannot improve it
- 机器学习中，我们一般会将数据划分训练集和测试集，通过对比训练集和测试集上的效果差异，我们

更新时间：2021-08-24 05:46

机器学习新手十大算法之旅

作者：James Le 编译：caoxiyang

在机器学习中，有一个叫做“世上没有免费午餐”的定理(NFL)。简而言之，我们无法找到一个放之四海而皆准的最优方案，这一点对于监督学习(即预测建模)尤为重要。例如，你不能说神经网络总是比决策树好，反之亦然。因为其中有很多因素在起作用，比如数据集的大小和结构。

因此，您应该针对您的问题尝试多种不同的算法，同时，保留一组数据，即“测试集”来评估性能并选

更新时间：2021-08-24 05:46

机器学习常见算法

导语

机器学习里面究竟有多少经典的算法呢？本文简要介绍一下机器学习中的常用算法。这部分介绍的重点是这些方法内涵的思想，数学与实践细节不会在这讨论。

回归算法

在大部分机器学习课程中，回归算法都是介绍的第一个算法。原因有两个：一.回归算法比较简单，介绍它可以让人平滑地从统计学迁移到机器学习中。二.回归算法是后面若干强大算法的基石，如果不理解回归算法，无法学习那些强大的算法。回归算法有两个重要的子类：即 线性回归 和 逻辑回归 。

线性回归就是我们前面说过的房价求解问题。如何拟合出一条直线最佳匹配我所有的数据？一般使用“最小二乘法”来求解。“最小二乘法”的思想是

更新时间：2021-08-18 06:37

Transformer在量化选股中的应用

一、基于时间嵌入的方法

原文链接：https://towardsdatascience.com/stock-predictions-with-state-of-the-art-transformer-and-time-embeddings-3a4485237de6

当前应用于NLP领域的Transformer，结构过于庞大，并不适用于股票数据（开盘价，收盘价，最高价，最低价，等）这样的时序数据，因此，本文提出一种简化的适用于股票数据的Transformer结构，其根据时间嵌入的思想构建，能很好的应用于量化选股中。下面以一个例子来介绍用于股票数据的Transformer体系结构，以及

更新时间：2021-02-03 07:05

分页第1页第2页第3页