过拟合

在金融领域，"过拟合"是一个重要概念，尤其在使用复杂模型和算法进行数据分析和预测时。过拟合主要指的是模型在训练数据上表现过于优越，以至于把训练数据中的噪声或特殊情况也考虑进去，从而使得模型在新的、未见过的数据上表现不佳。更具体地说，当一个模型过度拟合训练数据时，它会将自身调整得过于复杂，以适应训练数据中的每一个细节。这导致模型对训练数据的预测非常准确，但对新数据的预测能力大大降低。在金融市场的应用中，这可能意味着模型在历史数据上表现良好，但在实际交易中却无法实现预期的回报。过拟合的原因有很多，例如训练数据量不足、模型复杂度过高、训练时间过长等。为了防止过拟合，金融从业人员通常会采用一系列策略，如交叉验证、使用正则化方法、提前停止训练、增加训练数据量、降低模型复杂度等。这些方法的目标都是使模型能够在不见过的数据上保持稳健的预测性能，从而在实际金融决策中提供可靠的依据。

AI Quantitative Trading Knowledge/AI量化交易常識

AI量化交易重要常识

数据质量与完整性：高质量、准确、全面的数据是AI量化交易成功的关键。
模型过拟合：避免过度拟合历史数据，这可能导致未来性能下降。
市场效率：理解市场效率和其对交易策略性能的影响。
算法复杂性：更复杂的算法并不总是更好，简单有效往往更为重要。
风险管理：制定严格的风险管理策略以保护资本。
交易成本：

更新时间：2025-07-24 05:26

导语

回归、分类和排序是我们经常遇到的问题场景。本文主要介绍如何实现回归和分类两类问题的模型构建。

首先我们明确一下算法在机器学习中的地位。一般来说，机器学习有三个要素： 数据、算法和模型 。

数据是场景的描述，包括输入和输出。
算法是得到模型的过程，狭义上说，特指机器学习算法，如传统线性回归、树和支持向量机以及深度学习； 广义上说，从输入数据到最终确定模型输出的所有过程，即建模流程都可以看作算法，如分类、回归模型，搜索最优参数算法。

下面我们来举两个例子，看看回归和分类问题的应用场景有什么不同。

回归模型

![](/wik

更新时间：2025-07-23 08:43

导语

本文为Mehmet Süzen撰写文章的译文，稍有删改。文章清晰地阐释和区分过度拟合及过度拟合等概念，对于本领域学习者正确理解专业术语多有帮助。正如作者在原文末所指出的：对待简单的概念，我们也应抱着积极求学的态度，了解其成立的基础。

前言

大多数从业者对”过拟合“这一概念存在误解。在数据科学界，始终存在一种类似于民间说法的观点：“利用交叉验证可以防止过拟合。在样本外对模型进行验证，如果不存在泛化误差，则模型不存在过拟合”

这个说法显然是不对的：交叉验证并不能阻止模型过拟合。样本外的良好预测性能并不能保证模型不存在过拟合。在这个说法中，前部分说的概念其实是“过度训练”。

更新时间：2025-07-01 07:35

导语

成千上万的数据科学新手会在不知不觉中犯下一个错误，你知道是什么吗？这个错误可以一手毁掉你的机器学习模型，这并不夸张。我们现在来讨论应用机器学习中最棘手的障碍之一：过拟合（overfitting）。

在本文中，我们将详细介绍过拟合、如何在模型中识别过拟合，以及如何处理过拟合。最后你会学会如何一劳永逸地处理这个棘手的问题。你将读到下面这些内容：

过拟合的例子
信号与噪音
拟合优度
过拟合和欠拟合
如何检查过拟合
如何避免过拟合

过拟合的例子

假设我们想根据

更新时间：2025-07-01 07:35

导语

《Machine Learning for Stock Price Forecasting》是Ali El-Shayeb撰写的机器学习系列文章，本文主要介绍其第二部分内容——《监督式机器学习算法的应用》，并将其思想和代码应用在中国股票市场，开发出具有择时功能的监督式机器学习算法，最后进行策略回测。对此感兴趣的小伙伴可以直接在本文文末克隆策略源代码，进行深入和扩展研究。

《监督式机器学习算法的应用》

Ali El-Shayeb通过价格和成交量相关的9个特征训练模型，特征列表和数据来源见下图。

![](/community/uploads/default/origin

更新时间：2025-07-01 07:35

背景

机器学习的研究领域包括有监督学习（Supervised Learning），无监督学习（Unsupervised Learning），半监督学习（Semi-supervised Learning）和强化学习（Reinforcement Learning）等诸多内容。针对有监督学习和半监督学习，都需要一定数量的标注数据，也就是说在训练模型的时候，全部或者部分数据需要带上相应的标签才能进行模型的训练。但是在实际的业务场景或者生产环境中，工作人员获得样本的成本其实是不低的，甚至在某些时候是相对较高的，那么如何通过较少成本来获得较大价值的标注数据，进一步地提升

更新时间：2025-07-01 07:35

Machine Learning is Fun! — 全世界最简单的机器学习入门指南

你是否曾经听到过人们谈论机器学习，而你却对其含义只有一个模糊的概念呢？你是否已经厌倦了在和同事对话时只能点头呢？现在，让我们一起来改变这个现状吧！

这篇指南是为那些对机器学习感兴趣，但又不知从哪里开始的人而写的。我猜有很多人曾经尝试着阅读机器学习的维基百科词条，但是读着读着倍感挫折，然后直接放弃，希望能有人给出一个更直观的解释。本文就是你们想要的东西。

本文的写作目标是让任何人都能看懂，这意味着文中有大量的概括。但是那又如何呢？只要能让读者对机器学习更感兴趣，这篇文章的任务也就完成了。

什么是机器学习？

机器学习是一种概念：不需要写任何与问题有关的特定代码，泛型算法（Gene

更新时间：2025-07-01 07:35

用随机森林-分类算法实现A股股票选股

更新

本文内容对应旧版平台与旧版资源，其内容不再适合最新版平台，请查看新版平台的使用说明

新版量化开发IDE（AIStudio）：

https://bigquant.com/wiki/doc/aistudio-aiide-NzAjgKapzW

新版模版策略：

https://bigquant.com/wiki/doc/demos-ecdRvuM1TU

新版数据平

更新时间：2025-07-01 07:20

lightGBM_AI选股

https://bigquant.com/experimentshare/2fbb2629dcb0450bbf72e224835b4957

更新时间：2025-07-01 07:10

利用机器学习对冲风险

https://bigquant.com/experimentshare/d50ee96c36f84af6ad990409294db4cb

更新时间：2025-07-01 07:03

零基础《AI挑战虚拟股票预测大赛》入门教程

更新

本文内容对应旧版平台与旧版资源，其内容不再适合最新版平台，请查看新版平台的使用说明

新版量化开发IDE（AIStudio）：

https://bigquant.com/wiki/doc/aistudio-aiide-NzAjgKapzW

新版模版策略：

https://bigquant.com/wiki/doc/demos-ecdRvuM1TU

新版数据平

更新时间：2025-07-01 07:00

Word2Vec 学习心得

好嘛博主食言了。不过本文没什么干货，主要是前后看了大概一个星期，反复去读源码和解读文章，终于感觉这东西不那么云山雾罩了。同时也发现网上很多材料有点扯淡，99% 的博文不过是把别人的东西用自己的话说一下，人云亦云。好多人自己理解错了而不自知，实在是误人误己。

我也不敢说理解得有多深，下面的内容甚至可能有自相矛盾的地方，所以阅读本文时请一定擦亮眼睛，认真思考。

源码才是根本，作者那两篇论文感觉参考价值也不高。说到底，Machine Learning/Deep Learning 的价值在于实践，而实际开发的应用中经过大量的 tricks 之后，代码跟论文推导、实验可能相去甚远。

Data Mi

更新时间：2025-04-24 04:14

Word2Vec介绍: 为什么使用负采样（negtive sample）？

1. 随机梯度下降法有什么问题？

通过对代价函数求权重的梯度，我们可以一次性对所有的参数 $theta$ 进行优化，但是如果每次等全部计算完成再优化升级，我们将等待很长时间（对于很大的语料库来说）。

所以我们采用随机梯度下降（ Stochastic Gradient Descent），也就是说每次完成一次计算就进行升级。

但是，还有两个问题导致目前的模型效率低下！

第一个问题，我们每次只对窗口

更新时间：2025-04-24 04:14

回测数据深入分析（代码）

导语：本文介绍如何对一个回测结果进行深入分析。

策略案例

我们先看一个AI策略，以下是完整的策略代码。

https://bigquant.com/experimentshare/eb2f4ca3f7c0474c95341ae1202cac0f

更新时间：2025-04-24 03:34

更新

本文内容对应旧版平台与旧版资源，其内容不再适合最新版平台，请查看新版平台的使用说明

新版量化开发IDE（AIStudio）：

https://bigquant.com/wiki/doc/aistudio-aiide-NzAjgKapzW

新版模版策略：

https://bigquant.com/wiki/doc/demos-ecdRvuM1TU

新版数据平

更新时间：2025-02-27 02:34

【历史文档】策略回测-回测模块详解

更新

本文内容对应旧版平台与旧版资源，其内容不再适合最新版平台，请查看新版平台的使用说明

新版量化开发IDE（AIStudio）：

https://bigquant.com/wiki/doc/aistudio-aiide-NzAjgKapzW

新版模版策略：

https://bigquant.com/wiki/doc/demos-ecdRvuM1TU

新版数据平

更新时间：2025-02-27 02:34

【历史文档】算子样例-策略绩效评价

更新

本文内容对应旧版平台与旧版资源，其内容不再适合最新版平台，请查看新版平台的使用说明

新版量化开发IDE（AIStudio）：

https://bigquant.com/wiki/doc/aistudio-aiide-NzAjgKapzW

新版模版策略：

https://bigquant.com/wiki/doc/demos-ecdRvuM1TU

新版数据平

更新时间：2025-02-27 02:34

【历史文档】算子样例-Dropout层

更新

本文内容对应旧版平台与旧版资源，其内容不再适合最新版平台，请查看新版平台的使用说明

新版量化开发IDE（AIStudio）：

https://bigquant.com/wiki/doc/aistudio-aiide-NzAjgKapzW

新版模版策略：

https://bigquant.com/wiki/doc/demos-ecdRvuM1TU

新版数据平

更新时间：2025-02-27 02:34

Embedding层

使用场景

为输入数据施加Dropout，将在训练过程中每次更新参数时按一定概率（rate）随机断开输入神经元，用于防止过拟合。

输入端

输入：连接上一层的输出。必填。

输入参数

rate：0~1的浮点数，控制需要断开的神经元的比例，必填。
noise_shape：可以对每一维的输入进行相同的dropout。例如，输入为 (batch_size, timesteps, features)，然后希望dropout层在所有timesteps上都是一样的，则使用 noise_shape=batch_size, 1, features。
随机数种子：表示随

更新时间：2025-02-27 02:34