交叉验证

交叉验证在金融领域中是一种重要的分析和风险管理工具。其核心思想是利用多来源、多维度的数据或方法，对同一问题或假设进行反复检验，以提高决策的准确性和稳健性。在投资决策中，交叉验证可确保信息的真实性和完整性，降低因单一数据来源或模型错误导致的风险。例如，在评估投资标的时，除了分析公司公开的财务报表，还会结合行业趋势、市场情绪等多方数据进行交叉验证，以得出更可靠的结论。在风险管理中，交叉验证可增强模型的预测能力和稳定性，帮助金融机构更精准地量化风险，从而优化资本配置和提升风险调整后的回报。通过交叉验证，金融机构能够提升决策质量，增强抵御市场不确定性的能力，最终实现更加稳健和可持续的发展。

导语

成千上万的数据科学新手会在不知不觉中犯下一个错误，你知道是什么吗？这个错误可以一手毁掉你的机器学习模型，这并不夸张。我们现在来讨论应用机器学习中最棘手的障碍之一：过拟合（overfitting）。

在本文中，我们将详细介绍过拟合、如何在模型中识别过拟合，以及如何处理过拟合。最后你会学会如何一劳永逸地处理这个棘手的问题。你将读到下面这些内容：

过拟合的例子
信号与噪音
拟合优度
过拟合和欠拟合
如何检查过拟合
如何避免过拟合

过拟合的例子

假设我们想根据

更新时间：2025-07-01 07:35

导语

本文为Mehmet Süzen撰写文章的译文，稍有删改。文章清晰地阐释和区分过度拟合及过度拟合等概念，对于本领域学习者正确理解专业术语多有帮助。正如作者在原文末所指出的：对待简单的概念，我们也应抱着积极求学的态度，了解其成立的基础。

前言

大多数从业者对”过拟合“这一概念存在误解。在数据科学界，始终存在一种类似于民间说法的观点：“利用交叉验证可以防止过拟合。在样本外对模型进行验证，如果不存在泛化误差，则模型不存在过拟合”

这个说法显然是不对的：交叉验证并不能阻止模型过拟合。样本外的良好预测性能并不能保证模型不存在过拟合。在这个说法中，前部分说的概念其实是“过度训练”。

更新时间：2025-07-01 07:35

本文将带你遍历机器学习领域最受欢迎的算法。系统地了解这些算法有助于进一步掌握机器学习。当然，本文收录的算法并不完全，分类的方式也不唯一。不过，看完这篇文章后，下次再有算法提起，你想不起它长处和用处的可能性就很低了。本文还附有两张算法思维导图供学习使用。在本文中，我将提供两种分类机器学习算法的方法。一是根据学习方式分类，二是根据类似的形式或功能分类。这两种方法都很有用，不过，本文将侧重后者，也就是根据类似的形式

更新时间：2025-07-01 07:35

Machine Learning is Fun! — 全世界最简单的机器学习入门指南

你是否曾经听到过人们谈论机器学习，而你却对其含义只有一个模糊的概念呢？你是否已经厌倦了在和同事对话时只能点头呢？现在，让我们一起来改变这个现状吧！

这篇指南是为那些对机器学习感兴趣，但又不知从哪里开始的人而写的。我猜有很多人曾经尝试着阅读机器学习的维基百科词条，但是读着读着倍感挫折，然后直接放弃，希望能有人给出一个更直观的解释。本文就是你们想要的东西。

本文的写作目标是让任何人都能看懂，这意味着文中有大量的概括。但是那又如何呢？只要能让读者对机器学习更感兴趣，这篇文章的任务也就完成了。

什么是机器学习？

机器学习是一种概念：不需要写任何与问题有关的特定代码，泛型算法（Gene

更新时间：2025-07-01 07:35

主动学习（Active Learning）

背景

机器学习的研究领域包括有监督学习（Supervised Learning），无监督学习（Unsupervised Learning），半监督学习（Semi-supervised Learning）和强化学习（Reinforcement Learning）等诸多内容。针对有监督学习和半监督学习，都需要一定数量的标注数据，也就是说在训练模型的时候，全部或者部分数据需要带上相应的标签才能进行模型的训练。但是在实际的业务场景或者生产环境中，工作人员获得样本的成本其实是不低的，甚至在某些时候是相对较高的，那么如何通过较少成本来获得较大价值的标注数据，进一步地提升

更新时间：2025-07-01 07:35

交叉验证防止过拟合

交叉验证是一种在统计学和机器学习领域广泛使用的技术，主要用于评估模型的泛化能力，即模型对未见数据的预测能力。这种技术在金融领域的量化交易策略开发中尤为重要，因为金融市场的数据通常具有高度的不确定性和变化性。交叉验证通过在不同的数据子集上训练和测试模型来帮助识别和防止过拟合，过拟合是指模型对训练数据过度优化，从而导致其泛化能力下降。

精华参考：【研报分享】华泰证券——对抗过拟合：从时序交叉验证谈起

![](/wiki/api/attachments.red

更新时间：2025-07-01 07:35

用随机森林-分类算法实现A股股票选股

更新

本文内容对应旧版平台与旧版资源，其内容不再适合最新版平台，请查看新版平台的使用说明

新版量化开发IDE（AIStudio）：

https://bigquant.com/wiki/doc/aistudio-aiide-NzAjgKapzW

新版模版策略：

https://bigquant.com/wiki/doc/demos-ecdRvuM1TU

新版数据平

更新时间：2025-07-01 07:20

三个有效的特征选择策略

导语

特征选择是除数据之外最关键的步骤。尽管这一步非常必要，但很多指导文章中却完全忽略这一过程。

本文将展示一些很棒的特征选择方法，帮助读者在机器学习中更加如鱼得水。

特征选择是什么？实际问题中，需要什么样的特征来帮助解决建模并不总是很清晰。在这个问题上，数据总是存在各种问题，比如数据过多，不相关等。特征选择主要研究如何使用算法选择出重要特征。

那为什么不将所有的特征都扔进机器学习模型，然后收工回家呢？

在实际问题中可能没有开源数据集，或者这些数据不总是含有解决问题的相关信息。在这些现实问题面前，特征选择能够最大化数据相关性，降低数据冗余度。这有助于建立好的模型，减小模型大小。

更新时间：2025-07-01 07:17

零基础《AI挑战虚拟股票预测大赛》入门教程

更新

本文内容对应旧版平台与旧版资源，其内容不再适合最新版平台，请查看新版平台的使用说明

新版量化开发IDE（AIStudio）：

https://bigquant.com/wiki/doc/aistudio-aiide-NzAjgKapzW

新版模版策略：

https://bigquant.com/wiki/doc/demos-ecdRvuM1TU

新版数据平

更新时间：2025-07-01 07:00

回归模型评估

https://bigquant.com/experimentshare/2173eaeebea6424eba623aaf2a7f3ba5

更新时间：2025-04-24 03:20

【历史文档】算子样例-机器学习

更新

本文内容对应旧版平台与旧版资源，其内容不再适合最新版平台，请查看新版平台的使用说明

新版量化开发IDE（AIStudio）：

https://bigquant.com/wiki/doc/aistudio-aiide-NzAjgKapzW

新版模版策略：

https://bigquant.com/wiki/doc/demos-ecdRvuM1TU

新版数据平

更新时间：2025-02-27 02:34

关于线性回归、岭回归和Lasso回归的综合入门指南

https://bigquant.com/experimentshare/c451f287332a411cb4c7756c457318f6

更新时间：2024-06-12 05:48

超参寻优调参顺序

策略案例

https://bigquant.com/experimentshare/fe8ec83484ca44148602d39a58545d75

更新时间：2024-06-07 10:55

用传统框架测试机器学习-GBDT算法

策略案例

https://bigquant.com/experimentshare/44cc116a1dad4c37983b9be35da208ee

更新时间：2022-11-20 03:34

分享一个可视化深度学习建模的例子

策略案例

https://bigquant.com/experimentshare/9426627188af4f488644532c01328c14

更新时间：2022-11-20 03:34

监督学习的方法介绍及金融领域应用实例-长江证券-20170727

摘要

机器学习系列报告

本系列报告试图系统全面性的介绍各种不同的机器学习方法，并且结合具体的在投资研究领域应用实例、交易策略及code示例，说明其应用情景和实现方法。机器学习的方法可以分为以下几类：监督学习、无监督学习、深度学习及其他机器学习方法（例如强化学习），对应到具体的模型上数量则更是繁多，目前大部分机器学习模型并未广泛的应用在投研领域，因此本系列主要偏重于在投研领域有应用潜力的模型及方法。此篇将以介绍监督学习方法为主

监督学习模型之回归类模型及其应用

与普通线性回归不同，监督学习中的惩罚回归模型和非参数回归，可以分别用于处理输入变量中存在大量线性相关性关系

更新时间：2022-08-31 01:52

华泰人工智能系列之十四：对抗过拟合，从时序交叉验证谈起华泰证券_20181128_

摘要

时序交叉验证方法适用于时间序列数据，能够有效防止过拟合交叉验证是选择模型最优超参数的重要步骤，本文关注传统交叉验证和时序交叉验证的比较。我们采用机器学习公共数据集以及全A选股数据集，分别比较两种交叉验证方法的表现。结果表明，对于时序数据，时序交叉验证方法在训练集上的表现相对较差，但是在测试集上表现更好。传统交叉验证方法面对时序数据表现出较明显的过拟合，而时序交叉验证方法能够有效防止过拟合。借助时序交叉验证的机器学习选股策略能够获得更高并且更稳定的收益。推荐投资者在选择机器学习模型超参数时，使用时序交叉验证方法。传统交叉验证用于时序数据可能出现未来信息预测历史的“作弊”行为交叉验

更新时间：2022-07-29 06:13