训练集

从金融角度看待“训练集”,可以将其精炼地描述为:在量化分析、风险评估或算法交易等金融科技应用中,用于“教授”或“训练”机器学习模型的一组历史或模拟金融数据。这组数据包含了多种金融变量,如价格、交易量、财务指标等,并通过特定的算法处理,使模型能够学习并识别出数据中的潜在模式,进而在未来的金融决策中提供预测或建议。训练集的质量和多样性对于模型的准确性和泛化能力至关重要。

AI选股策略——去除退市股

【旧版说明】此文档为旧版,相关新版文档参考:

https://bigquant.com/wiki/doc/102-ai-hXNHGsyWzS

新建一个可视化AI选股策略,如下图所示:

在训练集流程中的缺失数据处理模块m13前加入模块“去除退市股”m27(从“用户模块”——“共享模块”中找到并拖入画布),即可实现在训练集中去除退市的股票

在验证集流程中的缺失数据处理模块m14前加入模块“去除退市股”m27(从“用户模块”——“共享模块”中找到并拖入画布),即可实现在验证集中去除退市的股票

更新时间:2025-03-12 06:17

AI选股策略——综合过滤

新建一个可视化AI选股策略,如下图所示:

在训练集流程中的缺失数据处理模块m13前加入模块“去除退市股”、“过滤市场”、“过滤st股票”(从“用户模块”——“共享模块”中找到并拖入画布)即可实现相应的过滤功能;

在验证集流程中的缺失数据处理模块m14前加入模块“去除退市股”、“过滤市场”、“选取指定概念板块股”、“过滤st股票”(从“用户模块”——“共享模块”中找到并拖入画布)即可实现相应的过滤功能。

[https://bigquant.com/experimentshare/81d64826251e47d6b10cf2bea879bf38](https://bigquant.com/e

更新时间:2025-03-12 06:17

【历史文档】高阶技巧-开箱实盘即用,批量测试因子的实盘策略模板

更新

本文内容对应旧版平台与旧版资源,其内容不再适合最新版平台,请查看新版平台的使用说明

新版量化开发IDE(AIStudio):

https://bigquant.com/wiki/doc/aistudio-aiide-NzAjgKapzW

新版模版策略:

https://bigquant.com/wiki/doc/demos-ecdRvuM1TU

新版数据平

更新时间:2025-02-27 02:34

AI模型评价

导语

在机器学习模型构建过程中,我们通常需要评价模型在训练集和验证集上的表现来判断模型的质量好坏,本文主要以随机森林模型为例介绍新增模型评价功能。

评价回归模型

我们以随机森林-回归模型为例,首先建立如下的模型训练可视化流程

如图所示,

  • 通过证券代码列表模块m1指定了抽取数据为2010-01-01至2013-01-01的A股数据
  • 通过自动标注模块m2我们计算了一个机器学习的目标,这里计算股票的未来5日收益率

更新时间:2025-02-27 02:34

【历史文档】算子样例-StockRanker训练曲线(Learning Curve)

更新

本文内容对应旧版平台与旧版资源,其内容不再适合最新版平台,请查看新版平台的使用说明

新版量化开发IDE(AIStudio):

https://bigquant.com/wiki/doc/aistudio-aiide-NzAjgKapzW

新版模版策略:

https://bigquant.com/wiki/doc/demos-ecdRvuM1TU

新版数据平

更新时间:2025-02-27 02:34

Machine Learning is Fun! — 全世界最简单的机器学习入门指南

你是否曾经听到过人们谈论机器学习,而你却对其含义只有一个模糊的概念呢?你是否已经厌倦了在和同事对话时只能点头呢?现在,让我们一起来改变这个现状吧!

这篇指南是为那些对机器学习感兴趣,但又不知从哪里开始的人而写的。我猜有很多人曾经尝试着阅读机器学习的维基百科词条,但是读着读着倍感挫折,然后直接放弃,希望能有人给出一个更直观的解释。本文就是你们想要的东西。

本文的写作目标是让任何人都能看懂,这意味着文中有大量的概括。但是那又如何呢?只要能让读者对机器学习更感兴趣,这篇文章的任务也就完成了。

什么是机器学习?

机器学习是一种概念:不需要写任何与问题有关的特定代码,泛型算法(Gene

更新时间:2024-12-04 08:53

Word2Vec介绍:训练Skip-gram模型的python实现

1. 获取数据

首先获取训练集“Stanford V1.0”和使用Glove模型训练好的词向量矩阵。

我们使用shell命令获取以上文档,脚本如下:

DATASETS_DIR="utils/datasets"
mkdir -p $DATASETS_DIR

cd $DATASETS_DIR

# Get Stanford Sentiment Treebank
if hash wget 2>/dev/null; then
  wget http://nlp.stanford.edu/~socherr/stanfordSentimentTreebank.zip
else
  c

更新时间:2024-06-12 06:06

DNN-AI选股:深度学习的学习率调整

更新

本文内容对应旧版平台与旧版资源,其内容不再适合最新版平台,请查看新版平台的使用说明

新版量化开发IDE(AIStudio):

https://bigquant.com/wiki/doc/aistudio-aiide-NzAjgKapzW

新版模版策略:

https://bigquant.com/wiki/doc/demos-ecdRvuM1TU

新版数据平

更新时间:2024-06-07 10:55

DNN-AI选股:深度学习的学习率调整

2021年8月5日Meetup问题:深度学习的学习率在哪里可以调整,训练集和测试集的loss如何打印到一张图上,early_stop如何设置?深度学习的权值初始化方法对结果影响很大,能否做个全面介绍,CNN,lstm,mlp一般试用哪种初始化方法。lstm或者cnn后面接的mlp一般用几层为好?mlp的神经元数量一般要相较输入层扩充几倍?

[https://bigquant.com/experimentshare/c0853836ac224f7ab02c97acce9f973f](https://bigquant.com/experimentshare/c0853836ac224f7ab02

更新时间:2024-06-07 10:55

创业板和科创板股票过滤

问题

Q3:过滤创业板和科创板的股票,是否要在训练集和预测集都进行过滤?另外,想在trade回测模块中通过编写代码实现过滤,该如何编写?

视频

https://www.bilibili.com/video/BV1aq4y1A7xK?share_source=copy_web

策略源码

如果我们不想考虑创业板和科创板的股票,那么需要在数据的训练和预测阶段都过滤。不然创业板和科创板的股票数据会影响AI模型,降低模型的准确率。

[ht

更新时间:2024-06-07 10:55

主动学习(Active Learning)

\

背景

机器学习的研究领域包括有监督学习(Supervised Learning)无监督学习(Unsupervised Learning),半监督学习(Semi-supervised Learning)和强化学习(Reinforcement Learning)等诸多内容。针对有监督学习和半监督学习,都需要一定数量的标注数据,也就是说在训练模型的时候,全部或者部分数据需要带上相应的标签才能进行模型的训练。但是在实际的业务场景或者生产环境中,工作人员获得样本的成本其实是不低的,甚至在某些时候是相对较高的,那么如何通过较少成本来获得较大价值的标注数据,进一步地提升

更新时间:2024-05-20 06:19

使用深度学习技术预测股票价格

更新

本文内容对应旧版平台与旧版资源,其内容不再适合最新版平台,请查看新版平台的使用说明

新版量化开发IDE(AIStudio):

https://bigquant.com/wiki/doc/aistudio-aiide-NzAjgKapzW

新版模版策略:

https://bigquant.com/wiki/doc/demos-ecdRvuM1TU

新版数据平

更新时间:2024-05-17 10:28

用随机森林-分类算法实现A股股票选股

更新

本文内容对应旧版平台与旧版资源,其内容不再适合最新版平台,请查看新版平台的使用说明

新版量化开发IDE(AIStudio):

https://bigquant.com/wiki/doc/aistudio-aiide-NzAjgKapzW

新版模版策略:

https://bigquant.com/wiki/doc/demos-ecdRvuM1TU

新版数据平

更新时间:2024-05-17 06:42

分享一个计算RankIC的自定义模块

在StockRanker策略的基础上增加了一个计算RankIC的自定义模块,m22输出训练集的平均RankIC, m20输出测试集的平均RankIC。分享一下,如有问题大家多多指教。

https://bigquant.com/experimentshare/b1f45cb0a35a4a329cf6feca54d23005

\

更新时间:2022-11-20 03:34

华泰人工智能系列之十四:对抗过拟合,从时序交叉验证谈起 华泰证券_20181128_

摘要

时序交叉验证方法适用于时间序列数据,能够有效防止过拟合交叉验证是选择模型最优超参数的重要步骤,本文关注传统交叉验证和时序交叉验证的比较。我们采用机器学习公共数据集以及全A选股数据集,分别比较两种交叉验证方法的表现。结果表明,对于时序数据,时序交叉验证方法在训练集上的表现相对较差,但是在测试集上表现更好。传统交叉验证方法面对时序数据表现出较明显的过拟合,而时序交叉验证方法能够有效防止过拟合。借助时序交叉验证的机器学习选股策略能够获得更高并且更稳定的收益。推荐投资者在选择机器学习模型超参数时,使用时序交叉验证方法。 传统交叉验证用于时序数据可能出现未来信息预测历史的“作弊”行为交叉验

更新时间:2022-07-29 06:13

关于模型训练的一点简单想法:以DNN和StockRanker对比为例

作者:donkyxote

策略思想

基于17个短期因子,其中8个量价因子,9个均线因子。训练集使用2005-01-04至2020-06-01日,每个交易日买入模型当日预测结果排名靠前的1只A股股票,次日卖出。

StockRanker模型

原有模型是基于BQ提供的Stockranker机器学习算法:


![图 1:stockranker-2021年1月4日至2022年1月21日的模拟实盘结果{w:100}{w:100}](/wiki/api/attachments.redirect?id=bb5b3d09-3e20-4840-b5e0-2220d7f55

更新时间:2022-06-22 14:58

关于模型训练的一点简单想法:以DNN和StockRanker对比为例

策略思想

基于17个短期因子,其中8个量价因子,9个均线因子。训练集使用2005-01-04至2020-06-01日,每个交易日买入模型当日预测结果排名靠前的1只A股股票,次日卖出。

StockRanker模型

原有模型是基于BQ提供的Stockranker机器学习算法:

![图 1:stockranker-2021年1月4日至2022年1月21日的模拟实盘结果{w:100}{w:100}{w:100}{w:100}](/wiki/api/attachments.redirect?id=bb5b3d09-3e20-4840-b5e0-2220d7f5599

更新时间:2022-06-22 05:47

DeepAlpha-DNN VS Lightgbm 实践报告

作者:dkl297836

策略思想

基于32个短期价量因子,训练集使用2016年1月1日至2020年12月31日共5年数据,每个交易日买入模型当日预测结果排名靠前的10只A股股票,个股最大仓位限制为20%,持股时间设置为5个交易日,初始资金100万。

Lightgbm策略

原有策略是基于Lightgbm机器学习算法,该策略的表现见图1:

![图 1:lightgbm-2021年1月1日至2022年6月10日回测结果{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}](/wiki/api/attachment

更新时间:2022-06-20 07:57

用线性-分类算法实现A股股票选股

策略案例


https://bigquant.com/experimentshare/5c5e31cf67c94de099b00aeab9676e48

\

更新时间:2021-07-30 07:26

分页第1页
{link}