特征选择在许多方面都是适用的:它是对抗维度灾难的最佳武器;它可以减少整体训练时间;它也可以有效防止过拟合现象,提高模型的泛化能力。
如果要对动物进行分类,你可以很快的发现许多相关的属性或特征对模型毫无益处。例如,绝大多数动物都恰好拥有1颗心脏,从机器学习的角度来看, 心脏个数这一特征就毫无用处。另一方面,一个动物是否有翅膀则可能是一个很好的预测因子。
此外,好的预测因子和无关的特征夹杂在一起会对结果模型结果产生负面影响。更不用说这些无关的数据还会增加训练耗时,或者产生过拟合现象了·。
**特征选择是一种缩小在预测建模过程中使用的特征或属性范围的过程
更新时间:2024-05-22 10:25
更新时间:2024-05-21 08:15
本文内容对应旧版平台与旧版资源,其内容不再适合最新版平台,请查看新版平台的使用说明
新版量化开发IDE(AIStudio):
https://bigquant.com/wiki/doc/aistudio-aiide-NzAjgKapzW
新版模版策略:
https://bigquant.com/wiki/doc/demos-ecdRvuM1TU
新版数据平
更新时间:2024-05-20 10:26
本文内容对应旧版平台与旧版资源,其内容不再适合最新版平台,请查看新版平台的使用说明
新版量化开发IDE(AIStudio):
https://bigquant.com/wiki/doc/aistudio-aiide-NzAjgKapzW
新版模版策略:
https://bigquant.com/wiki/doc/demos-ecdRvuM1TU
新版数据平
更新时间:2024-05-20 10:24
本文内容对应旧版平台与旧版资源,其内容不再适合最新版平台,请查看新版平台的使用说明
新版量化开发IDE(AIStudio):
https://bigquant.com/wiki/doc/aistudio-aiide-NzAjgKapzW
新版模版策略:
https://bigquant.com/wiki/doc/demos-ecdRvuM1TU
新版数据平
更新时间:2024-05-20 07:17
本文内容已经过期,不再适合平台最新版本,请查看如下最新内容:
[https://bigquant.com/wiki/doc/6yep5yyw5py65zmo5a2m5lmg57o75yix5yig5lqr77yi5lia77yj5py65zmo5a2m5lmg5lul57un5lio57q5ocn5zue5b2s5qih5z6l-NIQe5FA4dS](https://bigquant.com/wiki/doc/6yep5yyw5py65zmo5a2m5lmg57o75yix5yig5lqr77yi5lia77yj5py65zmo5a2m5lmg5lul57un5li
更新时间:2024-05-20 06:55
1. 人工智能与机器学习的概念
人工智能(Artificial Intelligence,AI)是一门研究如何使计算机系统具备类似于人类智能的能力的领域
人工智能的子领域示例:
更新时间:2024-05-20 06:52
本文为旧版实现,仅供学习参考。
https://bigquant.com/wiki/doc/demos-ecdRvuM1TU
预计算因子表[数据平台] https://bigquant.com/data/datasources/cn_stock_prefactors
https://bigquant.com/wiki/doc/dai-PLSbc1SbZX
[ht
更新时间:2024-05-20 06:21
英国数学家、计算机科学家、逻辑学家和密码分析家艾伦·图灵推测机器:
“这就像一个学生从他的老师那里学到了很多东西,但在他自己的工作中增加了很多东西。发生这种情况时,我觉得人们有义务将机器视为显示智能。”
举一个机器学习影响的例子,Man group 的 AHL Dimension 计划是一个价值 51 亿美元的对冲基金,部分由 AI 管理。成立后,到 2015 年,其机器学习算法为基金贡献了一半以上的利润,尽管其管理的资产要少得多。
[ ,无监督学习(Unsupervised Learning),半监督学习(Semi-supervised Learning)和强化学习(Reinforcement Learning)等诸多内容。针对有监督学习和半监督学习,都需要一定数量的标注数据,也就是说在训练模型的时候,全部或者部分数据需要带上相应的标签才能进行模型的训练。但是在实际的业务场景或者生产环境中,工作人员获得样本的成本其实是不低的,甚至在某些时候是相对较高的,那么如何通过较少成本来获得较大价值的标注数据,进一步地提升
更新时间:2024-05-20 06:19
贝叶斯定理是机器学习领域中的一种重要算法。它的基本思想是根据已知数据和先验概率,通过贝叶斯公式计算出后验概率,从而进行分类或预测。朴素贝叶斯(Naive Bayes)是贝叶斯算法中的一种经典方法,也是为数不多的基于概率论的分类算法。它在拼写检查、语言翻译、生物医药、疾病诊断、邮件过滤、文本分类等诸多方面都有很广泛的应用。贝叶斯定理也是统计学和概率论中非常重要的一个定理,它提供了一种在已知某些其他概率的情况下,计算某个事件概率的方法。这个定理在金融领域的风险评估、市场趋势预测等方面有广泛应用。
贝叶斯定理可以表达为:P(A∣B)= P(B∣*A
更新时间:2024-05-20 03:38
贝叶斯优化是一种基于贝叶斯定理的优化方法,广泛应用于机器学习、金融建模和其他需要高效搜索最优参数的领域。它通过构建目标函数的概率模型,并在此基础上逐步更新和优化参数选择,从而实现高效的全局优化。
目标函数:
先验分布:
更新时间:2024-05-20 03:22
1936 年 Fisher 提出线性判别分析(Linear Discriminant Analysis),是一种有监督的数据降维与分类算法。
1950 年左右,朴素贝叶斯分类器(NaiveBayes Classifier),基于最基本的贝叶斯理论,假设特征相互独立,根据贝叶斯公式利用先验信息去计算样本被分类到每一个类别的概率。
1958 年感知机(Perceptron),神经网络的前身,结合了当时对脑细胞的研究以及机器学习的成果,首次被提出并用于图像识别。
同年,逻辑回归(Logistic Regression),用广义线性模型去预测样本被分类到每个类别的概率。
1967 年 K 近
更新时间:2024-05-20 03:21
起源于 1901 年 Pearson 的主成分分析(PCA),通过对协方差矩阵的特征值分解或 SVD 分解,通过对特征值排序选取相应的特征向量,将高维特征映射到低维上,达到降维的目的。用于数据预处理。
1998 年,降维算法PCA首次与核方法结合,先将数据集通过核函数(Kernel Function)映射到高维空间,然后在高维特征空间中做 PCA。核 PCA 有更好的降维效果。
2000 年,始于局部线性嵌入(Locally Linear Embedding)的流形学习(Manifold Learning)引领了降维算法的新浪潮。
2008 年 ,t-SNE 作为非线性降维方法,可更好地
更新时间:2024-05-20 03:21
最基本的强化学习建立在马尔可夫决策过程(Markov Decision Process,MDP)上,当模型的动态特征已知时可以按照动态规划(Dynamic Programming,DP)进行迭代求解。
1988 年,时间差分算法(Temporal-Difference Method,TD)被应用于价值函数的迭代计算,它与类似的蒙特卡洛算法(Monte Carlo Method,MC)一样并不需要预先知道动态特征。本质上都被看作是 DP 的近似算法。
1989 年,经典的强化学习算法 Q-学习(Q-learning)被提出,它类似于 DP 中的价值迭代算法,但无需预先知道动态特征。
199
更新时间:2024-05-20 03:20
斯普林格已经向公众发布了数百本关于广泛主题的免费图书。这份名单共有408本书,涵盖了广泛的科学和技术主题。为了节省您的时间,我创建了一个与数据和机器学习领域相关的所有书籍(共65本)的列表。
在这些书中,你会发现那些处理数学方面的领域(代数,统计,和更多) ,随着更高级的书籍深度学习和其他高级主题。您还可以在各种编程语言(如 Python、 R 和 MATLAB 等)中找到一些好书。
更新时间:2024-05-20 03:17
回归是一种挖掘因变量和自变量之间关系的技术。它经常出现在机器学习中,主要用于预测建模。在本系列的最后一部分中,我们将范围扩大到涵盖其他类型的回归分析及其在金融中的用途。
简单的线性回归允许我们研究两个连续变量之间的关系——一个自变量和一个因变量。
简单线性回归方程的一般形式如下:
其中 (β_{0}) 是截距,(β_{1}) 是斜率,(ϵ_{i}) 是误差项。在这个等
更新时间:2024-05-20 03:17
Scikit-learn是一个开源的Python库,专为机器学习提供简单和有效的工具。它建立在NumPy、SciPy和Matplotlib库之上,提供了一套广泛的监督和非监督学习算法通过一个一致的接口。Scikit-learn广泛应用于学术和商业环境,特别是在数据挖掘、数据分析和机器学习领域。
Scikit-learn的设计哲学基于以下几点:
更新时间:2024-05-20 03:06
它是一个基于Python的库,旨在通过遗传编程(Genetic Programming, GP)实现机器学习的功能。遗传编程是一种自动化的机器学习方法,通过模拟达尔文的自然选择理论来解决问题。它属于遗传算法的一种,通过选择、交叉(杂交)、变异等操作对程序(个体)进行迭代,以产生更好的解决方案。gplearn主要用于回归和符号回归任务,可以自动生成解决特定问题的数学模型或符号表达式。它的灵感来自于 scikit-learn,可以用于自动化发现数据中的关系,创建复杂的模型或因子。在金融领域,gplearn可以用于因子挖掘,帮助发现影响股票价格
更新时间:2024-05-20 03:04
来源:elitedatascience编译:caoxiyang
成千上万的数据科学新手会在不知不觉中犯下一个错误,你知道是什么吗?这个错误可以一手毁掉你的机器学习模型,这并不夸张。我们现在来讨论应用机器学习中最棘手的障碍之一:过拟合(overfitting)。
在本文中,我们将详细介绍过拟合、如何在模型中识别过拟合,以及如何处理过拟合。 最后你会学会如何一劳永逸地处理这个棘手的问题。你将读到下面这些内容:
假设我们想根据
更新时间:2024-05-20 02:27
本文内容对应旧版平台与旧版资源,其内容不再适合最新版平台,请查看新版平台的使用说明
新版量化开发IDE(AIStudio):
https://bigquant.com/wiki/doc/aistudio-aiide-NzAjgKapzW
新版模版策略:
https://bigquant.com/wiki/doc/demos-ecdRvuM1TU
新版数据平
更新时间:2024-05-20 02:15
机器学习已经广泛地应用在对于资产市场的分析中。但是,在浩如烟海的机器学习算法中,到底哪种算法能取得更优的预测效果呢?发表在《Applied Mathematical Finance》的这篇文章利用随机森林算法对股价d天之后的涨跌方向进行了预测。发现相比于SVM、线性判别分析等模型,随机森林可以取得更优秀的预测结果:能够达到85%-95%的准确率。
为了最小化预测误差,文章将预测股价的走势看做一个二分类问题(涨or跌),使用集成机器学习建模解决。文章里利用RSI(相对强弱指数)、KD随机指标、MACD等6个常用的技术指标作为分类的特征,对随机森林模型进行训练。最后发现,模型中
更新时间:2024-05-20 02:09
吴恩达(1976-,英文名:Andrew Ng),华裔美国人,是斯坦福大学计算机科学系和电子工程系副教授,人工智能实验室主任。吴恩达是人工智能和机器学习领域国际上最权威的学者之一。吴恩达也是在线教育平台Coursera的联合创始人(with Daphne Koller)。
吴恩达是在线教育平台Coursera的联合创始人,吴恩达在2008年发起了“Stanford Engineering Everywhere”(S
更新时间:2024-05-20 02:09
本文介绍了机器学习的相关内容。
机器学习这个词是让人疑惑的,首先它是英文名称Machine Learning(简称ML)的直译,在计算界Machine一般指计算机。这个名字使用了拟人的手法,说明了这门技术是让机器“学习”的技术。但是计算机是死的,怎么可能像人类一样“学习”呢?
传统上如果我们想让计算机工作,我们给它一串指令,然后它遵照这个指令一步步执行下去。有因有果,非常明确。但这样的方式在机器学习中行不通。机器学习根本不接受你输入的指令,相反,它接受你输入的数据! 也就是说,机器学习是一种让计算机利用数据而不是指令来进行各种工作的方法。
更新时间:2024-05-20 02:09
更新时间:2024-05-20 02:09