几个月内,使用新库的开发人员打破了多项性能记录,包括赢得多项Kaggle 比赛。此外,lightgbm 有很多超参数需要调整,因此我们可以使用scikit-learn 的调整类:为了解决这个问题,lightgbm 开发人员添加了内置的Shapley 值特征重要性方法。这使得lightgbm 类可以与任何sklearn 分类器或回归器互换使用,包括交叉验证预测/评分和超参数调整。
与任何其他回归器或分类器一样,lightgbm 类可用于进行交叉验证的预测和评分:在本文中,我们将介绍通过scikit-learn API 提供的主要类以及如何使用lightgbm 最重要的功能。效率:LightGBM采用了一种名为“基于直方图的学习”的技术,可以有效地处理数据,减少内存消耗并提高训练速度。
1、弥勒广播电视台
中级和高级方法均源自本文;中级是稍慢但性能更好的启发式方法,而高级可能会显着降低速度但显着提高性能。另一个不错且相当不寻常的事情是,您可以构建称为树嵌入的东西,它来自sklearn 的RandomTreesEmbedding。
2、mlgb大帅
回到主题,categorical_feature 参数接受一个可迭代对象(例如列表或numpy 数组),其中包含分类列的索引(在本例中为列索引20)。你可以看到它帮助我从我的Google工作空间中查找东西,就像百度系统产品帮助你从百度邮箱或百度云盘中查找东西一样。
这并不意味着lightgbm 会将该特征视为普通的数字特征,只是模型在内部覆盖了设置为None 的变量,所以不要像我第一次看到它时那样惊慌。在建模方面,lightgbm只将分类特征理解为正整数,因此我们必须首先进行如下转换: