砍价网站怎么建设,定制网站开发设计,wordpress播放没声音,可以直接玩游戏的网站有许多在XGBoost中具有不同参数的预测函数。
预测选项
xgboost.Booster.predict() 方法有许多不同的预测选项#xff0c;从 pred_contribs 到 pred_leaf 不等。输出形状取决于预测的类型。对于多类分类问题#xff0c;XGBoost为每个类构建一棵树#xff0c;每个类的树称为…有许多在XGBoost中具有不同参数的预测函数。
预测选项
xgboost.Booster.predict() 方法有许多不同的预测选项从 pred_contribs 到 pred_leaf 不等。输出形状取决于预测的类型。对于多类分类问题XGBoost为每个类构建一棵树每个类的树称为树的“组”因此输出维度可能会因所使用的模型而改变。
在1.4版本后添加了 strict_shape 的新参数。可以将其设置为 True以指示希望获得更受限制的输出。假设正在使用 xgboost.Booster以下是可能的返回列表 使用 strict_shape 设置为 True 进行正常预测时 输出是一个2维数组第一维是行数第二维是组数。对于回归/生存/排序/二分类这相当于一个形状为shape[1] 1的列向量。但对于多类别问题使用 multi:softprob 时列数等于类别数。如果 strict_shape 设置为 False输出1维或2维数组 使用 output_margin 避免转换且 strict_shape 设置为 True 时 输出是一个2维数组除了 multi:softmax 由于去掉了转换而具有与 multi:softprob 相等的输出形状。如果 strict_shape 设置为 False则输出可以具有1维或2维具体取决于所使用的模型 使用 pred_contribs 且 strict_shape 设置为 True 时 输出是一个3维数组形状为行数组数列数1。是否使用 approx_contribs 不会改变输出形状。如果未设置 strict_shape 参数则它可以是2维或3维数组具体取决于是否使用多类别模型 使用 pred_interactions 且 strict_shape 设置为 True 时 输出是一个4维数组形状为行数组数列数1列数1。是否使用 approx_contribs 不会改变输出形状。如果 strict_shape 设置为 False则它可以具有3维或4维具体取决于底层模型 使用 pred_leaf 且 strict_shape 设置为 True 时 输出是一个4维数组形状为n_samples, n_iterations, n_classes, n_trees_in_forest。 n_trees_in_forest 在训练过程中由 num_parallel_tree 指定。当 strict_shape 设置为 False 时输出是一个2维数组最后3维连接成1维。如果最后一维等于1则会删除最后一维。
对于 R 包当指定 strict_shape 时将返回一个数组其值与 Python 相同 R 数组是列主序的而 Python 的 numpy 数组是行主序的因此所有维度都被颠倒。例如对于在 strict_shapeTrue 的情况下通过 Python predict_leaf 获得的输出有4个维度(n_samples, n_iterations, n_classes, n_trees_in_forest)而在 R 中 strict_shapeTRUE 的输出是 (n_trees_in_forest, n_classes, n_iterations, n_samples)。
除了这些预测类型之外还有一个称为 iteration_range 的参数类似于模型切片。但与实际将模型拆分为多个堆栈不同它只是返回由范围内的树形成的预测。每次迭代创建的树的数量等于num_parallel_tree。因此如果正在训练大小为4的增强随机森林对于3类别分类数据集并且想要使用前2次迭代的树进行预测需要提供 iteration_range(0, 2)。然后将在此预测中使用前 棵树。
提前停止Early Stopping
在使用提前停止进行训练时原生 Python 接口和 sklearn/R 接口之间存在一种不一致的行为。默认情况下在 R 和 sklearn 接口上会自动使用 best_iteration因此预测将来自最佳模型。但是在原生 Python 接口中xgboost.Booster.predict() 和 xgboost.Booster.inplace_predict() 默认使用完整模型。用户可以使用 iteration_range 参数和 best_iteration 属性来实现相同的行为。此外xgboost.callback.EarlyStopping 的 save_best 参数可能会很有用。
基准分数Base Margin
XGBoost 中有一个名为 base_score 的训练参数以及一个 DMatrix 的元数据称为 base_margin。它们指定了增强模型的全局偏差。如果提供了后者则会忽略前者。base_margin 可用于基于其他模型训练 XGBoost 模型。
阶段性预测
使用 DMatrix 的原生接口可以对预测进行阶段性或缓存。例如可以首先对前4棵树进行预测然后在8棵树上运行预测。在运行第一个预测后前4棵树的结果被缓存因此当您在8棵树上运行预测时XGBoost 可以重复使用先前预测的结果。缓存会在下一次预测、训练或评估时自动过期如果缓存的 DMatrix 对象已过期例如超出作用域并被语言环境中的垃圾回收器收集。
阶段性预测
使用原生接口和 DMatrix可以对预测进行阶段性或缓存。例如可以首先对前4棵树进行预测然后在8棵树上运行预测。在运行第一个预测后前4棵树的结果被缓存因此当在8棵树上运行预测时XGBoost 可以重复使用先前预测的结果。如果缓存的 DMatrix 对象已过期例如超出作用域并被语言环境中的垃圾回收器收集则缓存会在下一次预测、训练或评估时自动过期。
In-place预测
传统上XGBoost 只接受 DMatrix 进行预测使用诸如 scikit-learn 接口之类的包装器时构建过程会在内部发生。添加了对就地预测的支持以绕过 DMatrix 的构建这种构建方式速度较慢且占用内存。新的预测函数具有有限的功能但通常对于简单的推断任务已经足够。它接受 Python 中一些常见的数据类型如 numpy.ndarray、scipy.sparse.csr_matrix 和 cudf.DataFrame而不是 xgboost.DMatrix。可以调用 xgboost.Booster.inplace_predict() 来使用它。请注意就地预测的输出取决于输入数据类型当输入在 GPU 数据上时输出为 cupy.ndarray否则返回 numpy.ndarray。
线程安全
在 1.4 版本之后所有的预测函数包括具有各种参数的正常预测如 shap 值计算和 inplace_predict在底层 booster 为 gbtree 或 dart 时是线程安全的这意味着只要使用树模型预测本身就应该是线程安全的。但是安全性仅在预测方面得到保证。如果尝试在一个线程中训练模型并在另一个线程中使用相同的模型进行预测则行为是未定义的。这比人们可能期望的更容易发生例如可能会在预测函数内部意外地调用 clf.set_params()
def predict_fn(clf: xgb.XGBClassifier, X):X preprocess(X)clf.set_params(n_jobs1) # NOT safe!return clf.predict_proba(X, iteration_range(0, 10))with ThreadPoolExecutor(max_workers10) as e:e.submit(predict_fn, ...)隐私保护预测
Concrete ML 是由 Zama 开发的第三方开源库提供了类似于梯度提升类但直接在加密数据上进行预测的功能这得益于全同态加密。一个简单的例子如下
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from concrete.ml.sklearn import XGBClassifierx, y make_classification(n_samples100, class_sep2, n_features30, random_state42)
X_train, X_test, y_train, y_test train_test_split(x, y, test_size10, random_state42
)# Train in the clear and quantize the weights
model XGBClassifier()
model.fit(X_train, y_train)# Simulate the predictions in the clear
y_pred_clear model.predict(X_test)# Compile in FHE
model.compile(X_train)# Generate keys
model.fhe_circuit.keygen()# Run the inference on encrypted inputs!
y_pred_fhe model.predict(X_test, fheexecute)print(In clear:, y_pred_clear)
print(In FHE:, y_pred_fhe)
print(fSimilarity: {int((y_pred_fhe y_pred_clear).mean()*100)}%)参考
https://xgboost.readthedocs.io/en/latest/prediction.html