满意度预测模型
更多信息参见公众号原文
https://mp.weixin.qq.com/s/IHcioj1-i0HzloSQ3gu7tw
实现意义
结果: 应该把提升用户满意度的钱花在哪个方面,即产品的哪个属性上,然后再哪个属性上应该提升多少,为提升客户对某产品的整体满意度,对用户评论进行分析,判断出用户对产品的哪些属性的满意度较差,提升哪些属性的产品满意度,能显著影响产品的整体满意度。
实现思路
主要分为4个模型
Aspect情感模型
预测属性词在句子中的情感, 标签:积极,消极,中性
整体情感模型
表达对这个产品的整体情感, 标签:整体积极,整体消极,整体中性,无整体情感
eg: 东西还不错,就是洗了脸有点干干的,也洗的很干净
贡献度模型
预测每个aspect对整体情感的贡献度,使用普通线性回归模型,决策树和集成学习模型,深度学习模型分别进行实验
线性回归模型
普通线性回归模型
LASSO回归
Ridge回归
ElasticNet
多项式回归
Bayesian回归
Bayesian ARD回归
主成分回归
偏最小二乘回归
决策树和集成学习模型: 使用特征重要性作为系数, feature_importance_
Decision Tree
Random Forest
GradientBoosting
AdaBoost
XGBRegressor
LightGBM
深度学习
模型的可解释性
基于shapley值的可解释性,探讨属性的重要程度
特征重要性
SHAP的特征重要性是shapley值的大小,或这说绝对值的大小,0表示这个特征可有可无,因为是加性归因,shapley值的特征重要性是累加思想,即每个特征的重要性是可以累加的。
Shapley值是从整体考虑的特征重要性
而原始的XGBoost树模型的特征重要性,是来自该特征在所有树的节点分割中使用的平均增益, 平均增益越大,那么就越重要
表明每个特征在模型内构建提升决策树时的有用性或价值。一个属性特征越是用于决策树的关键决策,其相对重要性就越高
重要性是通过每个属性分割点提高性能指标的量来计算的,性能指标衡量分割点“纯度”,例如信息增益
集成树模型是从局部考虑特征重要性,然后做的加权平均