满意度预测模型

更多信息参见公众号原文

https://mp.weixin.qq.com/s/IHcioj1-i0HzloSQ3gu7tw

实现意义

结果: 应该把提升用户满意度的钱花在哪个方面,即产品的哪个属性上,然后再哪个属性上应该提升多少,为提升客户对某产品的整体满意度,对用户评论进行分析,判断出用户对产品的哪些属性的满意度较差,提升哪些属性的产品满意度,能显著影响产品的整体满意度。

实现思路

主要分为4个模型

Aspect情感模型

预测属性词在句子中的情感, 标签:积极,消极,中性

整体情感模型

表达对这个产品的整体情感, 标签:整体积极,整体消极,整体中性,无整体情感
eg: 东西还不错,就是洗了脸有点干干的,也洗的很干净

贡献度模型

预测每个aspect对整体情感的贡献度,使用普通线性回归模型,决策树和集成学习模型,深度学习模型分别进行实验
线性回归模型
普通线性回归模型
LASSO回归
Ridge回归
ElasticNet
多项式回归
Bayesian回归
Bayesian ARD回归
主成分回归
偏最小二乘回归

决策树和集成学习模型: 使用特征重要性作为系数, feature_importance_
Decision Tree
Random Forest
GradientBoosting
AdaBoost
XGBRegressor
LightGBM
深度学习

模型的可解释性

基于shapley值的可解释性,探讨属性的重要程度
特征重要性
SHAP的特征重要性是shapley值的大小,或这说绝对值的大小,0表示这个特征可有可无,因为是加性归因,shapley值的特征重要性是累加思想,即每个特征的重要性是可以累加的。
Shapley值是从整体考虑的特征重要性
而原始的XGBoost树模型的特征重要性,是来自该特征在所有树的节点分割中使用的平均增益, 平均增益越大,那么就越重要
表明每个特征在模型内构建提升决策树时的有用性或价值。一个属性特征越是用于决策树的关键决策,其相对重要性就越高
重要性是通过每个属性分割点提高性能指标的量来计算的,性能指标衡量分割点“纯度”,例如信息增益
集成树模型是从局部考虑特征重要性,然后做的加权平均


满意度预测模型
https://johnson7788.github.io/2022/07/04/%E6%BB%A1%E6%84%8F%E5%BA%A6%E9%A2%84%E6%B5%8B%E6%A8%A1%E5%9E%8B/
作者
Johnson
发布于
2022年7月4日
许可协议