实现意义

结果：应该把提升用户满意度的钱花在哪个方面，即产品的哪个属性上，然后再哪个属性上应该提升多少，为提升客户对某产品的整体满意度，对用户评论进行分析，判断出用户对产品的哪些属性的满意度较差，提升哪些属性的产品满意度，能显著影响产品的整体满意度。

实现思路

主要分为4个模型

Aspect情感模型

预测属性词在句子中的情感, 标签:积极，消极，中性

整体情感模型

表达对这个产品的整体情感，标签:整体积极，整体消极，整体中性，无整体情感
eg: 东西还不错，就是洗了脸有点干干的，也洗的很干净

贡献度模型

预测每个aspect对整体情感的贡献度,使用普通线性回归模型，决策树和集成学习模型，深度学习模型分别进行实验
线性回归模型
普通线性回归模型
LASSO回归
Ridge回归
ElasticNet
多项式回归
Bayesian回归
Bayesian ARD回归
主成分回归
偏最小二乘回归

决策树和集成学习模型：使用特征重要性作为系数, feature_importance_
Decision Tree
Random Forest
GradientBoosting
AdaBoost
XGBRegressor
LightGBM
深度学习

模型的可解释性

基于shapley值的可解释性，探讨属性的重要程度
特征重要性
SHAP的特征重要性是shapley值的大小，或这说绝对值的大小，0表示这个特征可有可无，因为是加性归因，shapley值的特征重要性是累加思想，即每个特征的重要性是可以累加的。
Shapley值是从整体考虑的特征重要性
而原始的XGBoost树模型的特征重要性，是来自该特征在所有树的节点分割中使用的平均增益, 平均增益越大，那么就越重要
表明每个特征在模型内构建提升决策树时的有用性或价值。一个属性特征越是用于决策树的关键决策，其相对重要性就越高
重要性是通过每个属性分割点提高性能指标的量来计算的，性能指标衡量分割点“纯度”，例如信息增益
集成树模型是从局部考虑特征重要性，然后做的加权平均

满意度预测模型

https://johnson7788.github.io/2022/07/04/%E6%BB%A1%E6%84%8F%E5%BA%A6%E9%A2%84%E6%B5%8B%E6%A8%A1%E5%9E%8B/

作者

Johnson

发布于

2022年7月4日

许可协议

一个transformers报错上一篇

PCA和xlstat 下一篇