基于内容推荐系统的高层次结构
特征:作为判断条件的一组输入变量,是做出判断的依据
目标:判断和预测的目标,模型的输出变量,是特征所产生的结果
特征工程
- 特征 (feature):数据中抽取出来的对结果预测有用的信息。
- 特征的个数就是数据的观测维度
- 特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程
- 特征工程一般包括特征清洗(采样、清洗异常样本),特征处理和特征选择
- 特征按照不同的数据类型分类,有不同的特征处理方法
–数值型
–类别型
–时间型
统计型
数值型特征处理
- 用连续数值表示当前维度特征,通常会对数值型特征进行数学上的处理,主要的做法是 归一化 和 离散化
Ø幅度调整/归一化
- 特征与特征之间应该是平等的,区别应该体现在特征内部
- 例如房屋价格和住房面积的幅度是不同的,房屋价格可能在3000000 ~ 15000000(万)之间,而住房面积在40~300(平方米)之间,那么明明是平等的两个特征,输入到相同的模型中后由于本身的幅值不同导致产生的效果不同,这是不合理的
数值型特征处理 —— 归一化
数值型特征处理 —— 离散化
Ø离散化
- 将原始连续值切断,转化为离散值
- 让座问题:假设我们要训练一个模型判断在公交车上应不应该给一个人让座,按照常理,应该是给年龄很大和年龄很小的人让座
- 对于以上让座问题中的年龄特征,对于一些模型,假设模型为 y = θx,输入的 x(年龄)对于最后的贡献是正/负相关的,即 x 越大越应该让座,但很明显让座问题中,年龄和是否让座不是严格的正相关或者负相关,这样只能兼顾年龄大的人,无法兼顾年龄大的人和年龄小的人
对于让座问题,我们可以使用阈值将年龄进行分段,将一个 age 特征分为多个特征,将连续值离散化:
ü在电商中,每个人对于价格的喜好程度不同,但它不一定是严格的正相关或负相关,某些人可能就喜欢某一价格段内的商品
Ø离散化的两种方式
- 等步长
—— 简单但不一定有效
- 等频
—— min à 25% à 75% à max
Ø两种方法对比
- 等频的离散化方法很精准,但需要每次都对数据分布进行一遍从新计算,因为昨天用户在淘宝上买东西的价格分布和今天不一定相同,因此昨天做等频的切分点可能并不适用,而线上最需要避免的就是不固定,需要现场计算,所以昨天训练出的模型今天不一定能使用
- 等频不固定,但很精准,等步长是固定的,非常简单,因此两者在工业上都有应用
想要了解跟多关于大数据培训课程内容欢迎关注尚硅谷大数据培训,尚硅谷除了这些技术文章外还有免费的高质量大数据培训课程视频供广大学员下载学习。
上一篇: 大数据培训基于内容的推荐算法
下一篇: 大数据培训项目特征工程型特征处理