您的位置：首页 > 其它

逻辑回归模型预测ctr

2015-07-22 17:23 169 查看

参考文章：

一些要点：

1.正反例选择：当正反例比例差异较大时，无法得到正确训练结果，需要反例进行抽样（假设反例的数量较多）

2.每天展示->点击记录作为一条训练数据

3.参数影响：训练时参数的影响不大

4.稀疏数据处理：如果是weka，则支持稀疏数据的处理

5.训练数据数量:单个特征最好有5条及以上训练记录（正例），就是100个特征至少有500个以上的训练数据

6.特征选择筛选：低训练数据对应的特征无法得到一个正确的值

7.特征选择（就搜索点击率预测而言）：

用户特征，查询词特征、广告特征、查询词与广告相关性特征等

逻辑回归数据模型特性：

对于数据区间取值的或枚举类型的，应该将该维特征转化为多维特征：如特征值为0~1之间，可以变为0~0.2,0.2~0.4,0.4~0.8，0.8~1.0五个特征

各个维度的特征应该进行归一化处理（取0~1之间的数据）

还存在的问题：

1.低点击率、高展示的词在训练数据中并未被记录：因为按照正反例的比例做抽样，采样中反例丢失数据较多

2.新数据处理：

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航