机器学习模型（Wide&Deep）

2025-07-14

1174

Wide&Deep 是 Google 于 2016 年在论文《Wide & Deep Learning for Recommender Systems》中提出的机器学习模型，旨在解决推荐系统中“记忆性（Memorization）”与“泛化性（Generalization）”的平衡问题。该模型通过融合线性模型（Wide 部分）和深度学习模型（Deep 部分）的优势，在 Google Play 应用推荐等场景中取得了显著效果，成为推荐系统领域的经典模型之一。

一、提出背景与核心目标

在推荐系统中，模型需要同时具备两种关键能力：

记忆性（Memorization）：学习历史数据中直接的、高频共现的特征关联（如“用户A点击过物品B”），用于推荐用户明确偏好的内容。

泛化性（Generalization）：通过学习特征之间的隐性关联（如“用户喜欢的类别与物品类别的潜在匹配”），推广到未见过的特征组合，避免推荐结果过于局限。

传统模型难以同时满足这两种需求：

线性模型（如逻辑回归）依赖人工设计的交叉特征，记忆性强但泛化能力弱，无法捕捉复杂非线性关系。

深度学习模型（如神经网络）通过嵌入层和隐藏层学习高阶特征交互，泛化能力强但可能忽略直接的高频关联，导致“过度泛化”（推荐不相关内容）。

Wide&Deep 的核心目标是融合两者优势：用 Wide 部分保证记忆性，用 Deep 部分增强泛化性，实现“既推荐用户熟悉的内容，又探索潜在感兴趣的新内容”。

二、模型结构详解

Wide&Deep 由 Wide 线性模型和 Deep 神经网络两部分组成，最终通过联合训练输出预测结果。

1.Wide 部分：负责记忆性

Wide 部分是一个线性模型，结构简单，核心作用是通过人工设计的特征交叉捕捉历史数据中直接的共现模式。

核心原理：

输入特征：包括基础特征（如用户ID、物品ID）和交叉特征（如“用户A & 物品B”“用户类别 & 物品类别”）。

特征交叉设计：通过“AND”操作将两个或多个特征组合，例如： `crossed_feature = (user_installed_app=app1) AND (app=app2)` 。该特征用于捕捉“安装过app1的用户是否会点击app2”的直接关联。

输出：线性模型的加权求和结果。

优势：

可解释性强：特征交叉由人工设计，直接对应业务逻辑（如“用户历史行为+当前物品”的关联）。

高效捕捉高频共现模式：对训练数据中频繁出现的特征组合敏感，保证推荐的“记忆性”。

2.Deep 部分：负责泛化性

Deep 部分是一个前馈神经网络，核心作用是通过嵌入（Embedding）和多层非线性变换，学习特征之间的隐性关联，推广到未见过的特征组合。

核心原理：

输入特征：包括稀疏特征（如用户ID、物品ID、类别标签）和稠密特征（如用户年龄、物品评分）。

嵌入层（Embedding Layer）：将高维稀疏的离散特征（如用户ID有百万级取值）映射为低维稠密向量（如16~64维），解决稀疏特征的维度灾难问题。例如，用户ID“123”可映射为一个固定长度的数值向量。

隐藏层：嵌入向量与稠密特征拼接后，通过多层全连接神经网络（如2~3层隐藏层）进行非线性变换，学习高阶特征交互。例如，通过隐藏层学习“用户年龄+物品类别+历史点击时长”的隐性关联。

输出：神经网络经过多层变换后的结果。

优势：

泛化能力强：无需人工设计交叉特征，通过神经网络自动学习特征间的隐性关联，可推荐训练数据中未直接出现的组合（如“喜欢科幻电影的用户可能喜欢科幻类游戏”）。

处理高维稀疏特征：通过嵌入层将稀疏特征转化为稠密向量，降低计算复杂度。

3.联合训练与输出

Wide 部分和 Deep 部分的输出通过加权求和结合，最终通过 sigmoid 函数输出预测概率（适用于二分类任务，如点击率预测）。

训练细节：

联合优化：同时训练 Wide 和 Deep 部分的参数，目标是最小化损失函数（如交叉熵损失）。

优化器选择：

Wide 部分：使用带 L1 正则的 FTRL 优化器（适合稀疏特征，增强模型稀疏性）。

Deep 部分：使用 AdaGrad 优化器（适合稠密特征的梯度更新）。

三、应用场景

Wide&Deep 模型凭借“记忆性与泛化性平衡”的核心优势，自 2016 年由 Google 提出以来，已在各类需要精准预测用户偏好的场景中得到广泛应用，尤其在推荐系统、搜索排序和广告投放等领域表现突出。

Wide&Deep 模型的应用场景核心共性是：需要在“已知偏好的精准匹配”和“未知偏好的有效探索”之间取得平衡。其“Wide 部分保记忆，Deep 部分强泛化”的双路径结构，使其在推荐系统、搜索排序、广告投放等领域成为工业界的主流选择之一。尽管后续衍生出 DeepFM、DCN 等优化模型，但 Wide&Deep 因其简洁性和可解释性，至今仍在中小规模场景或快速迭代业务中被广泛使用。

1.应用商店推荐（最初落地场景）

Wide&Deep 最早被应用于 Google Play 应用商店，用于优化应用推荐效果：

核心任务：预测用户对应用的点击、安装或留存概率。

Wide 部分作用：通过人工设计的交叉特征（如“用户已安装应用A & 待推荐应用B”“用户所在地区 & 应用类别”）捕捉直接关联，例如“安装过健身类应用的用户更可能点击饮食类应用”。

Deep 部分作用：通过嵌入层学习用户属性（年龄、兴趣标签）和应用特征（类别、评分、下载量）的隐性关联，推荐用户未安装过但潜在匹配的新应用（如“喜欢策略游戏的用户可能对模拟经营游戏感兴趣”）。

效果：显著提升了应用的点击率和安装转化率，解决了传统推荐“过度重复推荐同类应用”或“推荐完全无关应用”的问题。

2.电商平台推荐

在电商场景中，Wide&Deep 常用于商品推荐的全链路优化，覆盖从首页推荐到详情页关联推荐的多个环节：

核心任务：预测商品点击率（CTR）、加购率、转化率（CVR）或复购率。

典型应用环节：

首页个性化推荐：为用户推送“既熟悉又可能感兴趣”的商品，例如结合用户历史购买的“衬衫”（记忆性）和潜在匹配的“领带”（泛化性）。

商品详情页“猜你喜欢”：基于当前浏览商品，推荐互补品（如“手机→手机壳”，由 Wide 部分捕捉）和相似替代品（如“品牌A手机→品牌B同配置手机”，由 Deep 部分挖掘）。

促销活动推荐：针对大促场景，通过 Wide 部分强化“历史参与过同类活动的用户”与当前活动的关联，同时通过 Deep 部分扩展到新用户群体。

特征设计：Wide 部分常用“用户ID & 商品ID”“用户购买类别 & 商品类别”等交叉特征；Deep 部分则处理用户画像（年龄、消费等级）、商品属性（价格、品牌、销量）等稀疏/稠密特征。

3.内容推荐（新闻、视频、音乐等）

在内容类平台中，Wide&Deep 帮助解决“内容多样性与相关性平衡”的问题：

核心任务：预测用户对内容的点击、停留时长、点赞或分享概率。

新闻推荐：

Wide 部分：通过“用户历史点击的新闻主题 & 当前新闻主题”（如“科技→人工智能”）捕捉直接兴趣关联。

Deep 部分：学习用户隐性偏好（如通过阅读时长、评论关键词推断的潜在兴趣），推荐未浏览过但主题相关的新闻（如“喜欢新能源汽车的用户可能对电池技术新闻感兴趣”）。

视频/音乐推荐：

Wide 部分：强化“用户反复观看的视频类型 & 同类新视频”的关联（如“反复观看悬疑剧→新上线悬疑剧”）。

Deep 部分：通过用户画像（如年龄、性别）和内容特征（如演员、风格标签）的嵌入交互，推荐跨类别但潜在匹配的内容（如“喜欢科幻电影的用户可能喜欢科幻小说改编的视频”）。

4.搜索排序场景

在搜索引擎中，Wide&Deep 用于优化搜索结果的相关性排序，提升用户搜索体验：

核心任务：预测“搜索query→结果item”的相关性得分，确保排序结果既匹配用户明确需求，又覆盖潜在需求。

应用逻辑：

Wide 部分：通过“query关键词 & item标题关键词”的交叉特征捕捉直接匹配（如搜索“篮球鞋”时，优先展示标题含“篮球鞋”的商品），保证搜索结果的“准确性”。

Deep 部分：学习query的隐性意图（如“篮球鞋”可能隐含“高帮、耐磨”等需求）和item的隐性特征（如商品材质、用户评价标签），推荐未直接匹配关键词但符合潜在需求的结果（如“专业运动鞋”），提升搜索结果的“丰富性”。

典型场景：电商搜索（如淘宝、京东）、内容搜索（如抖音、B站搜索）、本地生活搜索（如美团搜索“火锅”时推荐相关菜系）。

5.广告推荐与投放

在广告系统中，Wide&Deep 用于优化广告的精准投放，提升广告点击率（CTR）和转化率（CVR），降低投放成本：

核心任务：预测用户对广告的点击意愿、购买意愿，或广告转化价值（ROI）。

应用逻辑：

Wide 部分：通过“用户历史点击广告类型 & 当前广告类型”“用户所在地区 & 广告投放地区”等交叉特征，锁定高转化概率的“熟用户”（如多次点击护肤广告的用户优先推送同类新品）。

Deep 部分：通过用户行为序列（浏览、收藏记录）和广告特征（创意素材、落地页内容）的嵌入学习，挖掘潜在转化用户（如从未点击过母婴广告，但近期浏览育儿内容的用户）。

优势：在保证广告投放“精准性”（记忆性）的同时，扩大有效触达范围（泛化性），尤其适合新品推广或用户增长阶段。

四、模型优势与局限性

1.优势

平衡记忆与泛化：Wide 部分保证对历史高频关联的记忆，Deep 部分实现对新特征组合的泛化，解决“推荐重复”和“推荐不相关”的问题。

灵活性高：可根据业务需求调整 Wide 部分的特征交叉和 Deep 部分的网络结构。

可解释性与性能兼顾：Wide 部分的人工特征交叉保留可解释性，Deep 部分保证预测性能。

2.局限性

依赖人工特征工程：Wide 部分的特征交叉需要领域知识设计，若设计不当会影响记忆性。

调参复杂度高：Deep 部分的嵌入维度、隐藏层数量/大小等超参数需大量实验优化。

计算成本较高：相比纯线性模型，联合训练需要更多计算资源，尤其在特征规模极大时。

五、后续发展与变体

Wide&Deep 的“线性+深度”融合思想为后续模型提供了启发，衍生出多个优化变体：

DeepFM：用 FM（因子分解机）替代 Wide 部分的人工特征交叉，自动学习低阶特征交互。

DCN（Deep & Cross Network）：通过交叉网络（Cross Network）替代 Wide 部分，自动学习高阶特征交叉，减少人工依赖。

Wide&Deep+：引入注意力机制或动态特征选择，进一步优化特征权重分配。

点赞数：13