强化学习基础与经典算法

发表于 2026-06-21 | 分类于 RL | 评论数： | 阅读次数：

强化学习入门，包括基本思想、经典算法（如Q-Learning，DQN，Policy Gradient、Actor-Critic等）。

阅读全文 »

LLM 之 GPT 系列（GPT、GPT2、GPT3、InstructGPT）

发表于 2026-06-07 | 分类于 LLM | 评论数： | 阅读次数：

本文从初代 GPT 开始，总结 GPT 系列（GPT、GPT2、GPT3、InstructGPT/ChatGPT）的发展演变，主要包括模型结构、训练数据、核心创新等。

阅读全文 »

搜广推之延迟反馈建模

发表于 2024-03-24 | 更新于 2024-06-16 | 分类于搜广推 | 评论数： | 阅读次数：

阅读全文 »

搜广推之多场景学习

发表于 2023-07-03 | 更新于 2023-07-14 | 分类于搜广推 | 评论数： | 阅读次数：

阅读全文 »