RLHF | Notion

概要

OpenAIのChatGPTで取り入れられている。

通常の強化学習ではエージェントが仮想世界を自由に行動し行動と報酬の関係を学習することで成立する。それに対し、RLHFでは生成されたデータの評価を人間が行いニューラルネットワークの微調整に用いている。