top of page
Anchor 1

ChatGTP/GPT-4で利用する強化学習とHACHIX社内での活用方法

はじめに

米OpenAIは、2022年11月にChatGPTというサービスを一般向けに公開しました。公開当初より大きな注目を集め、わずか2カ月で月間アクティビティユーザーが1億人を超えました。そして、2023年3月14日に、新しいバージョンのGPT-4が発表されました。

GPT-4を利用するために、OpenAIが提供する「ChatGPT Plus」に20ドルを支払って申し込むと、GPT-4が利用できます。また、Microsoftが提供する検索エンジンBingでは、GPT-4が無料で利用できます.

ここでは、GPT-4で採用する強化学習技術について、社内で調査した内容を共有します。







人間による強化学習フィードバック(RLHF: Reinforcement learning by human feedback)

GPT-4は言語モデルと人間による強化学習フィードバックの組み合わせを利用しています。言語モデルをそのまま利用する場合、攻撃的な文章を生成しまったり、ユーザーの意図と関係のないことを話してしまうことがある。さらに学習データには様々な偏見や問題のあるデータも踏まれており、これらに影響を受けた文章を生成してしまう。

そのため、モデルがユーザーの意図に沿い、問題のない発言ができるよう、RHLFを採用しています。この学習では、最初はラベラーと呼ばれる人が対話例をつくり、そのを元に教師あり学習で微調整する。次に様々なプロンプト、パラメータ条件下で作った対話生成例に対し、ラベラーがランキングを付ける。このランキング結果を使って、自動評価システムで報酬を与え、それが最大化されるように強化学習によってパラメータを調整する。

強化学習は技術的なポテンシャルがあったものの、なかなか社会にインパクトを与えることができていなかった。それが、今回のGPT-4で採用されて、もっとも産業的に成功した応用例の一つである。


社内での活用方法


HACHIXの社内にも、GPTを積極的に利用しています。利用する場面は

  1. 日本語文書の添削 (メールを送付する前に、gptでチャックしてます)

  2. 翻訳 (日本語 -> 英語、ベトナム語に翻訳)

  3. 汎用的な関数の作成


GPTを有効的に利用するために、最も重要なのはプロンプトです。以下は社内で利用するプロンプトです。

プロンプトのテンプレート

[質問文]

[内容]

[役割] 例:15年経歴のソフトウェア開発のエンジニアとして

[ターゲット】

[キーワード]

[出力フォーマット]マークダウン






Comments

Couldn’t Load Comments
It looks like there was a technical problem. Try reconnecting or refreshing the page.
bottom of page