1: 名無しのメタバースさん 0000/00/00(※) 00:00:00.00 ID:metaversesoku
海外の方でざわついていて,Hugging Faceの創業者なども触れているリーク(というかうっかり?)情報
— 今井翔太 / Shota Imai@えるエル (@ImAI_Eruel) October 30, 2023
ずっと非公開だったChatGPTのGPT-3.5版(gpt-3.5-turbo)のパラメータ数が20B(200億)であるとマイクロソフトの論文で言及されています.https://t.co/1UEuxTGOxT… pic.twitter.com/qsyvqW6QRw
しかし,gpt-3.5-turboと一言にいっても時期によって性能が全然違うので,パラメータ数が最初から一定だったのかどうかは微妙.性能変化はまぁチューニング・RLHFのやり方で説明がつくかもしれないが,…
— 今井翔太 / Shota Imai@えるエル (@ImAI_Eruel) October 30, 2023
※: 本日のおすすめサイト記事一覧 0000/00/00(※) ID:metaversesoku
GPT-4はそもそもモデル構造からして少し特殊だと言われているのですが,おそらく総パラメータ数は1000Bを超えていて,文字通り桁が違うと思われます.
— 今井翔太 / Shota Imai@えるエル (@ImAI_Eruel) October 30, 2023
GPT3.5はGPT3の改良版であり、「性能維持した廉価版」を意図した製品ナンバーと値段になってるようにもみえるが、「turbo」というブランドは「性能維持して高速版」というアピールだったと思えば納得。値段下げないか、「GPT3 Light」とかにしとけば良かったのになあ。
— Yasuo Yamasaki (@yasuoyamasaki) October 30, 2023
これが何を意味するかというと,20B程度なら現在の基準でも頑張れば個人のPC上で動かせるので,割と近いうちにローカルでパーソナライズドなドラえもんChatGPTができるかもという話 https://t.co/saISrb211T
— 今井翔太 / Shota Imai@えるエル (@ImAI_Eruel) October 30, 2023
4: 名無しのメタバースさん 0000/00/00(※) 00:00:00.00 ID:metaversesoku
流石に200Bの間違いではないかと疑っている、20B???ただの0抜けの脱字じゃなくて??? https://t.co/8cvhQ4mMrp
— John K.Happy (@manjiroukeigo) October 30, 2023
僕も疑っています
— Shigekazu Ishihara (@shigekzishihara) October 30, 2023
gpt-3.5-turboのスコア値が175Bのtext-davinci-003より全ての条件で僅かに下回ってることから、恐らく蒸留を使って訓練されたモデルがベースなのかな? https://t.co/tdWZ8fRtNI
— Lyiase (@lyiase) October 30, 2023
Microsoft がどこまで GPT-3.5-turbo にアクセスできてるのか謎なんだけど (GPT 使う一方で OSS モデルも開発してるし) 、20B って値は他では出てきてないからマジでそうなのかもな
— Torishima / INTP (@izutorishima) October 30, 2023
GPT-3.5-turboが20Bでできるなら4bit量子化でご家庭のRTX 4090で動くことになる。これは日本語モデルの大きな手掛かりになるのでは?
— あるふ (@alfredplpl) October 30, 2023
5: 名無しのメタバースさん 0000/00/00(※) 00:00:00.00 ID:metaversesoku
もちろんGPT-3.5からの蒸留があると言う点を考えても現実的な数字だ。とにかく、日本語のそれなりのモデルは一度作らないと20Bで動かすのは無理そうだ。
— あるふ (@alfredplpl) October 30, 2023
Kai INUI氏が予想してた3.5turboのパラメータ数見事に当たっててワロタ
— saldra(サルドラ) (@sald_ra) October 30, 2023
(※このmeetupは4月末開催のもの)https://t.co/9aAU8hzJh7 pic.twitter.com/tCkzClznxb
このmeetupで話されてたものですhttps://t.co/5Yh0gZHBgk
— saldra(サルドラ) (@sald_ra) October 30, 2023
つーか、GPT3.5 のパラメータ数に気を取られてたけど、提案手法の CodeFusion のパラメータ数が桁違いに小さいのに性能高くないか!?
— ぬ (@nkmry_) October 30, 2023
拡散モデルによるテキスト生成もかなりキてるな https://t.co/heyliWCxuc
Microsoftが論文経由でgpt-3.5-turboのパラメータ数をリークしちゃったかも知れない。俺の印象でもcompute-optimalで20B以上必要という感じだったので、コレが真でもおかしくはないと思う https://t.co/Iwr2DRtmnR
— Kyo (@kyo_takano) October 30, 2023
_________________________________________________________________________________
コメントする