1: 名無しのメタバースさん 0000/00/00(※) 00:00:00.00 ID:metaversesoku
【注目】OpenAIに匹敵するオープンソース8Kテキストエンベッディングモデル発表
— ChatGPT研究所 (@ctgptlb) October 26, 2023
Jina AI(ベルリン)は新モデルjina-embeddings-v2を発表。このモデルは、8K(8192トークン)のコンテキスト長を持ち、OpenAIのモデルと同等の性能を誇ると報告されています。
主な特徴:… pic.twitter.com/odelO9rSBK
出典・関連情報
— ChatGPT研究所 (@ctgptlb) October 26, 2023
Jina AI Launches World's First Open-Source 8K Text Embedding, Rivaling OpenAIhttps://t.co/J4LDiPIOcV
※: 本日のおすすめサイト記事一覧 0000/00/00(※) ID:metaversesoku
8Kのコンテキスト長で業界初、OpenAIに匹敵する新世代テキスト埋め込みモデルが発表された。Jina AIのこのモデルは特に法的文書解析、医療研究、文学分析、金融予測、対話型AIなどに有用性が高いとされる。Huggingface上で無料DL可能で、さらに軽量版もある。
— しょーてぃー/Experience Designer (@shoty_k2) October 26, 2023
👇https://t.co/lpcdOcJSE5
8K コンテキスト長を誇る世界初のオープンソース モデル、jina-embeddings-v2 の紹介!#OpenAI の独自モデルの優れた性能に匹敵し、現在は@huggingfaceでアクセス可能であり、テキスト埋め込み の世界における重要なマイルストーンを示しています!#AI #AISAN #jinaAI https://t.co/2whmIwofPU
— AISAN (@AISAN0101) October 25, 2023
言語モデルが増えすぎたので、プロンプトに応じてモデルを選択するフレームワークをカリフォルニア工科大の研究者らが開発しました。
— AIDB (@ai_database) August 25, 2023
○ Surya Narayanan Hari et al. Tryage: Real-time, intelligent Routing of User Prompts to Large Language Models… pic.twitter.com/qWr41ILKMA
— AIDB (@ai_database) August 25, 2023
4: 名無しのメタバースさん 0000/00/00(※) 00:00:00.00 ID:metaversesoku
汎用言語モデル「LLaMA 2」をコード用に追加学習した「Code LLaMA」をMeta社が公開。商用可。コードタスクにおいて、公開モデルでは最高性能。論文ではさらに生成データで微調整した「Unnatural Code Llama」も静かに報告され、HumanEvalでGPT-3.5を大幅に超え、GPT-4に近づくhttps://t.co/Q7fAwJlB79 pic.twitter.com/UmNUZxgSUu
— 小猫遊りょう(たかにゃし・りょう) (@jaguring1) August 24, 2023
「Unnatural Code Llamaは公開しないが、HumanEvalとMBPPに明らかな改善が見られる」とCode LLaMA論文のp.13に書かれてる。巨大言語モデルが生成した指示データセットでCode Llama-Python 34Bを微調整(15,000 unnatural instructions)。
— 小猫遊りょう(たかにゃし・りょう) (@jaguring1) August 24, 2023
unnatural instructions論文↓https://t.co/395p7HGjO4
論文の著者による紹介ツイートhttps://t.co/CyUQIG9FmF
— 小猫遊りょう(たかにゃし・りょう) (@jaguring1) August 24, 2023
Meta AIがLlama2をもとに500B Tokenのソースコードを学習(オープンソースで最大規模)させて、オープンソースの中では最もコーディング能力に優れたCode Llamaを発表!
— bioshok(INFJ) (@bioshok3) August 24, 2023
HumanevalをみるとGPT3.5を超えている。今までオープンソースでコーディング能力高いのStarcoder15Bだったが遂にChat GPT超えか https://t.co/7abxmxBI55 pic.twitter.com/4S8BbDXtXQ
ちなみに、今まで最強だったオープンソースのStar Coder15Bも歴代類を見ないレベルのソースコードの学習量(10^12token!DeepMind ChinchillaやPaLMより多い)で驚きだったが今回Code Llama はそれに及ばずとも近い5×10^11tokenでパラメータが34Bと大きい。https://t.co/2KIZYIA83v
— bioshok(INFJ) (@bioshok3) August 24, 2023
5: 名無しのメタバースさん 0000/00/00(※) 00:00:00.00 ID:metaversesoku
今回のCode Llama はPythonに特化したタイプ「Code Llama -Python」と自然言語命令に従うような「Code Llama Instruct 」の2つのバリアントがある。
— bioshok(INFJ) (@bioshok3) August 24, 2023
すべてのモデルは16kコンテキスト窓でこれもまた、GPT3.5 API 16kと同じレベルになってきてる。 pic.twitter.com/fc7R0045bq
開発者コメント。https://t.co/ESVzVlrihu
— bioshok(INFJ) (@bioshok3) August 24, 2023
https://t.co/OIwSUmJ6fP
— bioshok(INFJ) (@bioshok3) August 25, 2023
去年話題になったUnnatural instructions 論文を使ったUnnatural Code Llama34BはGPT4に肉薄してるのをすっかり見落としていた。
34B凄い。
去年はtext-davinci002を用いて15の人手プロンプトから24万に拡張してたが、今回はGPT4を使用しているのかどうかは記載されてない。
コード用に特化し微調整(LIMA論文、Unnatural instructions論文)や学習の仕方を工夫(Text is all you need論文)すれば、そこそこ小さい言語モデル(この場合34B)でもGPT4レベルの能力になるし、さらにそこに枝刈りや量子化すれば、自宅のPCでローカルに動かせる。これは凄いことでは。
— bioshok(INFJ) (@bioshok3) August 25, 2023
Llama 2からFinetuningしたCode Llamaでた!
— いのいち (@inoichan) August 24, 2023
基盤となるコードのモデルに加えてPython版と言葉の意味をよりいい感じに理解してくれるInstruct版があるみたい👀モデルサイズも7B、13B、34Bあって一番大きいのだとGPT-3.5は超えてそう🤔licenseはLlama2と同じっぽい…。 https://t.co/55Zmg2kjIx pic.twitter.com/uB9fXhBG5T
Code Llama の概要|npaka @npaka123 #note https://t.co/qhGMBFYQQs
— 布留川英一 / Hidekazu Furukawa (@npaka123) August 24, 2023
_________________________________________________________________________________
コメントする