1: 名無しのメタバースさん 0000/00/00(※) 00:00:00.00 ID:metaversesoku
こちらのカクヨムのデータセットですが、KADOKAWAの要請により削除されたようです。https://t.co/pJrzAOGEob https://t.co/8zr76pB5G9
— ペンギン (@penpengin2023) May 16, 2024
小説界隈は無許諾データセット削除が迅速ですね
— みや (@miyamoyame) May 16, 2024
それ自体はいいことだけど物書き界隈はAI受け入れてるぜ!と言いながら同じく無許諾データセットから出力されたAIイラスト表紙や挿絵に使ってたのは... https://t.co/p6Q5BvrI7U
※: 本日のおすすめサイト記事一覧 0000/00/00(※) ID:metaversesoku
3: 名無しのメタバースさん 0000/00/00(※) 00:00:00.00 ID:metaversesoku
しかしこれで解決、という訳では無くローカル環境にデータセットをダウンロードして利用してる人もいると思われます。
— ガンかん (@874a0g6ooFbbNaB) May 16, 2024
そういった物にどう対処するのか、その辺りも追及して欲しいものです。 https://t.co/TeqQMpe3yO
カクヨム作品約12万を無断スクレイピングしてデータセット作った件への対処に関してどうせカクヨム運用は動かないんだろうな報告したにも関わらずあまりにも鈍足過ぎる
— 上代 (@3124ux5) May 9, 2024
他からも絶対報告されてるだろうに
朗報。カクヨム作品、約12万作品の無断スクレイピングによって作られたデータセットが削除されました
— 上代 (@3124ux5) May 15, 2024
とりあえず良かった https://t.co/HCAUGJutS2
カクヨムもなろうも無断で機械学習されてデータセット化されてるのか
— いづ (@gold_9_tail) May 1, 2024
腹立つなー https://t.co/jeiNZpo6o7
4: 名無しのメタバースさん 0000/00/00(※) 00:00:00.00 ID:metaversesoku
ストックマークは、1000億パラメータの日本語LLMモデル「Stockmark-100b」を公開しました。
— 有馬幸介/Stockmark (@kosukearima) May 16, 2024
既存のモデルにデータ追加を行いチューニングしたものではなく、ゼロからフルスクラッチで開発したモデルであり、国内では(現状はダントツで)最大、グローバルでも最大級サイズのOSSモデルとなります。…
モデル公開と併せて、弊社ストックマーク LLMの紹介サイトもオープンしました。引き続きアップデートしていきます。 https://t.co/lfBY28XLu3
— 有馬幸介/Stockmark (@kosukearima) May 16, 2024
すごい!頼もしい☺️
— 田中 剛 // デジタルコンサルタント (@crossfader) May 16, 2024
ストックマークがビジネスで使える1,000億パラメータの日本語LLMモデルを公開しました!
— 田中和生 | ストックマーク CMO🐿 (@t_kazuo1984) May 16, 2024
※本日の日経新聞の朝刊にも掲載頂いております!
合わせて、Stockmark LLMの情報をお届けするサイトを公開しております。https://t.co/FgujQGmBss
ビジネスサイドの皆様もこちらをご覧頂けると幸いです! https://t.co/0VHNdwStNs
産総研xストックマーク共同研究の成果、フルスクラッチで学習した100B級日本語LLMを公開しました。他の継続学習型のLLMと多様なタスクで比較すると、それぞれの特徴が分析できて良いです。13b級と合わせ、ベースラインの一つとして使ってもらえると嬉しいです:https://t.co/TJMD3Yrsqs https://t.co/u8WEG0iEwE
— イバドラ (@ibadora) May 16, 2024
1000億パラメータの日本語LLMを公開してます!
— Motokazu Nishimura (@motokazu) May 16, 2024
ワクワクでいっぱいです!
サイトはこちら。https://t.co/Pm4Hn8eom2 https://t.co/AfILo1j8A6
100bのLLMがMITライセンスで公開されるのがすごい…
— Aratako (@Aratako_LM) May 16, 2024
Mixtral-8x22Bで合成データセットを作るのが盛んですが、性能次第ではこっちに移行することもあり得そうですね(ただし推論コストはこちらの方が高いですが)
5: 名無しのメタバースさん 0000/00/00(※) 00:00:00.00 ID:metaversesoku
— ペンギン (@penpengin2023) April 27, 2024
こちらは、なろう小説APIおよびなろうR18小説APIにおける複数ジャンルで訓練したモデルだそうです…
— ペンギン (@penpengin2023) April 27, 2024
なろう小説は公式APIがあるのか…(おそらくスクレイピングする用のものではないだろうけれど)→https://t.co/UWyGWbix1Yhttps://t.co/zGejexHFCA
ヤベーな……
— 龍の卵 (@Ryu_no_tamago) April 27, 2024
なろう、カクヨム、渋、ここにはないけど、ハーメルンもらしいね https://t.co/B8QDO41W7m
つーか カクヨムって
— 朽葉こど kutiba kodo (@CodMonoProduct) April 28, 2024
クローラー対策してないのか、、、
かなりデータセット問題が
明るみに出てる時期なんだけど https://t.co/ZcAoiUDN3B
カクヨムから無断収集したデータセットです。
— 無断合成反対派 (@laz75n) April 29, 2024
カクヨムの規約で禁じられています。https://t.co/2zIhPmBrddhttps://t.co/QsMx6JjzPc
_________________________________________________________________________________
コメントする