Рет қаралды 50,448
AI技術者は泥臭い努力まみれでした。「データ王に俺はなる!!!」「大規模言語モデルに必要な子守りと学校教育」「泥臭い努力でデータの泥を取り除く」など、大規模言語モデル研究者たちの努力について話しました。
【ことラボ】
◯Twitter → x.com/KotoLaboRyo
◯KZfaq → / @kotolabo
【目次】
0:00 データ王に俺はなる!!!
1:02 コモン・クロールは海賊王の上位互換
5:30 データの泥を取り除く
16:58 大規模言語モデルの子守りは大変
20:54 大規模言語モデルにも学校教育が必要
25:23 泥臭い努力が大きなものを生む
29:51 一番恥ずかしい思いをしたのはどっち?
【参考文献】
◯大規模言語モデル入門
amzn.to/3VKqed7
◯大規模言語モデル開発における日本語 Web 文書のフィルタリング手法の検証(榎本 et al., 言語処理学会 2024)
www.anlp.jp/proceedings/annua...
→動画内で紹介した「意味がありそうでない文字列」はここから。
◯ONE PIECE
amzn.to/3VDysCl
◯ichikara-instruction LLMのための日本語インストラクションデータの作成
www.anlp.jp/proceedings/annua...
◯ゲンロン戦記
amzn.to/4ch6xPU
【サポーターコミュニティへの加入はこちらから!】
yurugengo.com/support
【親チャンネル:ゆる言語学ラジオ】
/ @yurugengo
【実店舗プロジェクト:ゆる学徒カフェ】
/ @yurugakuto
【おたよりフォーム】
forms.gle/BLEZpLcdEPmoZTH4A
※皆様からの楽しいおたよりをお待ちしています!
【お仕事依頼はこちら!】
info@pedantic.jp
【堀元見プロフィール】
慶應義塾大学理工学部卒。専門は情報工学。WEBにコンテンツを作り散らかすことで生計を立てている。現在の主な収入源は「アカデミックに人の悪口を書くnote有料マガジン」。
Twitter→ / kenhori2
noteマガジン→note.com/kenhori2/m/m125fc452...
個人KZfaq→ / @kenhorimoto
【水野太貴プロフィール】
名古屋大学文学部卒。専門は言語学。
某大手出版社で編集者として勤務。言語学の知識が本業に活きてるかと思いきや、そうでもない。
Twitter→ / yuru_mizuno
【姉妹チャンネル】
◯ゆる音楽学ラジオ( / @yuruongaku )
◯ゆる民俗学ラジオ ( / @yuruminzoku )
◯ゆる天文学ラジオ ( / @yurutenmon )
◯ゆる書道学ラジオ ( / @yurushodo )
◯ゆる生態学ラジオ ( / @yuruseitai )
◯ゆる哲学ラジオ ( / @yurutetsugaku )
#大規模言語モデル #ゆるコンピュータ科学ラジオ_大規模言語モデル