pythonと自然言語処理を学ぶ日記

pythonと自然言語処理を学ぶ

4,進捗、カブり報告

カブり報告

ヒンドゥー教徒のおでこの赤色の点を、スナイパーのレーザーポインターと勘違いする←ファミリーガイがやってました

今 思いついたカブりは上記だけです。

 

pcの回線を止められ、最近あまり勉強ができませんでした。

色々と実験をしているのですが、恐らく私が作るお笑いAIは、あんまり冗談の生成に関して機械学習を使いません。機械学習を主に使うのは、たとえば「冗談と無関係な辞書」を作る時です。しかもその「冗談と無関係な辞書」、つまり上位語・下位語・共起関係語などのデータを大量に収録した辞書は、既にネット上でいろんな人が無料で公開してます。便利ですね。

つまり私が作ろうとしてたものはお笑いAIというかほとんど「冗談に関係しないclass型オブジェクトとdict型オブジェクトを作るための馬鹿デカい辞書」だった訳です。設計をパクられる可能性が出るので詳細は言えませんが、最近はVScodeの画面を見ながら毎日冗談と全く関係ない作業ばかりしています。

ちなみに私は21歳くらいから何故かどんどん日本のお笑いを面白いと思わなくなり、今作っているお笑いAI、もといお笑いプログラムの教師データもほとんどがシンプソンズに出てきた冗談です。芸人を目指してた頃は、M1やKoCのネタを見て笑えない人を完全に脳に問題があると思って内心差別していましたが…ちなみに私はお笑いコンテンツを、「安打数(=面白いと思ったボケの数)/打数(ボケの数)」の打率で計測しています。シンプソンズは今まで見たエピソードに限定して平均打率2割(s16より後のシーズンは含まず)、かもめんたるは今まで見たネタに限定して平均打率4割です。サウスパークは映画含め0割です。

 

話は変わります。お笑いプログラムを作っていて一つ課題を見つけました。

たとえば映画脚本を大量に学習して、売れる脚本を生成するAIがあるとします。

教師データの脚本に含まれる要素のうち、そのAIが「高く評価している要素のセットA」に運用者が何らかの形で干渉しなければ、そのAIは「セットA」をたくさん盛り込んだ、似通った脚本を量産してしまいます(それでもいいかもしれませんが)。

そのため「セットA」のものよりも劣る要素を強制的に脚本に盛り込ませる等の対策が必要かもしれません。こういう課題が私に起こっています。

また、教師データを部分的または完全に無加工のまま出力して、あるいは過去の作品とほぼ同じ内容のモノを偶然生成して、結果的に何かの作品をパクってしまう可能性もあります(まあ人間が作ったモノで同じ問題が常に起きてますが)。

脚本やメロディと同じく冗談も枯渇します。大抵の脚本が部分的にシェイクスピアと聖書にカブっている訳ですが、脚本以外にも、各種娯楽作品全般のパターンはほとんどが前例を有してしまっている訳です。皆さんがジジババになって死ぬより先に、その枯渇したエンタメ市場に、AIエンジニアが来てとどめを刺します。刺されるより刺したいから毎日作業をしています。これからアーティストはどうなるのでしょうか?