AIの片隅で(3) バオバブ、データセット制作の強みは多言語コミュニティ

最近は、何かのフレームワークでちょっと「AIしてみよう」などと思い立つと「学習済」の係数データなどが一発でロードでき、ものの数分でサンプルプログラムが動いたりします。それで「ちゃんと認識した」などと喜ぶわけです。しかし、そのサンプルの陰には、学習にコンピュータがついやした時間があり、それどころか、学習用のテストセットを作るために「人間」が費やした膨大な時間もあったりします。私も実は小さな学習用のデータセットを作ったことがあるのです。ま、いろいろ小さなプログラムを作ったりして合理化はしましたが、基本は自分の目でみて画像を分類なので、とても面倒くさい、というよりやっていると「飽きる」作業でした。世間にはダウンロード可能な既存データセットもない分けではないですが、大抵は何かコンテストの題材だったりします。自分固有の目的にあったデータセットなど落ちている分けがありません。この手の作成需要があるんじゃないか、と思っていたところ、団員4号から連絡がありました。

テレビでやってるよ、TBSがっちりマンデー!!

AIの片隅で 投稿順index

しかし、ね、「がっちりマンデー!!」、マンデーというから月曜日なのかと思ったら日曜の朝なのね。いやー、寝てます、この時間、多分。そういうことだから情報を見逃すのでしょう。1月20日放送回で取り上げられていた会社こそ

株式会社バオバブ

でした。AI向けのカスタム・データセットを制作している会社です。このビジネスを始めて3年で年商1億円とか。ちゃんと商売になっていますね。しかし、雰囲気的にはあまりAIっぽくありません。私の偏見なのですが、AIの会社というと、

如何にも頭のキレそうな(実際良いのだ)若い兄さんら

で出来ている。ところが、バオバブさん、私の乏しいAI会社との接点からしてもちょっと成り立ちが違う感じがします。結局、学習用のデータセット(一番多いのは写真データだと思います)は、人間が写真を見て、アルゴリズムに食わせるべき部分を抽出し、それに「言葉」を添えるという作業です。言葉は、状態を表す文章のこともあるし、分類を示す単語(タグ)だったりします。多分、数万、数十万といった単位で実施しなければならない筈。その地道な作業を担っているのが、

在宅で勤務している数百人のパートの人

なのです。当然、ご家庭の主婦の人、多いみたいです。そういうパートの人を「結集」して人海戦術的な方法でデータセット作っているのでした。しかし、それにしても在宅勤務の人の母国語のバラエティが大きいように見えました。ここにこの会社のバックグラウンドがあるようです。小さく書いてあった()を引用させてもらいます。

(旧: 留学生ネットワーク@みんなの翻訳)

これを見ると、留学生のネットワーク、翻訳のバイトみたいなものがどうもバックグラウンドにありそうです。そこから翻訳、言語データ、機械学習、AI用のデータセット作成みたいな方向へと進んで来たのではないでしょうか。(私の勝手な想像です。)その辺から在宅のバイト、パート(Baopartという呼び名をつけています)の活用のアイディアも生まれてきたのではないですか。見れば現在は、広くBaopart募集中みたいです。ネットベースで仕事を出せるシステムが構築できているのだと思います。なかなかやるな、です。確かに注目の1社にあげるに相応しいと思いました。

AIの片隅で(2) 自動運転テストコース、素早いなセンスタイム に戻る

AIの片隅で(4) ラズパイとWSLの上にChainer に進む