AIの片隅で(3) バオバブ、データセット制作の強みは多言語コミュニティ

最近は、何かのフレームワークでちょっと「AIしてみよう」などと思い立つと「学習済」の係数データなどが一発でロードでき、ものの数分でサンプルプログラムが動いたりします。それで「ちゃんと認識した」などと喜ぶわけです。しかし、そのサンプルの陰には、学習にコンピュータがついやした時間があり、それどころか、学習用のテストセットを作るために「人間」が費やした膨大な時間もあったりします。私も実は小さな学習用のデータセットを作ったことがあるのです。ま、いろいろ小さなプログラムを作ったりして合理化はしましたが、基本は自分の目でみて画像を分類なので、とても面倒くさい、というよりやっていると「飽きる」作業でした。世間にはダウンロード可能な既存データセットもない分けではないですが、大抵は何かコンテストの題材だったりします。自分固有の目的にあったデータセットなど落ちている分けがありません。この手の作成需要があるんじゃないか、と思っていたところ、団員4号から連絡がありました。

テレビでやってるよ、TBSがっちりマンデー!!

“AIの片隅で(3) バオバブ、データセット制作の強みは多言語コミュニティ” の続きを読む