Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                
SlideShare a Scribd company logo
情報科学若若⼿手の会2011 招待講演
2011/09/17 @ 熱海




    研究・企業・⽣生き⽅方について


        株式会社Preferred Infrastructure
                岡野原  ⼤大輔
           hillbig@prferred.jp



今回の発表内容は個⼈人の意⾒見見であり、
会社の意⾒見見ではありません
はじめに

l    招待講演の話を頂いた時、どういうテーマにすればいいか悩んだ
      l  幅広いバックグラウンド、年年齢、スキル、興味分野を持った⼈人に対

          してどういう話をすればいいのか?
      l  それならば参加者が聞きたい質問を集めて、それを回答するような

          形にしよう


l    みなさんから頂いた質問(26問)、全てに回答するようにします
      l  ⼀一つのテーマに沿った話ではなく、Q&Aのような形になりました

            l    ⼀一つのメッセージを伝えよというプレゼンの鉄則から外れてます
      l    どれか⼀一つの話でも参考になっていただければ幸いです
      l    途中の質問を受け付けます
            l    全部の後だと忘れちゃうので、テーマ終了了毎にも受け付けます
三つのテーマに沿って話します

l  研究
     l  専⾨門分野系(⾃自然⾔言語処理理、機械学習、アルゴリズム等)

l  企業
     l  会社の話  (株式会社Preferred Infrastructure)

     l  研究とビジネスの話

l  ⽣生き⽅方
     l  個⼈人・研究者・博⼠士課程として
⾃自⼰己紹介

l  名前:岡野原  ⼤大輔
l  福島県⽴立立磐城⾼高校⇒東京⼤大学理理科⼀一類⇒東京⼤大学情報科学科
    ⇒ 情報理理⼯工学系研究科コンピュータ科学修⼠士、博⼠士 2010年年3⽉月卒
l  株式会社プリファードインフラストラクチャー 2006年年3⽉月創⽴立立
    l  特別研究員として、研究開発チームのリーダーをしています

    l  仕事の内容などは後で詳しく



l  twitter @hillbig
l  HP: DO++  1992〜~2004(今はもうパスワードも分からない)
l  http://research.preferred.jp/work  に最近の業績
経歴

l  福島県いわき市出⾝身(東⽇日本・東北北復復興を応援しています!!)
l  ⼩小学⽣生  ニフティサーブのフォーラムに⼊入り浸る
     l  データ圧縮やCG、探査機シミュレーションを作って楽しむ

l  中学⽣生〜~⾼高校⽣生
     l  インターネットを楽しみつつ、部活動(陸陸上・ラグビー)に熱中

l  ⼤大学
     l  未踏に落落ちるが未踏ユースに拾拾ってもらう。

     l  データ圧縮⇒⾃自然⾔言語処理理⇒機械学習⇒データ構造

            l    最終的に未踏ユース1本、未踏2本
      l    ⼤大学4年年〜~修⼠士2年年、バイオベンチャーのバイトで、遺伝⼦子設計のシ
            ステムなどを作る
経歴(続)

l  修⼠士⼆二年年の時、友⼈人達と株式会社プリファードインフラストラク
    チャーを創業
l  学業と仕事の⼆二⾜足の草鞋⽣生活が2010年年まで続く
     l  昼は研究室、⼣夕⽅方以降降は会社

     l  午前営業、昼学校、⼣夕⽅方営業、夜会社、深夜ファミレスで論論⽂文書き

     l  会社業務も研究活動も⽇日に⽇日に忙しくなっていく

     l  最後の頃は卒業式を忘れていて、私服で参加

l  2010年年4⽉月からフルタイム
     l  研究開発チームリーダーとして、お客様と共同研究をしたり、製品

         開発チームと⼀一緒に作ったり
      l    仕事は何でもやりました
テーマ1. 研究
Q.1 NLP(⾃自然⾔言語処理理)とは?

 l    ⾃自然⾔言語(⼈人が書いたり、話したりする⾔言語)をコンピュータで処
       理理する分野.⾔言語が絡んでいたら何でも良良い
        l  基礎から応⽤用・理理論論からアプリまで幅は⾮非常に広い

基礎
          単語分割    構⽂文解析    意味解析    辞書構築


          ⽂文書分類   ⾃自動要約    情報抽出    著者推定


          機械翻訳    ⾳音声認識識   情報検索索   質問応答
応⽤用
Q.2 NLPの⾯面⽩白さは?

  実⽤用的:世の中の殆どの情報・知識識が⾃自然⾔言語で表されている
l 
   l  「昨⽇日のラグビーW杯で⽇日本はNZに80点差で敗れた」

   l  世の中の○○%のデータが構造化されていない⾃自然⾔言語データ

⇒⾃自然⾔言語を処理理できれば、世の中の殆どの情報・知識識を処理理できる


l    研究的:⼈人は⾔言語を扱えるのに、どう実現しているか分からない
      l  ⼈人がどのように⾔言語情報を処理理しているのか未だ殆ど不不明

      l  特に⺟母語の学習は、学習速度度の速さ、ルールを与えず正例例だけを与

          えているのに学習できるということろが謎
      l  ⼈人は⾔言語を無意識識で扱っている.違うのは分かる.でもなぜ違うの

       か説明できない.謎解きのような楽しみ(⾃自然科学?)
Q.3 NLPの現在について

l  統計的⾃自然⾔言語処理理が主流流
     l  ⼤大量量の⾃自然⾔言語データを元に、様々な知識識やルールを⾃自動で獲得

     l  (⾃自然⾔言語の)専⾨門的知識識が無くても作れるようになってきた.

     l  例例:⽂文書分類  昔はルールを使って書いていたが、今は分類済の正

         解データ、もしくはルールの種を元に分類ルールを⾃自動獲得可能
l  研究的には統計的機械翻訳が多くなっている
     l  主流流学会であるACL, EMNLPでは機械翻訳の論論⽂文が多くを占める

     l  研究に必要なリソース・ツールが揃い、問題・課題も豊富

l  ⽇日常⽣生活で不不可⽋欠になっているNLP技術も多い
     l  情報検索索・⾳音声認識識・かな漢字変換

      l    例例: ⽂文書レコメンドがasahi.comでは1ヶ⽉月5億PV動いている
      l    NLP技術の中には実⽤用化が可能なものがゴロゴロ眠っている
Q.4 統計的機械翻訳は、いつ実現するのか?

l  機械翻訳はNLPの最古かつ最⼤大の課題の⼀一つ
l  少しずつ前進してきた
l  特定⾔言語間・特定ドメインで成功
    l  英語⇔スペイン語などは移⺠民が多い地区では既に多⽤用されている

    l  特定ドメイン:医療療、特許、法務、マニュアル、ニュース

    l  翻訳元⽂文書、翻訳先⽂文書に制約がある形なら精度度も担保できる

l  今後の普及にはビジネス的に成功することも必須
    l  基本的に精度度は投資額・研究投資コストと⽐比例例している

        昔:⽇日本語,ロシア語<->英語、今:中国語,アラビア語  <-> 英語
    l  ビジネスで成功し、研究開発費が出せるようになれば変わる

l    翻訳を⼿手助けする情報抽出・翻訳補助・⾃自動校正なども重要に
Q.5 ⾃自然⾔言語処理理は今度度どのようになっていくか

l  統計的機械翻訳の研究はまだしばらく続く
     l  課題・⼿手法はまだたくさん出そう。研究的にはレッドオーシャン?

l  ヒトの⾔言語処理理の仕組みが解き明かされるか?
     l  ⼈人がどうしているかは分からないままかもだが、⾔言語処理理の仕組み

         は⾃自動獲得できそう
l  新しい⾃自然⾔言語リソースとそれを利利⽤用した研究も続く
     l  ヒトが活動する限り⾔言語リソースの量量、種類は増えていく

l  ⾃自然⾔言語処理理の実⽤用化を本気で進める企業は増えていく
     l  ⼿手法をユーザーの課題を解決する製品に。

     l  ユーザーの課題をどのように解決できるのかを本気で考える必要が

            ある(これは研究というよりはビジネス側の責任・仕事)
      l    ⽂文書分類・⾃自動要約・著者推定・評判分析・⾳音声認識識などたくさん
Q.6 ⾃自然⾔言語処理理の将来の技術は?
勝⼿手に考えてみた今後の肝となる技術
l  情報・知識識の名寄せ
     l  複数の情報源(辞書・コーパス)を組み合わせて新しい情報を作る

         (固有名詞の属性付け)、Google Squareで合体できたら嬉しい
     l  単語や⽂文の意味は分からないが、それらをマッチさせたり、融合さ

         せたりすることは機械的にできそう
     l  ヒトは⼤大量量のデータをまとめて処理理するのは苦⼿手.機械が活躍可能

l  ⽂文解析、構⽂文解析の復復権
     l  今までは構⽂文解析は、正直役⽴立立っていなかった印象が近年年のIBM

         Watsonの話のように、全て真⾯面⽬目にやったらうまくいく
     l  更更に⾼高速・⾼高精度度・ロバストな解析システムが求められる

l    ツール・リソースを整理理・管理理する仕組みが必要
      l  各グループが独⾃自に開発するのではなく、業界全体の協⼒力力が必要
Q.7 知的エージェントについて

l  IBM Watsonはクイズ(質問応答)において、「ドメインを絞る」
    「良良質なデータをたくさん使う」「理理解はできないが、⼀一致度度は測
    れる」ことによりクイズ世界チャンピオンに勝てることを⽰示した
l  同様に、ドメインを絞ったり、⼈人の実現⽅方法と違う形で知的⾏行行為を
    実現することで、⼈人以上のことはできる可能性は⾼高い
     l  ヒトの⾔言語の理理解、知識識の理理解は平衡した課題



l    これまでは情報増やす+データの網羅羅性が鍵
      l  単純な⼿手法でも、より多くの単語・知識識をカバーすればうまくいく.

          「量量が質を変える」
l    より深い処理理が必要ではるが、いつ実を結ぶかはまだ不不明瞭.
Q.8 機械学習とは?

l    データを元にそこから知識識やルールを獲得する⼿手法・理理論論群
      l  先程の⾃自然⾔言語処理理は機械学習を利利⽤用している



l  覚えておくとよい⼤大きな枠組み
l  教師有学習
    l  ⼊入⼒力力データxと出⼒力力データyからなる訓練データ集合{(xi, yi)}を元に、

        ⼊入⼒力力から出⼒力力への関数f(x)を学習する.分類、回帰など
l  教師無学習
    l  ⼊入⼒力力データの集合{xi}から、背後にあるモデルを学習する、クラス

        タリングなど
l    教師有はデータに⽬目的が組み込まれているのに対し、教師無の場合
      はモデルに⽬目的が組み込まれている場合が多い
Q.9 機械学習は今後どのようになっていくか?

l  ⼤大規模データ解析は流流⾏行行中
     l  BigDataと呼ばれる1Tb〜~1PB級の研究のほかに、殆どのユーザー

         が出会うサイズの1MB〜~1GB級の研究も進むだろう
l  ツールとデータは揃っていく
     l  全く機械学習を知らないエンジニアがツールとデータを組み合わせ

         てアプリケーションを作る時が来る
     l  必要なデータを選択してアレンジしたり、データ作成・収集を専⾨門

         とするようなデータアキュレーターも流流⾏行行るだろう
l  ⼈人の作業がシステム内部に介在するような研究も盛んに
     l  ユーザーのフィードバックをどのように得るかが組み込まれる



l    各分野では特徴抽出の技術が更更に進む
l    ユーザーやアプリケーションが機械学習の結果をどのように扱って
      いくかを考えないといけない
      l  ⾮非決定的動作をする、巨⼤大なブラックボックスの機械学習システム

      l  天気予報が近い.中で何をやっているかは分からないが、結果が

          「晴れのち曇り  降降⽔水確率率率30%」のようにでてくる
      l  これまでのシステムは決定的、曖昧性が無いデータを扱ってきたが、

          こうした機械学習の結果をどのように取り込めるだろう


      l    ビジネス的には:開発・テスト・仕様書・運⽤用はどう変えればいい
            のだろうというのは気になる
Q.10 どういうデータがあれば、どういうことがで
きるようになるか
l    正解さえあれば、⼊入⼒力力から出⼒力力を何でも予測することはできる*1
      l  遺伝⼦子解析、⾦金金融、⽯石油探査、⼈人事評価、⾃自動⾞車車⾛走⾏行行

      l  ⼈人をより深く分析することも可能 c.f. [linkedin KDD 2011]

            l    性別・年年齢・趣味・職業・年年収・家族構成
      l    知識識を演繹することも可能ある程度度可能
l    今後、⼈人しかできないと思われている専⾨門領領域でも利利⽤用される
      l  医療療、法務、教育、コンサル、(政治?SFだが)




*1 ⼊入⼒力力と出⼒力力に関係があればという条件付き.
Q.11 データを作る⽅方法はどのようなものが実現で
きるか
l  Amazon Mechanical Turks (クラウドソーシング)
     l  依頼主が仕事を設定し、作業者達が⼊入札し作業をする

     l  ⽟玉⽯石混淆のデータから質のよいデータを抽出する技術は急速に進む

l  ありとあらゆるものにセンサがつき名寄せされる
     l  ⼩小売情報(POSデータ)、デバイス情報、ウェブページ上での⾏行行動

     l  しかし、古い業種であるほど動きは遅くリスクは取りたがらない

     l  これらには個⼈人情報が無い場合や、カードなどの個⼈人情報があって

         も使えない場合が多い.倫倫理理⾯面、セキュリティ⾯面のサポートが必要


l    データを専⾨門に作り、販売する企業が出てきてもおかしくない
      l    質のよいデータを⼤大量量に低コストで作れる会社があれば、それを利利
            ⽤用したい企業は多いはず (Windows Azure Dataなど)
Q.12 今のデータ処理理のボトルネックはどこなのか.

l    データ変換コストは無視できないほど⼤大きい
      l  JSON -> 特徴ベクトルなど

      l  スキーマ付のデータをparseする部分が処理理時間の半分

      l  単純な並列列性がある場合が多いので、マシンを並べれば可能



l    (ちょっと違うが)開発コストが⼤大きい
      l  MapReduce、なんとかGraphなどフレームワーク・システムがた

          くさん出てきているが、それらを使いこなせる⼈人はごく⼀一部
      l  コードの⾃自動⽣生成、



l    構造付データ(JSONで良良い)で並列列に書き込み、読み込みができ
      て、分散して保存されるものが欲しい
Q.13 これだけは知っとけアルゴリズムはあるか?

l    最近注⽬目している⽅方法でみなさんに役に⽴立立つかもしらない順番に
      l  ⼤大規模データの近傍探索索

             l    knndecent, anchor graph hash, minhash, succinct NNG
      l    ベイズ学習全般(基本的なツールとしてどこでも使われている)
      l    オンライン学習、オンライン凸最適化、regret最⼩小化、(今度度
            IBIS2011で招待講演をします)
      l    簡潔データ構造(今ジャーナルで解説記事を書いています)
      l    透過的データ圧縮(好きな場所から定数時間で復復元可能)
      l    Burrows Wheeler変換とその周辺の技術
      l    最近のLZ parsing (LZEndなどと構築⼿手法)、全⽂文索索引
私からのメッセージ
数学、統計などの基礎⼒力力が⼤大事
l    ⼿手法やアルゴリズムはどんどん変わる.ずっと追い続けておくため
      には基礎体⼒力力がなにより⼤大事


l    学部時代に勉強しなくても、その後勉強すれば良良い。必要に迫られ
      て勉強した⽅方がよい
      l  その時、理理解ができなくて⾝身につかなかったとしても、後で同じ技

          術に再度度出会った時の理理解は速い
      l  ノンパラベイズは⼆二度度挫折したが、三度度⽬目で理理解した



l    短期的な投資はジリ貧になる.⻑⾧長期的な投資は怠るな.
      l    研究開発はマラソン.30年年⾛走り続けられる投資を
Q.14 研究について

l    他の⼈人ができなくて(気づいていなくて)みんなに役⽴立立つものが良良
      い.みんなが知っていて流流⾏行行っているものをやっても意味がない
      l  レッドオーシャンよりブルーオーシャン



l    本に書いてあったら多くの⼈人が知っていると思え
      l  そこに書いてあることを改良良する程度度の研究はもうすでにやられて

          いる.本書いた⼈人達は遙か先を⾏行行っている
      l  異異分野からの技術導⼊入をしない限り、正⾯面から戦うのは難しい

      l  研究としては終わっている可能性も⾼高い

      l  追いついて、抜かそうと思ったら数年年は頑張れ
勉強!勉強!勉強!

l    研究をするためにはまず既存の研究を知らなければいけない
      l  新しいと思ったこと、いいなと思ったことはまずやられている

            l    会社なら更更に。
      l    本や論論⽂文で書いてあるなら、まず読んで知っているのが必要条件.
            本は、研究成果が濃縮されて体系化されており効率率率的に勉強できる
      l    同じ分野、周辺分野の論論⽂文、成果も可能な限り調べる
            l    調べることができる能⼒力力は最重要
      l    ここまでやってはじめて次の⼀一歩に出ることができる
l    勉強は継続しなければいけない.⾃自分ができるところは全問題の⼀一
      部分だけであり、全てを理理解することは⼀一⽣生ない.だから楽しい
      l    ⾃自分は研究コミュニティの⼀一部.巨⼈人の肩に乗る.
      l    ⾃自分の屍を超えていけ
もっと妄想を!

l  妄想⼒力力はイマジネーションの原動⼒力力
l  5年年後、10年年後に世界がどうなっていて、その時の世界に必要な
    技術を考えられているか?
    l  妄想は現時点では「狂っている」と思えるぐらいがちょうど良良い

            l    それほど、これまでの世界は急激に変わってきた
      l    それを達成するために今どの⽅方向に向かえばいいかを考えれば良良い
l    例例:
       l  データ総量量は年年60%増、10年年後は今の100倍になる.その時、モ

           バイルで1TB扱えるようになるが、その時に必要になる技術は?
       l  ⾳音声認識識、質問応答は実⽤用化に近づいた。10年年後には、機械翻訳、

            ⾃自動要約などの技術も何らかの形で実⽤用化している.その時、産業
            はどうなる?仕事、教育、娯楽、医療療はどうなる?
テーマ2. 企業
話をする上での背景知識識

l    株式会社プリファードインフラストラクチャー(PFI)は主に会社
      向けに商売をしています(B2B)
Q.15 PFIにおけるNLPやデータ圧縮技術の適⽤用先と、
実際に適⽤用した技術や⼿手法
l    ⾃自然⾔言語情報を扱っているお客さんは全部
       l  メディア系

            l    NHK, 朝⽇日新聞、⽇日経BP、商品検索索サイトなど
      l    業務系
            l    社内⽂文書は膨⼤大な量量があり、それらを整理理する必要がある
      l    マーケティング分析系
            l    世の中でどういったものが話題になっているか
            l    この商品、ニュース、⼈人はどのように問われているか
      l    研究開発業務(実はすごく多い)
            l    殆どが⾮非公開
            l    どういう業種の⼈人がどういう⽬目的でやっているか全部秘密
Q.16 ⾃自然⾔言語処理理の利利⽤用現場について知りたい
(1/3)
l  ⾃自然⾔言語があるところならどこでも
l  検索索エンジンとして
     l  検索索クエリ、テキストの正規化

     l  クエリ拡張、補正、修正

     l  マッチ⽂文書のスコアの計算

     l  単語境界、キーワード境界

l  今ブームになっているキーワードは何?
l  お客様は課題があるが、何をすればいいか分からない場合が殆ど
     l  コンサルティングからが重要な仕事となる

      l    お客様の仕事を把握し、それに合わせた最適な技術とソフトウェア
            を組合せを提案する
      l    ⾃自然⾔言語処理理のみならず広い範囲での知識識と経験が必要
Q. 16 ⾃自然⾔言語処理理の利利⽤用現場について知りたい
(2/3)
l  系列列ラベリング
     l  固有表現抽出(⼈人名、社名、イベント名、⽇日付)

     l  美味しそうな表現抽出

     l  重要な段落落を抽出する

l  ⽂文書分類
     l  スパム分類

        l    多くのサービス業者が、ユーザー投稿のコンテンツのチェックにた
              くさんの⼈人⼿手とコストをかけている
l    キーワード抽出
      l  形態素解析、Mecabと⾔言ってればいい問題ではない!
Q16. ⾃自然⾔言語処理理の利利⽤用現場について知りたい
(3/3)
l    社内⽂文書を整理理したい
      l  PFIのような⼩小さい会社でも、⼀一⽇日数⼗十⽂文書(議事録、提案書仕様

          書、メール、契約、⽇日報、など)は年年間1万⽂文書は作成されている
            l    関連⽂文書(論論⽂文とか)、お客様情報などを含めればもっと
      l    何も探せない。誰に聞いたらいいかも分からない。
            l    このお客様に製品のこの機能の利利⽤用事例例を説明した資料料を半年年前
                  使った覚えがあるが、あれはどこに・・
      l    ⽂文書分類、クラスタリング、優先度度検索索、情報抽出、何でも使える
            はず。真に使える社内検索索エンジンはまだ存在しない


l    注:「教師付分類を使えばよい」ではなく、その教師付データの作
      り⽅方、問題の定義、運⽤用なども⾮非常に重要なファクター
Q.17 今後PFIをどういう会社にしていきたいか?

l    PFIのテーマ:最適な技術を最短で世の中に届けたい


l  (短期的には)IT業務の形を変えていきたい
    l  エンジニア⾃自⾝身が⾃自⽴立立して⾃自分で考えて仕事できるようにしたい

    l  受託ではなく、我々も問題を⼀一緒に考えて、お客様の想像を超える

        ようなものを作ってそれを社会で共有したい
l  世の中を変えるようなソフトウェアを開発できる態勢を作りたい
    l  ⾃自分で判断できる優秀なエンジニアを集め、それぞれが責任をもっ

        て能動的に業務できるような組織づくりをしたい
    l  数⼗十年年後には世界を変えるような新しい産業を作りたい

l  研究とビジネス(世の中)を近づけたい
l  そのための研究開発・開発・組織づくりをしたい
Q.18 PFIスタートアップ時のエピソード

l  エピソード1 : ⾦金金がない
    l  オフィスは借りない.給料料は製品が売れるまでは出さない

    l  そうはいっても何をするにもお⾦金金はかかる.

    ⇒投資をうければよいか?  これについては後ほど
l  エピソード2:売れない
    l  誰に何をどうやって売ればいいか分からない。

    l  価格が分からない.初⾒見見殺し.

    ⇒売るには、モノ以外にも⼈人のつながりは⾮非常に重要.
l  エピソード3:何も分からない
    l  仕様書、発注書、納品書、検収書って何?  契約って何をするの?

      l    法務・税務・営業は外出しできる.でも専⾨門家に丸投げでよいの?
      ⇒⾃自分で勉強したり、中途の⼈人に教えてもらったり
Q.19 ベンチャー創⽴立立において⼤大事なこと

l  何をしたいのかを本当によく考える
     l  お客様の要望を満たすことだけが組織の唯⼀一の意義(ドラッカー)

     l  世の中を変えたい、問題を解決したいという強い動機付けが必要.

     l  ⽬目標は常に再確認する.現状に照らし合わせてみる

     l  既存組織に⼊入ってもできることは多い.

         本当に起業しか道はないのかをよく考える.
l  ⾦金金儲けしたい、⽬目⽴立立ちたい、なら他の道をお薦めする
     l  起業はこれらの観点からいうと割に合わない。

l  良良い仲間を集める
     l  ⼀一⼈人では会社はできない.優秀な⼈人を集める

      l    優秀な⼈人を⾒見見分ける能⼒力力は優秀な⼈人にしかないことが多い
l    ⽬目標を達成するために、⼿手段はあらゆる⽅方法を試す.続ける.
Q.20 ベンチャー創⽴立立において⼤大事なこと(続)
してはいけないこと
l  投資を簡単に受けてはいけない
     l  株を渡すことは会社の⾎血を渡すこと.

         会社の⽬目標を共有できる場合のみ、投資を受けるべき.
     l  投資家は投資分を早く回収したいと考える⼈人も多い(上場、売却)

         それが⾃自分達の⽬目標達成と⼀一致するのかを考える
l  ⼈人を簡単に雇ってはいけない
     l  雇うのは簡単だが、辞めてもらうのは⾮非常に⼤大変

     l  会社に合わない⼈人が⼊入った時、会社も⼈人も両⽅方不不幸になる

l  仕事を簡単に受けてはいけない
     l  ⾃自分達の会社とあっているか、どうかを考える。

      l    契約は重い.途中でやめることはできない
      l    仕事が会社の形を決める。その仕事をどうしたいのか?
Q.21 研究とその応⽤用を社会に還元する際の難しさ
(1/3)
l    研究成果は、その研究を全く知らない他分野に売れることが多い
      l  お⽶米は、農家に売れるわけではなく、お⽶米の作り⽅方を全く知らない

          ⼈人に売れる.トラクターや肥料料の説明をしてもダメ.
      l  ⾃自分の研究を理理解してもらうには⻑⾧長い時間が必要

      l  知ってもらうのは数年年単位.⾃自分の分野以外の⼈人たちが話すように

          なったら売れ始める(本屋に並ぶなど)


l    ようやく、コンサルティングとかが必要なのだなぁと分かりました。
Q.21 研究とその応⽤用を社会に還元する際の難しさ  
(2/3)
l    ⾃自分の研究をユーザーが理理解してくれないのと同時に、⾃自分がユー
      ザーのことを知らないことが多い
       l  例例:⾃自然⾔言語処理理はマーケティングをしている⼈人が必要なはず

           ⇒マーケティングの⼈人は、どの分野にどれくらいいて、普段どうい
           うツールを使って解析、何を課題に思っているのだろう?実際にそ
           の分野の⼈人達に話を聞いたり、本を読んだりするのが重要
       l  その分野を真剣に勉強しなければいけない。
Q.21 研究とその応⽤用を社会に還元する際の難しさ
(3/3)
l  製品を考える時は、「製品⾄至上主義」で考える必要がある
    l  その時は研究とは全く別の軸で頭を切切り替える必要

l  中途半端は⼀一番良良くない
    l  研究の時は、新規性があるか、技術的な⾯面⽩白さはあるか、真理理を捉

        えているかをきちんと考える.
    l  製品を作る・売る時は、お客様がどのように価値を⾒見見出してくれる

        かを最優先に考える。どの技術を使うかはその後考える
            l    枯れた技術の組み合わせでも、他の分野の技術の応⽤用でも良良い
l    新しい技術の打率率率は本当に低い.しかし、⼀一つ当たれば世の中が変
      わるほどのインパクトがある。数打たなければいけない
      l    ⾃自分では打てないかもしれない.ただそれが研究コミュニティ全体
            で1本打てれば良良いと考えるのも必要
Q.22 国内での活動状況と、海外での活動状況

l  これまでは国内のお客さんが多かった
    l  商品を育てる時間が必要で、コミュニケーションが密にとれる国内

        の⽅方が優先度度は⾼高かった
    l  オンプレミス型販売(社内サーバーにインストールして使ってもら

        う)が多く、近い⽅方がよい
l  今後は海外も考えていきたい
    l  お客様がサービス展開で海外展開し、いつのまにか海外で使われて

        いることも多い
l  海外に進出する障壁は⽇日に⽇日に下がっているので挑戦したい
テーマ3. ⽣生き⽅方
Q.23 学⽣生ではなくなってからの⼼心境や仕事の変化
について詳しく
l    責任感の変化
      l  今までは何かあっても⾃自分だけの範囲でなんとかなった

            l    今までは失敗しても成功しても⾃自分取り
            l    ⾃自分だけみていてもなんとかなった.
      l    ⾃自分の影響範囲が⼀一気に広がっていく
            l    ⾃自分の失敗が他⼈人に迷惑を影響を与える可能性
                     例例:⾃自分のバグのせいで会社の同僚僚が対応のため休⽇日出勤をし、
                    ⼤大事な予定をキャンセルしなければならなくなった.
            l    他の⼈人を信⽤用し、他の⼈人から信⽤用されないといけない
                     ⾃自分だけで責任を負うと潰れてしまう.お互いいざという時は助
                    けあってくれるという信頼関係を構築するのが⼤大事
            l    ⾃自分だけが成功しても意味は無い。チーム、会社がどうしたら⽬目標
                  を達成するかを考える。
l    とにかく時間が無い
      l  全てのコストが急激に増加していく(ジェットコースター状態)

      l  通勤時間の17分が重要なくらい。

      l  例例えば⽇日中にtwitterを⾒見見たり、書いたりする暇は無くなった.

            l    書いても「○○の進捗はいかがですか」とメールが来る
l    ⾃自分に集まってくる情報を周りに流流し続ける必要
       l  ⾃自分がボトルネックになってしまうことが多くなってしまう

            l    情報流流⼊入量量は⾃自分がさばける量量をあっという間に越える
l  他⼈人をよく⾒見見るようになった
    l  他の⼈人が何を考え、どのように⾏行行動しているかを⾒見見るように

    l  ⼈人は考えている以上に感情的に動くことに今更更気づく

l  仕事の種類は増えた
      l    昔は興味が無かった分野も今は興味を持って勉強してます
      l    実際にやってみないと⾯面⽩白さは分からない
Q.24 研究を⾏行行う上でのモチベーション維持、それ
を害する障害をどう対処したか?
l    モチベーションが上がるのは「感動」した時(のみ)
      l  感動できる⼈人、論論⽂文、仕事、研究に出会えた時.後は勝⼿手に進む

      l  研究室内、同じ研究分野内、国内でとどまらず、どんどん新しい分

          野での出会いをするべき


l    本気になって集中して考える時間を確保する
      l  研究室でも家でも、通学路路(通勤路路)でもどこでも良良い



l    他の⼈人のコメントは真摯に受け⽌止めた上で⾃自分で解釈する
      l  厳しい意⾒見見や、⾃自分とは違うと思う意⾒見見を受けるとモチベーション

            が下がることも多いが、本当にやりたいことなら下がらないはず
      l    ⼀一番良良くないのは、誰にもコメントもらえないようになること
Q.25 ネルー値を1以上にしながら仕事と研究をこな
す⽅方法は?
l    定義:nネルー:n⽇日以上寝てしまっても締切切り等に影響がない状態


l    締切切り直前に作業をするといいことはない
      l  効率率率が悪い。間に合わない。精神的に良良くない。眠い。⾟辛い。



l    ノウハウ的な話
      l  TODOを重要度度と緊急度度をそれぞれ7段階で表し、優先度度をこれら

          をかけたもの*2(最⼤大98なので、⼤大体100)とする
            l    例例:明⽇日のプレゼンを作る:優先度度6、緊急度度7 ⇒ 84
            l    優先度度が⾼高いものから先に⽚片付ける
      l    重要度度も緊急度度も低いものは、やらなくて消える可能性も⾼高い
ネルー値(続)

l  ⾃自分の中で強制的に前締切切を設定する
     l  例例:誰かに論論⽂文をみてもらえるように約束する

     l  例例:社内レビューの時間を決める

l  作業時間を⾒見見積もって、それを当てはめてみる
     l  が、基本うまくいかない。⾃自分の場合⼤大体3〜~10倍だった

l  反復復的な⾒見見直しは必要
     l  アジャイル開発の⽅方法論論は、作業⽅方法でも参考になる



l    本気になるとやる気がでて楽しい
      l  やり始めると、やる気がでて本気になる(脳の本で読んだ)。

            やる気が出てからやり始めるのではなく、まずやり始める
      l    結構正しいことが多い。まず始める。
ネルー値  本⾳音

l    残念念ながら、今も1ネルー状態です
Q.26 ⽇日本の⼤大学や企業、社会に対して思うところ、
問題意識識について
l    科学全般について
      l  分野毎の蛸壺化が進んでいる

      l  “隣隣の研究室が何をやっているかを、学⽣生だけじゃなく先⽣生も説明

          できないし、興味がない”
      l  共同研究を増やせないか?(サバティカルなどの制度度⾯面の改善)

      l  複数の学位をとっている⼈人は増えないか

            l    組織レベルの話でなく、個⼈人レベルでも混ぜないとまずい
l    情報量量が増えるにつれ情報に依存しすぎているので、⾃自分⾃自⾝身で
      もっと吟味して欲しい
      l  批判的に考える

      l    信念念を持つ
l  技術者⾃自⾝身が、「技術が⽣生活を変えられる」ということを信じてい
    ないことが多い
    l  私も⼀一時期そうだった

    l  技術の差異異なんて余り関係なくて、他の要因が重要なんでしょと

        思ってしまう.政治、コスト、運など
l  実際はそうではない.技術は⼈人の⽣生活を本当に変えられる
    l  ⾞車車が、電話が、インターネットが無かったらどうだった?

    l  「⼈人の⽣生活はもう変わらない」と百年年前から⾔言われているが変わっ

        ている.(1980頃のビデオを⾒見見てみると⽣生活は全然違う)
    l  ⾃自分達の⼀一歩は⼩小さくとも、それらが合わされば⼤大きく変わってい

      くことができる

More Related Content

研究・企業・生き方について 情報科学若手の会2011

  • 1. 情報科学若若⼿手の会2011 招待講演 2011/09/17 @ 熱海 研究・企業・⽣生き⽅方について 株式会社Preferred Infrastructure 岡野原  ⼤大輔 hillbig@prferred.jp 今回の発表内容は個⼈人の意⾒見見であり、 会社の意⾒見見ではありません
  • 2. はじめに l  招待講演の話を頂いた時、どういうテーマにすればいいか悩んだ l  幅広いバックグラウンド、年年齢、スキル、興味分野を持った⼈人に対 してどういう話をすればいいのか? l  それならば参加者が聞きたい質問を集めて、それを回答するような 形にしよう l  みなさんから頂いた質問(26問)、全てに回答するようにします l  ⼀一つのテーマに沿った話ではなく、Q&Aのような形になりました l  ⼀一つのメッセージを伝えよというプレゼンの鉄則から外れてます l  どれか⼀一つの話でも参考になっていただければ幸いです l  途中の質問を受け付けます l  全部の後だと忘れちゃうので、テーマ終了了毎にも受け付けます
  • 3. 三つのテーマに沿って話します l  研究 l  専⾨門分野系(⾃自然⾔言語処理理、機械学習、アルゴリズム等) l  企業 l  会社の話  (株式会社Preferred Infrastructure) l  研究とビジネスの話 l  ⽣生き⽅方 l  個⼈人・研究者・博⼠士課程として
  • 4. ⾃自⼰己紹介 l  名前:岡野原  ⼤大輔 l  福島県⽴立立磐城⾼高校⇒東京⼤大学理理科⼀一類⇒東京⼤大学情報科学科 ⇒ 情報理理⼯工学系研究科コンピュータ科学修⼠士、博⼠士 2010年年3⽉月卒 l  株式会社プリファードインフラストラクチャー 2006年年3⽉月創⽴立立 l  特別研究員として、研究開発チームのリーダーをしています l  仕事の内容などは後で詳しく l  twitter @hillbig l  HP: DO++  1992〜~2004(今はもうパスワードも分からない) l  http://research.preferred.jp/work  に最近の業績
  • 5. 経歴 l  福島県いわき市出⾝身(東⽇日本・東北北復復興を応援しています!!) l  ⼩小学⽣生  ニフティサーブのフォーラムに⼊入り浸る l  データ圧縮やCG、探査機シミュレーションを作って楽しむ l  中学⽣生〜~⾼高校⽣生 l  インターネットを楽しみつつ、部活動(陸陸上・ラグビー)に熱中 l  ⼤大学 l  未踏に落落ちるが未踏ユースに拾拾ってもらう。 l  データ圧縮⇒⾃自然⾔言語処理理⇒機械学習⇒データ構造 l  最終的に未踏ユース1本、未踏2本 l  ⼤大学4年年〜~修⼠士2年年、バイオベンチャーのバイトで、遺伝⼦子設計のシ ステムなどを作る
  • 6. 経歴(続) l  修⼠士⼆二年年の時、友⼈人達と株式会社プリファードインフラストラク チャーを創業 l  学業と仕事の⼆二⾜足の草鞋⽣生活が2010年年まで続く l  昼は研究室、⼣夕⽅方以降降は会社 l  午前営業、昼学校、⼣夕⽅方営業、夜会社、深夜ファミレスで論論⽂文書き l  会社業務も研究活動も⽇日に⽇日に忙しくなっていく l  最後の頃は卒業式を忘れていて、私服で参加 l  2010年年4⽉月からフルタイム l  研究開発チームリーダーとして、お客様と共同研究をしたり、製品 開発チームと⼀一緒に作ったり l  仕事は何でもやりました
  • 8. Q.1 NLP(⾃自然⾔言語処理理)とは? l  ⾃自然⾔言語(⼈人が書いたり、話したりする⾔言語)をコンピュータで処 理理する分野.⾔言語が絡んでいたら何でも良良い l  基礎から応⽤用・理理論論からアプリまで幅は⾮非常に広い 基礎 単語分割 構⽂文解析 意味解析 辞書構築 ⽂文書分類 ⾃自動要約 情報抽出 著者推定 機械翻訳 ⾳音声認識識 情報検索索 質問応答 応⽤用
  • 9. Q.2 NLPの⾯面⽩白さは? 実⽤用的:世の中の殆どの情報・知識識が⾃自然⾔言語で表されている l  l  「昨⽇日のラグビーW杯で⽇日本はNZに80点差で敗れた」 l  世の中の○○%のデータが構造化されていない⾃自然⾔言語データ ⇒⾃自然⾔言語を処理理できれば、世の中の殆どの情報・知識識を処理理できる l  研究的:⼈人は⾔言語を扱えるのに、どう実現しているか分からない l  ⼈人がどのように⾔言語情報を処理理しているのか未だ殆ど不不明 l  特に⺟母語の学習は、学習速度度の速さ、ルールを与えず正例例だけを与 えているのに学習できるということろが謎 l  ⼈人は⾔言語を無意識識で扱っている.違うのは分かる.でもなぜ違うの か説明できない.謎解きのような楽しみ(⾃自然科学?)
  • 10. Q.3 NLPの現在について l  統計的⾃自然⾔言語処理理が主流流 l  ⼤大量量の⾃自然⾔言語データを元に、様々な知識識やルールを⾃自動で獲得 l  (⾃自然⾔言語の)専⾨門的知識識が無くても作れるようになってきた. l  例例:⽂文書分類  昔はルールを使って書いていたが、今は分類済の正 解データ、もしくはルールの種を元に分類ルールを⾃自動獲得可能 l  研究的には統計的機械翻訳が多くなっている l  主流流学会であるACL, EMNLPでは機械翻訳の論論⽂文が多くを占める l  研究に必要なリソース・ツールが揃い、問題・課題も豊富 l  ⽇日常⽣生活で不不可⽋欠になっているNLP技術も多い l  情報検索索・⾳音声認識識・かな漢字変換 l  例例: ⽂文書レコメンドがasahi.comでは1ヶ⽉月5億PV動いている l  NLP技術の中には実⽤用化が可能なものがゴロゴロ眠っている
  • 11. Q.4 統計的機械翻訳は、いつ実現するのか? l  機械翻訳はNLPの最古かつ最⼤大の課題の⼀一つ l  少しずつ前進してきた l  特定⾔言語間・特定ドメインで成功 l  英語⇔スペイン語などは移⺠民が多い地区では既に多⽤用されている l  特定ドメイン:医療療、特許、法務、マニュアル、ニュース l  翻訳元⽂文書、翻訳先⽂文書に制約がある形なら精度度も担保できる l  今後の普及にはビジネス的に成功することも必須 l  基本的に精度度は投資額・研究投資コストと⽐比例例している 昔:⽇日本語,ロシア語<->英語、今:中国語,アラビア語  <-> 英語 l  ビジネスで成功し、研究開発費が出せるようになれば変わる l  翻訳を⼿手助けする情報抽出・翻訳補助・⾃自動校正なども重要に
  • 12. Q.5 ⾃自然⾔言語処理理は今度度どのようになっていくか l  統計的機械翻訳の研究はまだしばらく続く l  課題・⼿手法はまだたくさん出そう。研究的にはレッドオーシャン? l  ヒトの⾔言語処理理の仕組みが解き明かされるか? l  ⼈人がどうしているかは分からないままかもだが、⾔言語処理理の仕組み は⾃自動獲得できそう l  新しい⾃自然⾔言語リソースとそれを利利⽤用した研究も続く l  ヒトが活動する限り⾔言語リソースの量量、種類は増えていく l  ⾃自然⾔言語処理理の実⽤用化を本気で進める企業は増えていく l  ⼿手法をユーザーの課題を解決する製品に。 l  ユーザーの課題をどのように解決できるのかを本気で考える必要が ある(これは研究というよりはビジネス側の責任・仕事) l  ⽂文書分類・⾃自動要約・著者推定・評判分析・⾳音声認識識などたくさん
  • 13. Q.6 ⾃自然⾔言語処理理の将来の技術は? 勝⼿手に考えてみた今後の肝となる技術 l  情報・知識識の名寄せ l  複数の情報源(辞書・コーパス)を組み合わせて新しい情報を作る (固有名詞の属性付け)、Google Squareで合体できたら嬉しい l  単語や⽂文の意味は分からないが、それらをマッチさせたり、融合さ せたりすることは機械的にできそう l  ヒトは⼤大量量のデータをまとめて処理理するのは苦⼿手.機械が活躍可能 l  ⽂文解析、構⽂文解析の復復権 l  今までは構⽂文解析は、正直役⽴立立っていなかった印象が近年年のIBM Watsonの話のように、全て真⾯面⽬目にやったらうまくいく l  更更に⾼高速・⾼高精度度・ロバストな解析システムが求められる l  ツール・リソースを整理理・管理理する仕組みが必要 l  各グループが独⾃自に開発するのではなく、業界全体の協⼒力力が必要
  • 14. Q.7 知的エージェントについて l  IBM Watsonはクイズ(質問応答)において、「ドメインを絞る」 「良良質なデータをたくさん使う」「理理解はできないが、⼀一致度度は測 れる」ことによりクイズ世界チャンピオンに勝てることを⽰示した l  同様に、ドメインを絞ったり、⼈人の実現⽅方法と違う形で知的⾏行行為を 実現することで、⼈人以上のことはできる可能性は⾼高い l  ヒトの⾔言語の理理解、知識識の理理解は平衡した課題 l  これまでは情報増やす+データの網羅羅性が鍵 l  単純な⼿手法でも、より多くの単語・知識識をカバーすればうまくいく. 「量量が質を変える」 l  より深い処理理が必要ではるが、いつ実を結ぶかはまだ不不明瞭.
  • 15. Q.8 機械学習とは? l  データを元にそこから知識識やルールを獲得する⼿手法・理理論論群 l  先程の⾃自然⾔言語処理理は機械学習を利利⽤用している l  覚えておくとよい⼤大きな枠組み l  教師有学習 l  ⼊入⼒力力データxと出⼒力力データyからなる訓練データ集合{(xi, yi)}を元に、 ⼊入⼒力力から出⼒力力への関数f(x)を学習する.分類、回帰など l  教師無学習 l  ⼊入⼒力力データの集合{xi}から、背後にあるモデルを学習する、クラス タリングなど l  教師有はデータに⽬目的が組み込まれているのに対し、教師無の場合 はモデルに⽬目的が組み込まれている場合が多い
  • 16. Q.9 機械学習は今後どのようになっていくか? l  ⼤大規模データ解析は流流⾏行行中 l  BigDataと呼ばれる1Tb〜~1PB級の研究のほかに、殆どのユーザー が出会うサイズの1MB〜~1GB級の研究も進むだろう l  ツールとデータは揃っていく l  全く機械学習を知らないエンジニアがツールとデータを組み合わせ てアプリケーションを作る時が来る l  必要なデータを選択してアレンジしたり、データ作成・収集を専⾨門 とするようなデータアキュレーターも流流⾏行行るだろう l  ⼈人の作業がシステム内部に介在するような研究も盛んに l  ユーザーのフィードバックをどのように得るかが組み込まれる l  各分野では特徴抽出の技術が更更に進む
  • 17. l  ユーザーやアプリケーションが機械学習の結果をどのように扱って いくかを考えないといけない l  ⾮非決定的動作をする、巨⼤大なブラックボックスの機械学習システム l  天気予報が近い.中で何をやっているかは分からないが、結果が 「晴れのち曇り  降降⽔水確率率率30%」のようにでてくる l  これまでのシステムは決定的、曖昧性が無いデータを扱ってきたが、 こうした機械学習の結果をどのように取り込めるだろう l  ビジネス的には:開発・テスト・仕様書・運⽤用はどう変えればいい のだろうというのは気になる
  • 18. Q.10 どういうデータがあれば、どういうことがで きるようになるか l  正解さえあれば、⼊入⼒力力から出⼒力力を何でも予測することはできる*1 l  遺伝⼦子解析、⾦金金融、⽯石油探査、⼈人事評価、⾃自動⾞車車⾛走⾏行行 l  ⼈人をより深く分析することも可能 c.f. [linkedin KDD 2011] l  性別・年年齢・趣味・職業・年年収・家族構成 l  知識識を演繹することも可能ある程度度可能 l  今後、⼈人しかできないと思われている専⾨門領領域でも利利⽤用される l  医療療、法務、教育、コンサル、(政治?SFだが) *1 ⼊入⼒力力と出⼒力力に関係があればという条件付き.
  • 19. Q.11 データを作る⽅方法はどのようなものが実現で きるか l  Amazon Mechanical Turks (クラウドソーシング) l  依頼主が仕事を設定し、作業者達が⼊入札し作業をする l  ⽟玉⽯石混淆のデータから質のよいデータを抽出する技術は急速に進む l  ありとあらゆるものにセンサがつき名寄せされる l  ⼩小売情報(POSデータ)、デバイス情報、ウェブページ上での⾏行行動 l  しかし、古い業種であるほど動きは遅くリスクは取りたがらない l  これらには個⼈人情報が無い場合や、カードなどの個⼈人情報があって も使えない場合が多い.倫倫理理⾯面、セキュリティ⾯面のサポートが必要 l  データを専⾨門に作り、販売する企業が出てきてもおかしくない l  質のよいデータを⼤大量量に低コストで作れる会社があれば、それを利利 ⽤用したい企業は多いはず (Windows Azure Dataなど)
  • 20. Q.12 今のデータ処理理のボトルネックはどこなのか. l  データ変換コストは無視できないほど⼤大きい l  JSON -> 特徴ベクトルなど l  スキーマ付のデータをparseする部分が処理理時間の半分 l  単純な並列列性がある場合が多いので、マシンを並べれば可能 l  (ちょっと違うが)開発コストが⼤大きい l  MapReduce、なんとかGraphなどフレームワーク・システムがた くさん出てきているが、それらを使いこなせる⼈人はごく⼀一部 l  コードの⾃自動⽣生成、 l  構造付データ(JSONで良良い)で並列列に書き込み、読み込みができ て、分散して保存されるものが欲しい
  • 21. Q.13 これだけは知っとけアルゴリズムはあるか? l  最近注⽬目している⽅方法でみなさんに役に⽴立立つかもしらない順番に l  ⼤大規模データの近傍探索索 l  knndecent, anchor graph hash, minhash, succinct NNG l  ベイズ学習全般(基本的なツールとしてどこでも使われている) l  オンライン学習、オンライン凸最適化、regret最⼩小化、(今度度 IBIS2011で招待講演をします) l  簡潔データ構造(今ジャーナルで解説記事を書いています) l  透過的データ圧縮(好きな場所から定数時間で復復元可能) l  Burrows Wheeler変換とその周辺の技術 l  最近のLZ parsing (LZEndなどと構築⼿手法)、全⽂文索索引
  • 22. 私からのメッセージ 数学、統計などの基礎⼒力力が⼤大事 l  ⼿手法やアルゴリズムはどんどん変わる.ずっと追い続けておくため には基礎体⼒力力がなにより⼤大事 l  学部時代に勉強しなくても、その後勉強すれば良良い。必要に迫られ て勉強した⽅方がよい l  その時、理理解ができなくて⾝身につかなかったとしても、後で同じ技 術に再度度出会った時の理理解は速い l  ノンパラベイズは⼆二度度挫折したが、三度度⽬目で理理解した l  短期的な投資はジリ貧になる.⻑⾧長期的な投資は怠るな. l  研究開発はマラソン.30年年⾛走り続けられる投資を
  • 23. Q.14 研究について l  他の⼈人ができなくて(気づいていなくて)みんなに役⽴立立つものが良良 い.みんなが知っていて流流⾏行行っているものをやっても意味がない l  レッドオーシャンよりブルーオーシャン l  本に書いてあったら多くの⼈人が知っていると思え l  そこに書いてあることを改良良する程度度の研究はもうすでにやられて いる.本書いた⼈人達は遙か先を⾏行行っている l  異異分野からの技術導⼊入をしない限り、正⾯面から戦うのは難しい l  研究としては終わっている可能性も⾼高い l  追いついて、抜かそうと思ったら数年年は頑張れ
  • 24. 勉強!勉強!勉強! l  研究をするためにはまず既存の研究を知らなければいけない l  新しいと思ったこと、いいなと思ったことはまずやられている l  会社なら更更に。 l  本や論論⽂文で書いてあるなら、まず読んで知っているのが必要条件. 本は、研究成果が濃縮されて体系化されており効率率率的に勉強できる l  同じ分野、周辺分野の論論⽂文、成果も可能な限り調べる l  調べることができる能⼒力力は最重要 l  ここまでやってはじめて次の⼀一歩に出ることができる l  勉強は継続しなければいけない.⾃自分ができるところは全問題の⼀一 部分だけであり、全てを理理解することは⼀一⽣生ない.だから楽しい l  ⾃自分は研究コミュニティの⼀一部.巨⼈人の肩に乗る. l  ⾃自分の屍を超えていけ
  • 25. もっと妄想を! l  妄想⼒力力はイマジネーションの原動⼒力力 l  5年年後、10年年後に世界がどうなっていて、その時の世界に必要な 技術を考えられているか? l  妄想は現時点では「狂っている」と思えるぐらいがちょうど良良い l  それほど、これまでの世界は急激に変わってきた l  それを達成するために今どの⽅方向に向かえばいいかを考えれば良良い l  例例: l  データ総量量は年年60%増、10年年後は今の100倍になる.その時、モ バイルで1TB扱えるようになるが、その時に必要になる技術は? l  ⾳音声認識識、質問応答は実⽤用化に近づいた。10年年後には、機械翻訳、 ⾃自動要約などの技術も何らかの形で実⽤用化している.その時、産業 はどうなる?仕事、教育、娯楽、医療療はどうなる?
  • 27. 話をする上での背景知識識 l  株式会社プリファードインフラストラクチャー(PFI)は主に会社 向けに商売をしています(B2B)
  • 28. Q.15 PFIにおけるNLPやデータ圧縮技術の適⽤用先と、 実際に適⽤用した技術や⼿手法 l  ⾃自然⾔言語情報を扱っているお客さんは全部 l  メディア系 l  NHK, 朝⽇日新聞、⽇日経BP、商品検索索サイトなど l  業務系 l  社内⽂文書は膨⼤大な量量があり、それらを整理理する必要がある l  マーケティング分析系 l  世の中でどういったものが話題になっているか l  この商品、ニュース、⼈人はどのように問われているか l  研究開発業務(実はすごく多い) l  殆どが⾮非公開 l  どういう業種の⼈人がどういう⽬目的でやっているか全部秘密
  • 29. Q.16 ⾃自然⾔言語処理理の利利⽤用現場について知りたい (1/3) l  ⾃自然⾔言語があるところならどこでも l  検索索エンジンとして l  検索索クエリ、テキストの正規化 l  クエリ拡張、補正、修正 l  マッチ⽂文書のスコアの計算 l  単語境界、キーワード境界 l  今ブームになっているキーワードは何? l  お客様は課題があるが、何をすればいいか分からない場合が殆ど l  コンサルティングからが重要な仕事となる l  お客様の仕事を把握し、それに合わせた最適な技術とソフトウェア を組合せを提案する l  ⾃自然⾔言語処理理のみならず広い範囲での知識識と経験が必要
  • 30. Q. 16 ⾃自然⾔言語処理理の利利⽤用現場について知りたい (2/3) l  系列列ラベリング l  固有表現抽出(⼈人名、社名、イベント名、⽇日付) l  美味しそうな表現抽出 l  重要な段落落を抽出する l  ⽂文書分類 l  スパム分類 l  多くのサービス業者が、ユーザー投稿のコンテンツのチェックにた くさんの⼈人⼿手とコストをかけている l  キーワード抽出 l  形態素解析、Mecabと⾔言ってればいい問題ではない!
  • 31. Q16. ⾃自然⾔言語処理理の利利⽤用現場について知りたい (3/3) l  社内⽂文書を整理理したい l  PFIのような⼩小さい会社でも、⼀一⽇日数⼗十⽂文書(議事録、提案書仕様 書、メール、契約、⽇日報、など)は年年間1万⽂文書は作成されている l  関連⽂文書(論論⽂文とか)、お客様情報などを含めればもっと l  何も探せない。誰に聞いたらいいかも分からない。 l  このお客様に製品のこの機能の利利⽤用事例例を説明した資料料を半年年前 使った覚えがあるが、あれはどこに・・ l  ⽂文書分類、クラスタリング、優先度度検索索、情報抽出、何でも使える はず。真に使える社内検索索エンジンはまだ存在しない l  注:「教師付分類を使えばよい」ではなく、その教師付データの作 り⽅方、問題の定義、運⽤用なども⾮非常に重要なファクター
  • 32. Q.17 今後PFIをどういう会社にしていきたいか? l  PFIのテーマ:最適な技術を最短で世の中に届けたい l  (短期的には)IT業務の形を変えていきたい l  エンジニア⾃自⾝身が⾃自⽴立立して⾃自分で考えて仕事できるようにしたい l  受託ではなく、我々も問題を⼀一緒に考えて、お客様の想像を超える ようなものを作ってそれを社会で共有したい l  世の中を変えるようなソフトウェアを開発できる態勢を作りたい l  ⾃自分で判断できる優秀なエンジニアを集め、それぞれが責任をもっ て能動的に業務できるような組織づくりをしたい l  数⼗十年年後には世界を変えるような新しい産業を作りたい l  研究とビジネス(世の中)を近づけたい l  そのための研究開発・開発・組織づくりをしたい
  • 33. Q.18 PFIスタートアップ時のエピソード l  エピソード1 : ⾦金金がない l  オフィスは借りない.給料料は製品が売れるまでは出さない l  そうはいっても何をするにもお⾦金金はかかる. ⇒投資をうければよいか?  これについては後ほど l  エピソード2:売れない l  誰に何をどうやって売ればいいか分からない。 l  価格が分からない.初⾒見見殺し. ⇒売るには、モノ以外にも⼈人のつながりは⾮非常に重要. l  エピソード3:何も分からない l  仕様書、発注書、納品書、検収書って何?  契約って何をするの? l  法務・税務・営業は外出しできる.でも専⾨門家に丸投げでよいの? ⇒⾃自分で勉強したり、中途の⼈人に教えてもらったり
  • 34. Q.19 ベンチャー創⽴立立において⼤大事なこと l  何をしたいのかを本当によく考える l  お客様の要望を満たすことだけが組織の唯⼀一の意義(ドラッカー) l  世の中を変えたい、問題を解決したいという強い動機付けが必要. l  ⽬目標は常に再確認する.現状に照らし合わせてみる l  既存組織に⼊入ってもできることは多い. 本当に起業しか道はないのかをよく考える. l  ⾦金金儲けしたい、⽬目⽴立立ちたい、なら他の道をお薦めする l  起業はこれらの観点からいうと割に合わない。 l  良良い仲間を集める l  ⼀一⼈人では会社はできない.優秀な⼈人を集める l  優秀な⼈人を⾒見見分ける能⼒力力は優秀な⼈人にしかないことが多い l  ⽬目標を達成するために、⼿手段はあらゆる⽅方法を試す.続ける.
  • 35. Q.20 ベンチャー創⽴立立において⼤大事なこと(続) してはいけないこと l  投資を簡単に受けてはいけない l  株を渡すことは会社の⾎血を渡すこと. 会社の⽬目標を共有できる場合のみ、投資を受けるべき. l  投資家は投資分を早く回収したいと考える⼈人も多い(上場、売却) それが⾃自分達の⽬目標達成と⼀一致するのかを考える l  ⼈人を簡単に雇ってはいけない l  雇うのは簡単だが、辞めてもらうのは⾮非常に⼤大変 l  会社に合わない⼈人が⼊入った時、会社も⼈人も両⽅方不不幸になる l  仕事を簡単に受けてはいけない l  ⾃自分達の会社とあっているか、どうかを考える。 l  契約は重い.途中でやめることはできない l  仕事が会社の形を決める。その仕事をどうしたいのか?
  • 36. Q.21 研究とその応⽤用を社会に還元する際の難しさ (1/3) l  研究成果は、その研究を全く知らない他分野に売れることが多い l  お⽶米は、農家に売れるわけではなく、お⽶米の作り⽅方を全く知らない ⼈人に売れる.トラクターや肥料料の説明をしてもダメ. l  ⾃自分の研究を理理解してもらうには⻑⾧長い時間が必要 l  知ってもらうのは数年年単位.⾃自分の分野以外の⼈人たちが話すように なったら売れ始める(本屋に並ぶなど) l  ようやく、コンサルティングとかが必要なのだなぁと分かりました。
  • 37. Q.21 研究とその応⽤用を社会に還元する際の難しさ   (2/3) l  ⾃自分の研究をユーザーが理理解してくれないのと同時に、⾃自分がユー ザーのことを知らないことが多い l  例例:⾃自然⾔言語処理理はマーケティングをしている⼈人が必要なはず ⇒マーケティングの⼈人は、どの分野にどれくらいいて、普段どうい うツールを使って解析、何を課題に思っているのだろう?実際にそ の分野の⼈人達に話を聞いたり、本を読んだりするのが重要 l  その分野を真剣に勉強しなければいけない。
  • 38. Q.21 研究とその応⽤用を社会に還元する際の難しさ (3/3) l  製品を考える時は、「製品⾄至上主義」で考える必要がある l  その時は研究とは全く別の軸で頭を切切り替える必要 l  中途半端は⼀一番良良くない l  研究の時は、新規性があるか、技術的な⾯面⽩白さはあるか、真理理を捉 えているかをきちんと考える. l  製品を作る・売る時は、お客様がどのように価値を⾒見見出してくれる かを最優先に考える。どの技術を使うかはその後考える l  枯れた技術の組み合わせでも、他の分野の技術の応⽤用でも良良い l  新しい技術の打率率率は本当に低い.しかし、⼀一つ当たれば世の中が変 わるほどのインパクトがある。数打たなければいけない l  ⾃自分では打てないかもしれない.ただそれが研究コミュニティ全体 で1本打てれば良良いと考えるのも必要
  • 39. Q.22 国内での活動状況と、海外での活動状況 l  これまでは国内のお客さんが多かった l  商品を育てる時間が必要で、コミュニケーションが密にとれる国内 の⽅方が優先度度は⾼高かった l  オンプレミス型販売(社内サーバーにインストールして使ってもら う)が多く、近い⽅方がよい l  今後は海外も考えていきたい l  お客様がサービス展開で海外展開し、いつのまにか海外で使われて いることも多い l  海外に進出する障壁は⽇日に⽇日に下がっているので挑戦したい
  • 41. Q.23 学⽣生ではなくなってからの⼼心境や仕事の変化 について詳しく l  責任感の変化 l  今までは何かあっても⾃自分だけの範囲でなんとかなった l  今までは失敗しても成功しても⾃自分取り l  ⾃自分だけみていてもなんとかなった. l  ⾃自分の影響範囲が⼀一気に広がっていく l  ⾃自分の失敗が他⼈人に迷惑を影響を与える可能性   例例:⾃自分のバグのせいで会社の同僚僚が対応のため休⽇日出勤をし、 ⼤大事な予定をキャンセルしなければならなくなった. l  他の⼈人を信⽤用し、他の⼈人から信⽤用されないといけない   ⾃自分だけで責任を負うと潰れてしまう.お互いいざという時は助 けあってくれるという信頼関係を構築するのが⼤大事 l  ⾃自分だけが成功しても意味は無い。チーム、会社がどうしたら⽬目標 を達成するかを考える。
  • 42. l  とにかく時間が無い l  全てのコストが急激に増加していく(ジェットコースター状態) l  通勤時間の17分が重要なくらい。 l  例例えば⽇日中にtwitterを⾒見見たり、書いたりする暇は無くなった. l  書いても「○○の進捗はいかがですか」とメールが来る l  ⾃自分に集まってくる情報を周りに流流し続ける必要 l  ⾃自分がボトルネックになってしまうことが多くなってしまう l  情報流流⼊入量量は⾃自分がさばける量量をあっという間に越える l  他⼈人をよく⾒見見るようになった l  他の⼈人が何を考え、どのように⾏行行動しているかを⾒見見るように l  ⼈人は考えている以上に感情的に動くことに今更更気づく l  仕事の種類は増えた l  昔は興味が無かった分野も今は興味を持って勉強してます l  実際にやってみないと⾯面⽩白さは分からない
  • 43. Q.24 研究を⾏行行う上でのモチベーション維持、それ を害する障害をどう対処したか? l  モチベーションが上がるのは「感動」した時(のみ) l  感動できる⼈人、論論⽂文、仕事、研究に出会えた時.後は勝⼿手に進む l  研究室内、同じ研究分野内、国内でとどまらず、どんどん新しい分 野での出会いをするべき l  本気になって集中して考える時間を確保する l  研究室でも家でも、通学路路(通勤路路)でもどこでも良良い l  他の⼈人のコメントは真摯に受け⽌止めた上で⾃自分で解釈する l  厳しい意⾒見見や、⾃自分とは違うと思う意⾒見見を受けるとモチベーション が下がることも多いが、本当にやりたいことなら下がらないはず l  ⼀一番良良くないのは、誰にもコメントもらえないようになること
  • 44. Q.25 ネルー値を1以上にしながら仕事と研究をこな す⽅方法は? l  定義:nネルー:n⽇日以上寝てしまっても締切切り等に影響がない状態 l  締切切り直前に作業をするといいことはない l  効率率率が悪い。間に合わない。精神的に良良くない。眠い。⾟辛い。 l  ノウハウ的な話 l  TODOを重要度度と緊急度度をそれぞれ7段階で表し、優先度度をこれら をかけたもの*2(最⼤大98なので、⼤大体100)とする l  例例:明⽇日のプレゼンを作る:優先度度6、緊急度度7 ⇒ 84 l  優先度度が⾼高いものから先に⽚片付ける l  重要度度も緊急度度も低いものは、やらなくて消える可能性も⾼高い
  • 45. ネルー値(続) l  ⾃自分の中で強制的に前締切切を設定する l  例例:誰かに論論⽂文をみてもらえるように約束する l  例例:社内レビューの時間を決める l  作業時間を⾒見見積もって、それを当てはめてみる l  が、基本うまくいかない。⾃自分の場合⼤大体3〜~10倍だった l  反復復的な⾒見見直しは必要 l  アジャイル開発の⽅方法論論は、作業⽅方法でも参考になる l  本気になるとやる気がでて楽しい l  やり始めると、やる気がでて本気になる(脳の本で読んだ)。 やる気が出てからやり始めるのではなく、まずやり始める l  結構正しいことが多い。まず始める。
  • 46. ネルー値  本⾳音 l  残念念ながら、今も1ネルー状態です
  • 47. Q.26 ⽇日本の⼤大学や企業、社会に対して思うところ、 問題意識識について l  科学全般について l  分野毎の蛸壺化が進んでいる l  “隣隣の研究室が何をやっているかを、学⽣生だけじゃなく先⽣生も説明 できないし、興味がない” l  共同研究を増やせないか?(サバティカルなどの制度度⾯面の改善) l  複数の学位をとっている⼈人は増えないか l  組織レベルの話でなく、個⼈人レベルでも混ぜないとまずい l  情報量量が増えるにつれ情報に依存しすぎているので、⾃自分⾃自⾝身で もっと吟味して欲しい l  批判的に考える l  信念念を持つ
  • 48. l  技術者⾃自⾝身が、「技術が⽣生活を変えられる」ということを信じてい ないことが多い l  私も⼀一時期そうだった l  技術の差異異なんて余り関係なくて、他の要因が重要なんでしょと 思ってしまう.政治、コスト、運など l  実際はそうではない.技術は⼈人の⽣生活を本当に変えられる l  ⾞車車が、電話が、インターネットが無かったらどうだった? l  「⼈人の⽣生活はもう変わらない」と百年年前から⾔言われているが変わっ ている.(1980頃のビデオを⾒見見てみると⽣生活は全然違う) l  ⾃自分達の⼀一歩は⼩小さくとも、それらが合わされば⼤大きく変わってい くことができる