Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

タグ

ブックマーク / tjo.hatenablog.com (16)

  • 温故知新:古典的名著『回帰分析』(佐和隆光)を読む - 渋谷駅前で働くデータサイエンティストのブログ

    回帰分析(新装版) (統計ライブラリー) 作者:隆光, 佐和朝倉書店Amazon タイトルに「古典的名著」とうたっておきながら、実は米倉さんのツイートで紹介されるまで浅学にして全然存じ上げなかったんですが、いざ読んでみたらあまりにも素晴らしい内容だったので、その感動を伝えたいがためにわざわざこの記事を書いています(笑)。 ちなみに今現在、訳あってこちらの論文とその実装を相手にしなければならない状況で、関連してそもそも論としての「回帰分析の取り扱い方」を改めて紐解く必要があり、その点でも書は大いに役立っている感があります*1。ということで、個人的に書が「実際に役立った」と感じた点を適当にピックアップして紹介していこうと思います。 書の概要 個人的に優れていると感じた点など OLS線形回帰モデルが前提とする仮定が端的にまとまっている 線形回帰モデルの前提に「合わない」場合の対処法もまとま

    温故知新:古典的名著『回帰分析』(佐和隆光)を読む - 渋谷駅前で働くデータサイエンティストのブログ
  • 生成AIによる「慣用表現の『乗っ取り』」と、その根底にある別の問題と - 渋谷駅前で働くデータサイエンティストのブログ

    かなり前から「ChatGPTに学術論文を(英語で)書かせると"delve"のような普段使わないような単語が多く使われるのでバレやすい」という話がSNS以下各所で頻繁に噂されていたんですが*1、最近になってこの件について面白いpreprintが発表されていたのを知りました。それがこちらです。 もう読んで字の如しで「ChatGPTが登場して以来学術論文に使われる単語のレパートリーが劇的に変わってしまった」というのを、実際に具体的なデータに基づいて示した論文です。割と短めの読みやすい論文であることと、先述したようにSNSでは頻繁に噂されていた推測を明確化したということもあり、折角ですのでこのブログで簡単に紹介してみようと思います。 Preprintあげたのでご報告!📣 ChatGPTが使いがちな英単語ってありますよね。「delve」「realm」「utilize」あたり。 (限界助教先生の記事

    生成AIによる「慣用表現の『乗っ取り』」と、その根底にある別の問題と - 渋谷駅前で働くデータサイエンティストのブログ
    rgfx
    rgfx 2024/06/01
    「単に「ナイジェリア英語で書かれたものを機械的に排除している」即ちナイジェリアの人が書いたものは何でも排除する、ということになりかねません」
  • 「仮説ドリブン」という名の甘い罠 - 渋谷駅前で働くデータサイエンティストのブログ

    今回の記事では、ちょっと感覚的でふわっとした話をしようと思います。それは「『仮説ドリブン』という考え方には往々にして落とし穴があるのではないか?」という問題提起です。 そもそも、「仮説ドリブン」(仮説駆動型:hypothesis-driven)というアプローチは実験科学分野出身の我が身にとっては、個人的には馴染み深いものです。まだ僕がポスドクだった頃、国際会議に際して日人研究者同士で集まる会が毎回あったのですが、その席上でお話を聞く機会があった当時のトップ研究者の先生から「この世の森羅万象は網羅しようとするにはあまりにも広大過ぎる、故に森羅万象を区切って『仮説で白黒つけられる範囲』に絞り、これを検証するということを繰り返して前に進むべき」ということを聞かされ、感銘を受けたのを覚えています。 実際、仮説ドリブンの考え方は非常に有用なものであり、今現在僕自身が主戦場とする広告・マーケティング

    「仮説ドリブン」という名の甘い罠 - 渋谷駅前で働くデータサイエンティストのブログ
    rgfx
    rgfx 2023/12/21
  • エンジニア・データ分析職の方々にお薦めしたい、LLM時代に不可欠な教養が身に付くテキスト3選 - 渋谷駅前で働くデータサイエンティストのブログ

    (『IT Text 自然語処理の基礎』より) 3ヶ月ほど前に空前のLLMブームについて概観する記事を書きましたが、それ以降も世間のLLMに対する狂騒ぶりは収まるどころかますます拍車がかかるという有様で、あまつさえ僕自身の仕事における日常業務にもじわじわと影響が及びつつあり、今後も良きにつけ悪しきにつけLLMと共生し続ける必要がありそうだと感じている今日この頃です。 そんなも杓子もLLMに群がるが如き空前のブームを受けて、エンジニアデータ分析職の方々の中には「LLMに興味はあるんだけど世の中にあまりにも多くのLLM関連コンテンツが溢れ返っていて何から手をつけたら良いのか分からない」という向きもあるように見受けられます。そこで、僕も断じてLLM以下生成AIの専門家などではないのですが、個人的に「このテキストを読めばLLM時代を生き抜くことが出来そうだ」と感じた書籍を、全くの独断と偏見で3冊

    エンジニア・データ分析職の方々にお薦めしたい、LLM時代に不可欠な教養が身に付くテキスト3選 - 渋谷駅前で働くデータサイエンティストのブログ
    rgfx
    rgfx 2023/07/03
  • LLM chatbotが人類にもたらすのは、絶望なのか希望なのか - 渋谷駅前で働くデータサイエンティストのブログ

    ちょっと前に以下のようなことを放言したら、思いの外反響が多くてちょっとびっくりしたのでした。それだけ、現代のLLM chatbot / generative AIの台頭に期待と不安を抱いている人が多いということの裏返しなのでしょう。 既に色々コメントが出ているけど、我々人類が「知的労働」だと思っていることの大半が実は「過去実績をなぞって適当にその場に合わせて組み立てているだけ」なんじゃないかと訝っているので、そういう「自称知的労働」は多分LLMで代替されると思う。新奇なものを生み出す仕事は相変わらず残る https://t.co/GGK41vSDcn— TJO (@TJO_datasci) 2023年3月15日 昨年の年末振り返り記事でも話題にしたChatGPT(そして後続の各種LLM chatbot)ですが、今年に入ってからの話題の広がり方には想像を超えるものがあり、ついに朝の情報番組な

    LLM chatbotが人類にもたらすのは、絶望なのか希望なのか - 渋谷駅前で働くデータサイエンティストのブログ
    rgfx
    rgfx 2023/03/25
    つーことで、"あなたは良い上司になれますか?ちゃんとブレイクダウンしてコミュニケーションができるリーダーになれますか?"が人間サイドの直近の課題なのではと。
  • 生活者ターゲティングの時代は終わり、エコノメトリクスによるマーケティングが台頭する - 渋谷駅前で働くデータサイエンティストのブログ

    (Image by Mediamodifier from Pixabay) 実はもう1年以上前のことなのですが、LinkedInで以下の記事を見かけて「おー、ようやくこういう意見が公の場に出てくるようになったんだな」と思ったのでした。原文は英語ですが、短い文章なので英語が不得手な方でも各種翻訳サービスなどを使えばサクッと読めるのではないかと思います。 で、何故そういう感想を抱いたのかというと「個人的にはもう2017年ぐらいからほぼ同じことを考えていたから」です。しかし、広告マーケティング業界(特にオンライン広告)では長年に渡り「個々の顧客にone-to-oneで訴求できることこそが最重要」という考え方が主流となってきていて、近年のパーソナライズド広告や見ようによってはレコメンデーションもその流れに沿って隆盛を誇ってきたアプローチとも言えます。そこに満を持して一石を投じる形になったのが、上記

    生活者ターゲティングの時代は終わり、エコノメトリクスによるマーケティングが台頭する - 渋谷駅前で働くデータサイエンティストのブログ
  • データサイエンティストの「真の実力」を測るための効果的な面接方法 - 渋谷駅前で働くデータサイエンティストのブログ

    (Image by neo tam from Pixabay) 最近こんな記事が出ていたようですが、僕にとっては既視感満載の話題でした。何故かというと、実は現職に来る以前に既にここで書かれている面接方法を実務担当者面接の責任者として実践していたからです。ちなみにその方法は2013年ぐらい当時のテック系メディアで記事として取り上げられていたものなのですが、残念なことに現在どれほど検索してもその記事が見つかりません……。 その内容自体はしばらく前に英語版Quoraに書いていたり*1もっと遡ればTwitterに書いたりしていたのですが、そう言えばブログには書いていなかったなと思い出したので、改めてブログ記事にしてみようと思います。なお、ここに書かれている内容は僕の現在の職務とは一切関係がないことを予めお断りしておきます。 データサイエンティストに必要なのは「解決する力」であって「瞬発力」ではない

    データサイエンティストの「真の実力」を測るための効果的な面接方法 - 渋谷駅前で働くデータサイエンティストのブログ
    rgfx
    rgfx 2020/11/02
  • 研究者を辞めた時のこと、そしてその後のこと - 渋谷駅前で働くデータサイエンティストのブログ

    TL;DR これは、このブログの題とは何の関係もない僕自身の回顧録にして懺悔録であり、見ようによっては怪文書です*1。故に、記事中には何の参考になる内容も書かれていないことを予めお断りしておきます。それでも良いという方だけ、この先をお読みください。ただしTL;DRと書いた通りで、超長文につきご注意を。 当時から7年が経ち、この中に登場する人物の中には既にリタイアしている人もいれば、物故している人もいます。ある意味もう時効だろうということで、その時起きたことをつぶさに書いてみることにした次第です。 研究者を辞めた時のこと 研究者の道を目指した理由 正直言って無能だったが、勉強だけは熱心なポスドクだった ポスドク待遇改善運動、研究体制改革運動を経て、業界では知らぬ者のないお尋ね者になった そしてポスドクをクビになり、国内に行き先がなくなった 土壇場でシンガポールでのjob talkに招かれた

    研究者を辞めた時のこと、そしてその後のこと - 渋谷駅前で働くデータサイエンティストのブログ
    rgfx
    rgfx 2019/02/01
  • NNが心理学と生理学から離れていった瞬間:Back propagationに関するNature論文(1986)の意義を考える - 渋谷駅前で働くデータサイエンティストのブログ

    (Fig. 1 from Rumelhart, Hinton & Williams, Nature, 1986) これはちょっとした小ネタです。僕自身はニューラルネットワーク (Neural Network, NN)の学術的専門家でもなければ況してやNNの研究史家でもないので、たかだか僕自身がかつて脳の研究者だった頃に把握していた事由に基づいて、極めていい加減な私見を書いているに過ぎないことを予めお断りしておきます。よって、この辺の事情に詳しい方いらっしゃいましたら、後学のためにも是非ご遠慮なくツッコミを入れて下さると有難いですm(_ _)m 先日のことですが、@tmaeharaさんがこんなことを呟いておられました。 オリジナル論文 https://t.co/kXfu8jIat3 これです.当にただチェインルールで微分して勾配法しているだけにしか見えない…….— ™ (@tmaehara

    NNが心理学と生理学から離れていった瞬間:Back propagationに関するNature論文(1986)の意義を考える - 渋谷駅前で働くデータサイエンティストのブログ
    rgfx
    rgfx 2018/10/23
  • データ分析は「強者の武器」、駆け出しのうちはデータが貯まるまでの間に他にやるべきことがある - 渋谷駅前で働くデータサイエンティストのブログ

    (Image by Pixabay) こんな面白い記事が出回っているのを先日見かけたのですが。 この6年弱のデータ分析業界での個人的な経験や業界内で見聞してきた知見の範囲で言うと、そもそも「データ分析は『強者の武器』であって小さな組織が使っても強い武器にはならない」というのがあると思っています。言い換えると「スタートアップと呼ばれているうちはデータ分析以外のところに注力すべき」ということかと。ということで、その辺の話をざっくり書いてみようかと思います。 データ分析の効果は「掛け算」なので、元手が多くないと意味がない これまで色々な場で色々なデータ分析の専門家によって言い古されてきた言葉*1とされるのが「データ分析の効果は『掛け算』」だということ。 つまり、データ分析の効果というのは一般には「売上プラス1億円」とかではなく「売上1%アップ」という感じになりやすい、ということです。すると当然な

    データ分析は「強者の武器」、駆け出しのうちはデータが貯まるまでの間に他にやるべきことがある - 渋谷駅前で働くデータサイエンティストのブログ
    rgfx
    rgfx 2018/02/03
  • 「統計学と機械学習の違い」はどう論じたら良いのか - 渋谷駅前で働くデータサイエンティストのブログ

    何かこんなメディア記事が出ていたようです。 これを読んで色々な人がツッコミを入れまくっている模様ですが、この記事の不思議なところは「完全に間違った説明というわけでもないのに何故か(両分野に詳しい)誰が読んでも猛烈な違和感を覚える」ところなんじゃないかなぁと。 正直、これはライター・インタビュアー・コメンテーター・編集者の誰のせいなのかは全く分からないんですが、ツッコミ入れられまくっている内容について色々あげつらってもあまり建設的でないので、ここでは記事中で題として取り上げられている「統計学と機械学習の違い」についてちょっとコメントしてみようと思います。 あ、もちろん僕がこれから書くコメントも別に正しいとは全く限らないので、おかしいところや間違ってるところがあったらバンバン突っ込んでいただければ幸いです*1。そしてガチ勢向けのコメントでもないので何卒悪しからず。 統計学はデータを「説明」す

    「統計学と機械学習の違い」はどう論じたら良いのか - 渋谷駅前で働くデータサイエンティストのブログ
    rgfx
    rgfx 2015/09/18
  • 「人工知能に対する楽観的な妄想」はいつか来た道 - 渋谷駅前で働くデータサイエンティストのブログ

    こんな名文が話題になっていたようで。 非常に面白い文章で、特に以下の下りは痛快だなと感心しながら読んでました。 2006 年頃、「現在の人工知能研究の先には新興宗教にはまる計算機が出てくる」というネタを思いついたが、知人の反応が悪かったのでお蔵入りした。それから 10 年近くたったが状態に変化はない。人間を超える知能という楽観的な妄想がどこから来るのか不思議で仕方がない。 同じような光景を以前見たことがあるなぁと思い出したので、その時のことを回想しながら現在の「人工知能ブーム」ないし「人工知能に対する楽観的な妄想」についてちょっと思うところを書いてみました。 なお、僕自身は人工知能というか機械学習の専門家ではなくどちらかというとそれらのアルゴリズムのユーザーという立場なので、その立場から主に世論の動きについて論じてみましたという立ち位置です。 人工知能そしてsingularityという「夢

    「人工知能に対する楽観的な妄想」はいつか来た道 - 渋谷駅前で働くデータサイエンティストのブログ
    rgfx
    rgfx 2015/05/01
    「仮に猿が実現できて、次に人間を実現しようとなったとき、最初にできるのは高度な知能と一般に想像されるものではないだろう。むしろ、次々と迷信を生み出すような何かのはず。」
  • 杜氏のいない蔵元が示した「データ分析さえすれば職人の技を職人抜きでも再現できる」という事実の凄み(追記あり) - 渋谷駅前で働くデータサイエンティストのブログ

    先日、とあるコンサルの社長さんとお酒を飲みながらお話していて出てきた話題が「畢竟データ分析って何の役に立つんだろう?」というものだったんですが、そこで僕が思い出して紹介したのが「獺祭」で世界進出を成功させている旭酒造のエピソードだったのでした。 ということで、その事例を振り返りながら久しぶりにちょっと与太話でもしようと思います。 http://www.tv-tokyo.co.jp/cambria/backnumber/20140116.html ちなみに上ははてブでも大きな話題を呼んだ東洋経済の特集記事ですが、僕にとってはテレ東カンブリア宮殿で紹介された時の映像の方が遥かに衝撃的でした。 「獺祭」は杜氏でも何でもない普通の社員が、データに基づいて一挙手一投足を決めながら仕込んでいる 東洋経済の記事では割とざっくりとしか書かれてないんですが、カンブリア宮殿で放映された映像では獺祭の製造工程の

    杜氏のいない蔵元が示した「データ分析さえすれば職人の技を職人抜きでも再現できる」という事実の凄み(追記あり) - 渋谷駅前で働くデータサイエンティストのブログ
    rgfx
    rgfx 2014/11/01
    (「優秀な温度・湿度センサーであることが必要」オフセット印刷機のオペレータでもそういうことは聞くなあ。。
  • そもそもビジネスの現場ではどういう「レベル」の統計学を使うべきなのか - 渋谷駅前で働くデータサイエンティストのブログ

    データサイエンティストブームが去りつつある一方で、データ分析ブームそのものはじわじわと広がり続けている感じのする昨今ですが。最近また、色々なところで「当にビジネスやるのに統計学って必要なの?」みたいな話題を聞くことが増えてきたので、何となくざっくりまとめて書いてみました。 ちなみに今回の話題の参考図書を挙げようと思ったら、この辺ですかね。 とある弁当屋の統計技師(データサイエンティスト) ―データ分析のはじめかた― 作者: 石田基広,りんと出版社/メーカー: 共立出版発売日: 2013/09/25メディア: 単行この商品を含むブログ (13件) を見る 統計学入門 (基礎統計学) 作者: 東京大学教養学部統計学教室出版社/メーカー: 東京大学出版会発売日: 1991/07/09メディア: 単行購入: 158人 クリック: 3,604回この商品を含むブログ (78件) を見る 当は赤

    そもそもビジネスの現場ではどういう「レベル」の統計学を使うべきなのか - 渋谷駅前で働くデータサイエンティストのブログ
    rgfx
    rgfx 2014/01/22
  • ネタとして秀逸どころか実際に大いに使える『データサイエンティスト レベル表』(記事紹介) - 渋谷駅前で働くデータサイエンティストのブログ

    はてなIDコールから突然Twitterにリプが飛んできたので、何かと思ったら以下の@shakezo_さんの記事で言及されていたのでした。 データサイエンティスト レベル表 - shakezoの日記 これがですねぇ、もうこれ以上ないくらい大変面白かった!ので是非とも紹介させていただきたく。ポイントとしては面白いだけでなく、実際にデータサイエンティストのレベル分けとしても大いに使えるところだと思ってます。 正直言って、どのレベル設定も非常~~~によく出来てます。僕の理解でかいつまんでまとめてみると、 レベル0:まだデータ分析してない レベル1:Excelなどでデータ分析の真似事を始めたばかり レベル2:RやSPSSで機械学習・統計学・データマイニングっぽいことが出来る レベル3:原理を知る必要が出てきてPRMLに手を出し始める レベル4:PRMLは大体読みこなせて、KDDとかICMLとかの論文

    ネタとして秀逸どころか実際に大いに使える『データサイエンティスト レベル表』(記事紹介) - 渋谷駅前で働くデータサイエンティストのブログ
    rgfx
    rgfx 2013/07/16
  • 「数式が苦手でも統計やりたいのでRで試す」は現実問題としてはアリだと思う - 渋谷駅前で働くデータサイエンティストのブログ

    むしろ数式が苦手だけど統計を勉強したいという人はRをやるといいかもしれない - Line 1: Error: Invalid Blog('by Esehara' ) ものすごくブコメを集めてるので、読んでみました。で、結論から言うと「四の五の言う人はいるかもしれないけどデータ分析の世界への入り口としてはアリ」だと思った次第です。 ということを書くと、どこからともなく「ハァ?ちゃんとした原理も何も知らずにツールだけ使って分かった気になっても意味ないよ?」みたいなツッコミが飛んできそうな気がしますが。。。有体に書くと、確かにアカデミックの世界ではそうだと思います*1。けれども、ビジネスの現場ではこれも一つのチョイスだと言ってよいと思うのです。以下にその理由を挙げていきます。 「目の前の問題に統計学がどんな結果を返して見せてくれるのか」が分かることは、理解する上で最も手っ取り早い 世の中の人の多

    「数式が苦手でも統計やりたいのでRで試す」は現実問題としてはアリだと思う - 渋谷駅前で働くデータサイエンティストのブログ
    rgfx
    rgfx 2013/07/09
  • 1