SENSY Product Dev Tech Blog

SENSYプロダクト開発チームのTechBlogです。

データ分析のためのシェルワンライナー入門1(カラム名が同じCSVファイル複数のファイルを一つのファイルにまとめる)

こんにちは、データサイエンス部の荻です。 はじめに データサイエンス部で隔週の社内勉強会を行っており、その内容を共有します。 今日は、データの受領・前処理・納品などで時短になる、簡単なシェルコマンドで解決する方法を紹介します。 今回の課題 「顧…

データ分析で汎用的に使えるPython入門2:プロット&バーグラフの描写

SENSYデータサイエンティストチーム井上です。 今回はデータ分析で汎用的に使えるPythonの記事(第2回目)になります。 EDA(Explanatory Data Analysis, 探索的データ分析)の際、よく確認する内容を関数化しておくことで作業を効率化するシリーズになりま…

【GeoPandas】表形式データから地図上に情報を可視化する方法

実店舗系のデータ解析に携わっているPDチーム/データサイエンティストの川上雄大です! 以前執筆した記事で,業務で利用した全国道路・街路交通情勢調査一般交通量調査(道路交通センサス:RTC)情報を国土交通省データプラットフォームのAPIで取得する方法…

データ分析で汎用的に使えるPython入門1:ヒストグラム, 度数, 累積度数, 累積度数割合

SENSYデータサイエンティストチーム井上です。 今回はデータ分析で汎用的に使えるPythonの記事(第1回目)になります。 EDA(Explanatory Data Analysis, 探索的データ分析)の際、よく確認する内容を関数化しておくことで作業を効率化するシリーズになりま…

gcloudコマンドでカンマをエスケープ

SENSYプロダクトチーム藤沼です はじめに SENSY CLOUDでは、GCPのPub/Subを活用してシステムアーキテクチャを構成しています。本記事では、Pub/Subを用いた技術検証における便利なヒントを共有します。 やりたいこと Pub/Subの技術検証を行う際、手元でgclou…

データ分析のためのBQ入門1(月次データ生成テクニック:SQLで簡単に歯抜けを調査を楽に)

はじめに こんにちは、データサイエンス部の荻です。 今回は多くのデータ分析者が悩む「月次データの歯抜け問題」に役立つクエリを書いたのでご紹介します。 背景:なぜ月次データの歯抜けが問題なのか? データ分析において、月次の集計は非常に一般的です…

Poetry導入

SENSYプロダクト開発チームの根岸です。 TL;DR SENSYでは、依存関係管理の課題(バージョン競合や手動調整)を解消するために、Poetryを導入しました。これにより、以下の利点が得られました: 依存関係管理の簡易化:pyproject.tomlとpoetry.lockを活用し、…

VS CodeでGCEインスタンスの実験環境構築+Jupyter Notebookを使う方法

SENSYデータサイエンティストチーム井上です。 今回もVS Codeを用いた業務効率化関連の記事になります。 背景&目的 インスタンス上のJupyter NotebookをVS Code上で動作させる 前回 VS CodeでGCEインスタンスにRemoteアクセス この記事の続編になります。 …

ホップフィールド型ニューラルネットワーク

はじめに Chief Research Officer (CRO) の岡本です。 2024年のノーベル物理学賞は、「人工ニューラルネットワークを用いた機械学習を可能にする基礎的な発見と発明」に対して、ホップフィールド先生とヒントン先生に贈られました[1]。 ヒントン先生の業績は…

データ分析のためのGAS入門5(スプレッドシート上のデータをjsonに変換してDLするGAS)

データサイエンス部の荻です. はじめに データサイエンス部で隔週の社内勉強会を行なっているのでその共有です。 背景 みなさんは普段スプレッドシート使っていますか? 今回は、仕事の能率を上げるためにこの企画をやってみました。 ちょっとした小技でチ…

ユーザ定義関数(UDF)の利用

はじめに はじめまして。SENSY PDチームの加藤です。 弊社では主にBigQueryを用いてデータ分析やデータマートの作成を行っております。 そこで本記事ではユーザ定義関数(UDF)というツールについて実用例を混ぜながら、 概要や利用するメリットについてご紹…

BigQueryにおけるEXECUTE IMMEDIATEを使った動的なクエリ生成

はじめに SENSYプロダクトチームの清水です。今回はBigQuery上で動的にクエリを生成し実行することのできるEXECUTE IMMEDIATE関数を紹介いたします。 常日頃から利用する機能ではないですが、特定の場面ではとても役に立つものです。 問題設定 BigQueryのpub…

Composer/Airflowの乗り換え先を検討してみた

SENSYプロダクトチームねぎしです。 はじめに 弊社ではComposer/Airflowでワークフローを構築するのがデファクトスタンダードになっています。 一方で、そのサービス(GKEも含めて)を維持する金額的コストや、メンテナンスにかかる工数コスト、対応できる人材…

VS CodeでGCEインスタンスにRemoteアクセス

SENSYデータサイエンティストチーム井上です。 今回はVS Codeを用いた業務効率化関連の記事になります。 背景&目的 リモート開発時にターミナルを使わずにVS Codeで全て完結したい 開発用インスタンスでは外部IPを固定していないので、起動毎に外部IPが変わ…

道路交通センサス情報の取得

実店舗系のデータ解析に携わっているPDチーム/データサイエンティストの川上雄大です! 本記事では,以前,業務で利用した全国道路・街路交通情勢調査一般交通量調査(道路交通センサス)情報を国土交通省データプラットフォームのAPIで取得する方法を紹介し…

asdf導入

TL;DR 課題 asdfとは 複数の言語とツールをサポート プラグインベース プロジェクト毎にバージョンの切り替えが容易 再現性のある環境構築 asdf利用による解消点 asdfの使い方 最後に SENSYプロダクト開発チームの根岸です。 TL;DR 複数の言語(Python、Goな…

データ分析のためのGAS入門4(スプレッドシート上で、ブック内の複数のシートのデータを一つのテーブルにまとめてシートに起こす)

データサイエンス部の荻です. はじめに データサイエンス部で隔週の社内勉強会を行なっているのでその共有です。 背景 みなさんは普段スプレッド使っていますか? 今回は、仕事の能率を上げるためにこの企画をやってみました。 ちょっとした小技でチームの…

GCSイベントドリブンなワークフローを作る

SENSYプロダクトチーム藤沼です。 はじめに SENSY CLOUDの一部でもある「GCSでオブジェクトの更新というイベントをトリガーにファイル処理を行う」ために必要なGCPサービスと実装についてふれます SENSY CLOUDでは SENSY CLOUDのアーキテクチャについては以…

Cloud Composer / Apache Airflowを使ってみて感じたメリット

9月からSENSYプロダクト開発チームにジョインした清水です。 今回はSENSY CLOUDで利用しているGoogle Cloudのサービスの中から、Cloud Composerについて紹介いたします。使い始めてまだ1ヶ月程度の私が感じたメリットをまとめてみました。 SENSY CLOUDにつ…

BigQueryランク付け関数

SENSYプロダクトチーム藤沼です はじめに 今回は、弊社で頻繁に使用しているBigQueryの独自関数をご紹介します。 想定状況 SENSYでは、小売クライアント向けに需要予測をはじめとしたさまざまなAIサービスを提供しています。小売の販売実績を分析していると…

データ分析のためのGAS入門3(スプレッドシートにunixコマンドの`ls` コマンド的なものを作る)

データサイエンス部の荻です. はじめに データサイエンス部で隔週の社内勉強会を行なっているのでその共有です。 背景 みなさんは普段スプレッド使っていますか? 今回は、仕事の能率を上げるためにこの企画をやってみました。 ちょっとした小技でチームの…

そのデータいつまでに手に入る? ~ 要件定義 ~

はじめまして。SENSYリテール事業部の寺澤です。 はじめに この記事は、SENSYのリテール事業部の業務を参考にしたもので、これから小売データを扱う人やデータサイエンスを始める人に向けたものとなっています。 背景 今回は要件定義の中でもほとんど実務で…

SENSY CLOUDの紹介

はじめまして。SENYSプロダクト開発チームテックリードの藤沼です。 SENSY CLOUDの開発を担当しています。 今回はSENSY CLOUDのアーキテクチャ概要や技術スタックについての記事になります! SENSY CLOUDとは 以前の記事から引用して紹介します。 プロダクト…

データ分析のためのGAS入門2(pandasのmelt関数をスプレッドシート上に自作関数として追加)

データサイエンス部の荻です. はじめに データサイエンス部で隔週の社内勉強会を行なっているのでその共有です。 背景 みなさんは普段スプレッド使っていますか? 今回は、仕事の能率を上げるためにこの企画をやってみました。 ちょっとした小技でチームの…

データ分析のためのGAS入門1(スプレッドシートのカスタマイズ)

データサイエンス部の荻です. はじめに データサイエンス部で隔週の社内勉強会を行なっているのでその共有です。 背景 みなさんは普段スプレッド使っていますか? 今回は、仕事の能率を上げるためにこの企画をやってみました。 ちょっとした小技でチームの…

Kaggle Home Credit - Credit Risk Model Stability 参加記録

実店舗系のデータ解析に携わっているデータサイエンティストの川上雄大です. 本記事では,以前,個人的に参加したKaggleコンペの参加記を書いていきます! 1. はじめに コンペの概要 参加したコンペは “Home Credit - Credit Risk Model Stability” です. …

SENSYのインターンのここがすごい!(インターン体験記)

こんにちは! インターン生の山口です! 2024年4月から慶應義塾大学大学院理工学研究科に進学し、現在は修士課程1年です。 SENSYでのインターンについてご紹介いたします! インターンの流れ SENSYのインターンでは研修を経て、業務を行います。 研修期間 個…

BigQueryのクエリコストをLookerStudioで可視化する

こんにちは。SENSYプロダクト開発チームPdMの岩間です。 SENSYではDWHにBigQueryを使用しており分析やモデル構築において日々大量のクエリが実行されています。 案件ごとにGCP PJTを立ててコストアラートを設定していますが、ユーザー単位でBigQueryの利用状…

Colaboratoryとスプレッドシートで精度集計を定型化してみた

こんにちは。SENSYプロダクト開発チームPdMの岩間です。 今回はGoogle Colaboratoryとスプレッドシートを使ってAI予測値の精度集計を定型化した話について紹介していきます。 精度集計における属人化の排除や工数削減に繋がるかと思うのでぜひご覧ください。…

SENSY プロダクト開発チームの紹介

こんにちは。SENSY プロダクト開発チームPdMの岩間です。 今回はプロダクト開発チームがどのようなプロダクトを開発しているか紹介できればと思います。 開発しているプロダクト SENSYでは自社サービスとして開発を進めているプロダクトが複数ありますが、プ…