2023-01-01から1年間の記事一覧

Pensieve: An embedding feature platformの要約

要約 近年では、特徴量自体もmanualではなく、機械学習手法で作成されることが主流になってきている。 LinkedInにおいて、embedding feature platformとして使われているPensieveについて紹介する。Pensieveは教師あり機械学習として学習され、潜在表現を利…

Delta Lakeのdocumentを読んだメモ

Delta Lake S3, Azure data lake storage, HDFSなどのデータレイクファイルストレージに構築されるOSSのストレージレイヤー。1つのテーブルに対して、ストリーミング・バッチ処理の両方に対応できる。 構造化・非構造化データを単一システムに集約してデー…

MLflowのdocumentを読んだメモ

MLflowとは 機械学習のライフサイクル全体で、workflow, artifactを管理できるOSS。様々なMLライブラリで利用することができる。MLのコードに対して、最小限の変更を行うだけで、各data scientistが実行した実験結果を再現できるようになる。 なお、ここでい…