データレイクのおじさん

Noteもやってます:https://note.com/yukinkoyuki

データエンジニア

AWS Subnet内で利用されていないIPを取得する(Pick up dynamically unused Private Ip Address from subnet on AWS )

普通に家で書いて、普通に実務で使ってるもの。 EC2のインスタンスに対して、空いているprivate IP をセカンダリIPとして設定したかったので、空いているIPを動的に取得してその値を用いる必要があった。 コードは以下。 list all private in CIDR 今回は、…

Embulk vs Mysqlのハマりポイント

取り込みの業務ででEmbulkを使っていると(個人的にsqoopよりembulk派)思わぬところでつまづく時がある。 mysql pulginとparquet用のプラグインを組み合わせて利用している(orcも)。 MysqlのtmpSpaceがたりない。 洗い替えのパターンなどで、大量のデータを…

AWSのプライベートサブネットに配置すると言うこと

プライベートサブネットで運用するとは? 面倒くささと引き換えにセキュリティとして安全であるということ。 要件が許すのであれば、全部パブリックが嬉しいいがそうもいかない。仮に要件がそうなっていなかったとしてもデータの安全性を考慮するのであれば…

エンジニアと英語 語彙力は戦闘力 リーディング

語彙力は戦闘力 これに尽きる。リーディングをする際に必要なものは 背景知識(全く意味不明なものは、日本語でも読めない) 語彙力 イメージ力(日本語に訳さないために必要) この3点があるだけで、読める本や文献は相当増えてくると思う。 背景知識 日本…

terraform で既存のS3バケットの情報を引っこ抜いてくる

既存との戦い 一から作るサービルならまだしも、 歴史のあるサービスを移行するときなどは、元々の状況を活かしつつ、新しい価値を生み出していくことが求められる。 とかっこいいことを言ってみたものの、 今回は既存のS3バケットの設定を持ってきて、その…

データ利用のピラミッド データエンジニア を俯瞰してみる

現在データエンジニアとして、社内で働いています。 が、、、あまり知名度?が高くないらしく入社される新卒の方もデータエンジニア ?とあまりしっくりしない様子。 そんなモヤモヤをいくつかの投稿を通して、解決できればいいなぁと思っております。 あま…