zono@Data Engineer

590 posts

zono@Data Engineer banner
zono@Data Engineer

zono@Data Engineer

@zono_data

Data Engineer / Stats & Machine Learning Enthusiast / As an Amazon Associate, I earn from qualifying purchases / Tweets are totally personal & my own

Katılım Mayıs 2023
98 Takip Edilen1.2K Takipçiler
Sabitlenmiş Tweet
zono@Data Engineer
zono@Data Engineer@zono_data·
社内のデータサイエンティストがデータエンジニアリング業務をやってみたいという意見が少し増えてきた。 どこから勉強すればいけばいいのか分からないらしいが、とりあえず目の前の業務をやりつつ、周辺知識を書籍から拾っていくのがいいのでは?と言っておいた。 note.com/zono_data/n/n6…
日本語
0
49
441
54.6K
zono@Data Engineer
zono@Data Engineer@zono_data·
データアーキテクチャの主要な選択肢の基礎から組織体制・技術選択まで網羅した書籍。 アーキテクチャ選定に迷っている現場は多いと思う。 どれが正解かではなく、自組織の状況に応じた判断軸を持てるようになることが、この本の本質的な価値だと感じた。 すごく良書。 amzn.to/4vbQI6U
日本語
0
8
104
3.9K
zono@Data Engineer
zono@Data Engineer@zono_data·
この本の原著「Deciphering Data Architectures」評判良いし、個人的にも好きな本。 日本語訳が登場するのは嬉しい。 amzn.to/44TNeum
日本語
0
10
52
2.3K
zono@Data Engineer
zono@Data Engineer@zono_data·
今年は仕事やプライベートが急に忙しくなってしまい、Xをやる時間がかなり減ってしまった。 読書はできていたので良かった。
日本語
0
0
0
209
zono@Data Engineer
zono@Data Engineer@zono_data·
データエンジニアの面接で聞かれる「データパイプラインの設計方法」や「技術選定の方法」などの質問はこの本を実践できていればある程度回答できるはず. 普段から技術の背景や特徴をキャッチアップしつつ、実務でどのように経験するかが重要. まず経験することが難しいが... amzn.to/47Ah20K
日本語
0
20
216
10.6K
zono@Data Engineer
zono@Data Engineer@zono_data·
この書籍の原著をサラッと読んでみたけど良かった。 非構造化データの取扱いやスキーマ管理の複雑さといった課題を解決するためのアプローチの1つ。 Apache Spark等のバッチ・ストリーミング処理での冪等性についても触れたりしていて良書だと思っている。 amzn.to/4nI3EMM
日本語
0
19
154
10.4K
zono@Data Engineer
zono@Data Engineer@zono_data·
メダリオンアーキテクチャも非構造化データに対応するように考慮され始めている。 非構造化データとLLMを組み込み拡張できるようなRAGパターンがいくつか紹介されている。 どうやって構造化データと非構造化データを統合していくかが鍵になってきたりする。 piethein.medium.com/unstructured-d…
日本語
1
13
148
14.8K
zono@Data Engineer
zono@Data Engineer@zono_data·
比較的新しいデータエンジニアリングの情報を英語で取りに行くなら、このようなコミュニティとかを見ると面白い。 普段、海外のデータエンジニアやアナリストがどんなことで困っていて、どんな技術をキャッチアップしているのかを見ることができる。 reddit.com/r/dataengineer…
日本語
0
7
102
5K
zono@Data Engineer
zono@Data Engineer@zono_data·
この数年でソフトウェアエンジニアリングの書籍が増えてきている印象がある。 やはりAIの台頭により、各職種の守備が広がり、データサイエンティストのような職種にもテスト、リファクタ、デプロイのようなSWEの一部の業務内容が求められてきているのかもしれない。 amzn.to/47iOXcV
日本語
0
1
34
1.8K
zono@Data Engineer
zono@Data Engineer@zono_data·
データサイエンティストの役職が上がったり、データエンジニア業務も開始するようになった時に紹介すると喜ばれる本。 広い範囲を扱っていて読みやすいので結構人気なんだと思う。約4年前の本だけど良書の1つ。 実践的データ基盤への処方箋 amzn.to/4n5EmI8
日本語
0
1
13
1.7K
zono@Data Engineer
zono@Data Engineer@zono_data·
この本、個人的に好みだった。 データ活用は分析等の利活用するものだけを格納するように限定したり、定期クエリのような見せかけのデータ活用だけではなく、業務改善等の本来やるべき活用するというのが書かれている。 慣れや業務分担が進んだ時に再度読み返したい。 amzn.to/4nNOTZD
日本語
0
6
52
2.3K
zono@Data Engineer
zono@Data Engineer@zono_data·
データの整合性を考慮したパイプライン作り。 データパイプラインが複雑になればなるほど難しくなるが、チェックポイントを使った実装は無難だと思っている。 自動的にリトライされるようになっていても良いし、別フローとして意図的に再実行させるのもケースによる。 @vivekburman1997/data-engineering-part-1-idempotency-retry-and-recovery-b3631a9b8b6f" target="_blank" rel="nofollow noopener">medium.com/@vivekburman19
日本語
0
1
18
1.6K
zono@Data Engineer
zono@Data Engineer@zono_data·
なるほど。 データサイエンティストは.ipynb形式のNotebookで仕事することがほとんどなので、コードレビュー文化やソースコード管理とか品質テスト等は未経験な人も少なくない。 amzn.to/4oifHkN
日本語
0
0
7
661
zono@Data Engineer
zono@Data Engineer@zono_data·
データ同期処理を劇的に改善した事例。 このように既存の仕組みがボトルネックになり、新方式移行する必要が発生するのは往々にしてある。 既存機能調査や他チームへの交渉、新方式の検証といった泥臭い内容は非常に参考になる。 federated queryが使えるとシンプルになる。 techblog.goinc.jp/entry/2022/07/…
日本語
0
1
7
1.2K
zono@Data Engineer
zono@Data Engineer@zono_data·
ビッグデータの品質を評価し、管理するための資料。 サンプリング、プロファイリング、データ品質のディメンションが記載されている。あくまで品質手法の話で、あわせて書籍データ品質実践ガイドも読みたい。 リンク先のPDFは無料で取得できた。 link.springer.com/chapter/10.100…
日本語
0
3
21
983
zono@Data Engineer
zono@Data Engineer@zono_data·
5つの層から成るアーキテクチャのフレームワーク。 こんな論文が出ていたからなのか、メダリオンアーキテクチャ2.0とかプラチナレイヤー等の概念が少しづつ登場したのかもしれない。 ibimapublishing.com/articles/CIBIM…
zono@Data Engineer tweet media
日本語
0
13
118
8.6K
zono@Data Engineer
zono@Data Engineer@zono_data·
このようなクエリのルールは改めて重要だと感じる。 今はAIがクエリを書いたりレビューしたりするが、ルールを定めて守らせないと想定した挙動をしないことがある。 最終的な人間の判断のため、サブクエリは使わないとか、カラムにJOIN元のCTEsを明記させるとかは必要。 zenn.dev/tenajima/artic…
日本語
0
3
15
776
zono@Data Engineer
zono@Data Engineer@zono_data·
ほう。データモデルの書籍が発売される。 「データの意味のズレ」からくる同じ言葉を使っているのに話が噛み合わないことを解決できるのか? データ分析基盤だけではない、広い範囲になる模様。 amzn.to/4nWqZep
日本語
0
0
12
510
zono@Data Engineer
zono@Data Engineer@zono_data·
Data Vaultを運用した記事。 ディメンショナルモデリングとの相性の良さ等のメリット・デメリットや手法の採用基準、その他技術も紹介。 これだけの内容を全て無料で公開してくれているのは非常にありがたいこと。 Data Vaultを3年以上運用して得た学び - yasuhisa's blog yasuhisay.info/entry/2025/09/…
日本語
0
2
11
942
zono@Data Engineer
zono@Data Engineer@zono_data·
イベントソーシングとチェンジデータキャプチャ(CDC)を比較。 Outboxパターンやコマンドクエリ責務分離(CQRS)といった関連する設計パターンやCDCとの組み合わせも。 最後の「さらに先へ進むためのリソース」というドキュメントや記事も良い。 rheb.hatenablog.com/entry/2020/02/…
日本語
0
4
19
1.6K