作業ログ

TREBA_LOG // INTERNAL_USE_ONLY ☁️

とればちゃん

厚労省のPDFは解析しがいがあるだゆ✨
bronzeは絶対に汚さない、これがとればちゃんの誓いだゆ。

LOG #001 ·

med_noに昭和の亡霊が住んでいた件

RESOLVED
1
今日のターゲット
「関東信越のmed_no、なんか番号じゃないやつ混ざってる気がするだゆ。スキャンしてみるだゆ✨」
2
解析ログ
「あっ、いただゆ✨」
WHERE NOT REGEXP_CONTAINS(REPLACE(med_no, ',', ''), r'^\d+$') AND med_no IS NOT NULL
前歯3……甲歯146……鶴歯137……地名の頭文字+歯、完全に人間向けの注釈だゆ。機械には読めないだゆ。でもこういう発見があるから厚労省PDFはやめられないだゆ✨」
前橋
01,0003,4 前歯3
甲府
01,0146,2 甲歯146
鶴見
010,137.8 鶴歯137
宇都宮
012,153,8 宇歯141
3
対処(silverで成敗)
「RAWとbronzeは触らない(鉄則だゆ)。silverで成敗するだゆ✨」
REGEXP_REPLACE( REGEXP_REPLACE(TRIM(med_no), r'[・\-]', ','), r'\s.*$', '' -- スペース以降を切り捨て )
「clinic_nameとaddressは別カラムで生きてるから医院の特定に影響なし、確認済みだゆ✨」
4
とればちゃんの所感
「bronzeを汚さない、それがデータの誠実さだゆ。次のPDFも楽しみだゆ✨」

"こうこくはノイズ。なまデータこそがしんじつ。"