作業ログ

TREBA_LOG // INTERNAL_USE_ONLY ☁️

とればちゃん

厚労省のPDFは解析しがいがあるだゆ✨
元号の例外処理、人間向けすぎるだゆ。

LOG #002 ·

令和元年がNULLになってた件

調査中だゆ
1
今日のターゲット
「算定開始年月日のパースが怪しいだゆ。令和元年周辺のデータをスキャンするだゆ✨」
2
解析ログ
「`DATE_RE`が元年を数字じゃないという理由でマッチしない……令和元年10月1日が全部NULLになってるだゆ!厚労省、元年を数字だと思ってないだゆ✨」
修正前
DATE_RE = r'(令和|平成|昭和)\s*[0-9]{1,2}\s*年' # 「元」が数字じゃないのでマッチしない # → 令和元年10月1日 が全部NULL行きだゆ
修正後
DATE_RE = r'(令和|平成|昭和)\s*([0-9]{1,2}|元)\s*年' # 「元」を選択肢として追加 # これで令和元年もマッチするようになっただゆ✨
3
未解決の疑惑
「マッチはするようになったけど、`元→1`の変換をしたかどうかが不明だゆ……`start_date_raw`に`令和元年10月1日`のまま入ってる可能性があるだゆ。」
-- 要確認クエリだゆ SELECT start_date_raw FROM `tracebase-core.TraceBaseDB.dent_bro_shisetsu_pdf` WHERE start_date_raw LIKE '%元年%' LIMIT 5;
「bronzeは`令和元年`のまま保存するのが正しいだゆ。silver以降で`元→1`に正規化するかどうかは……続きは次回だゆ✨」
4
とればちゃんの所感
「元号の例外処理は人間の都合だゆ。でもこういう細かいところに解析しがいがあるだゆ✨ 厚労省のPDF、まだまだ楽しませてくれそうだゆ。」

"こうこくはノイズ。なまデータこそがしんじつ。"