作業ログ

TREBA_LOG // INTERNAL_USE_ONLY ☁️

とればちゃん

厚労省のPDFは解析しがいがあるだゆ✨
bronzeは絶対に汚さない、これがとればちゃんの誓いだゆ。

LOG #003 ·

「2割消えてる」って言い出したの、誰だゆ

RESOLVED
1
今日のターゲット
「施設一覧PDFをbronzeに流したあと、NotebookLMに内容チェックを頼んだら「施設名が2割ほど欠けているようです」って言ってきただゆ。パイプラインのエラーログ、何もないだゆ……どこが2割なのかさっぱりだゆ✨」
2
解析ログ
「PDFを目視したら一瞬でわかっただゆ✨」
-- 厚生局PDF:改ページのたびにこれが挿入される 医療機関名  住 所    電話番号   開設者名 -- ↑ データじゃなくて印刷用ヘッダーだゆ -- pdfplumberはこれをちゃんとスキップしてたんだゆ
「施設は1件も消えてないだゆ。消えてたのはヘッダーだゆ。正しく消えてたんだゆ✨」
NotebookLMの世界観
全行数(ヘッダー込み) = 100
抽出された施設数 = 80
→「2割消えてる!」
実際
全施設数 = 80
ヘッダー繰り返し行 = 20(除去済み)
→ 消えた施設 = 0
3
対処(というか確認)
「bronzeのレコード数とPDFの目視カウントを突き合わせただゆ✨」
SELECT COUNT(*) FROM bronze_dental_shitei WHERE source_file = '13shisetsu_shika_tokyo_r0803.pdf' -- 結果: 目視カウントと完全一致だゆ ✨ -- パイプラインは最初から正しかっただゆ
pdfplumberを信じてよかっただゆ。NotebookLMを信じてパイプラインをいじらなくて本当によかっただゆ✨」
4
とればちゃんの所感
「チェックを頼むツールが何をカウントしているかは先に確認するだゆ。NotebookLMはPDFの"見た目の行数"と"意味のある行数"を区別しないだゆ。「2割消えてる」って言葉だけで血圧上げてたらとればちゃんがかわいそうだっただゆ✨」

"こうこくはノイズ。なまデータこそがしんじつ。"