資料來源說明
本站每筆避雷紀錄都附原始來源連結與 archive 存檔。資料怎麼來、怎麼清洗、怎麼保存,這頁完整公開。
資料來源類型
- Threads 公開貼文 / 評論 — 從特定避雷主題串、地點關鍵字搜尋結果中收集
- Facebook 公開租屋社團貼文 — 透過合作專案 rental-analysis 每日更新,僅收錄公開可見內容
- Google Maps 公開評價(規劃中) — 對特定房東 / 仲介公司的公開評論
- 實價登錄等政府公開資訊 — 作為地址 / 社區資訊輔助
不收錄的內容
- 私密群組 / 私訊截圖(無法公開驗證)
- 只有情緒抱怨無具體事實的內容
- 含個資(手機 / 身份證 / 未公開姓名)且無法脫敏的內容
- 已知為房客 vs 房東之間仲裁案件且雙方說法各執
- 無法明確指涉某地址 / 房東 / 社區的模糊敘述
清洗流程
- 原始資料採集:爬蟲從公開來源抓取貼文 / 評論,保留完整 raw text 與來源 URL
- AI 自動結構化:透過 Claude API 將自由文字轉為符合本站 schema 的結構化欄位(地址、避雷類型、嚴重度等),同時為每筆抽取結果評估信心指數(high / medium / low)
- 個資脫敏:自動偵測並移除手機號碼、身份證、Email、未公開姓名
- Archive 存檔:每筆紀錄的原始貼文同步存到 Internet Archive Wayback Machine(主)與本站自有截圖(備援),確保原 PO 刪文後仍可舉證
- 低信心進審核佇列:AI 信心指數為 low 的紀錄不直接上線,進人工審核佇列
- 人工抽樣驗證:每批新進資料抽樣人工驗證,確保清洗準確度
資料完整性保證
- 每筆紀錄保留
original_text(原始文字完整保留,不刪減不改寫) - 每筆紀錄保留
source_url(原始貼文連結) - 每筆紀錄保留
archived_at與archive_url(存檔資訊) - 每筆紀錄保留
datePublished(原始發文日期) - 每次本站修改紀錄會更新
dateModified
聚合演算法
本站除了單筆紀錄,還產出聚合頁面:
- 同地址聚合:根據
address欄位 - 同社區 / 同棟聚合:根據地址 geocoding 後的座標,半徑 100m 內聚合
- 同房東 / 仲介聚合:根據 LINE ID / 品牌簽名 / 姓氏等可識別標識
- 行政區聚合:根據
district欄位
資料更新頻率
- FB 雙北資料源:每日 incremental 同步
- Threads 台中資料源:定期批次補完
- 個別紀錄修正:依爭議處理流程隨時更新
透明度承諾
- 不刪除已上線紀錄(只會更新狀態,例如標註「當事人聲明」)
- 不接受房東 / 仲介付費刪除紀錄的請求
- 對個別紀錄的修改保留 audit trail
- 清洗 prompt、聚合演算法等技術細節公開於 本站 GitHub repo(規格層)