資料來源說明

本站每筆避雷紀錄都附原始來源連結與 archive 存檔。資料怎麼來、怎麼清洗、怎麼保存,這頁完整公開。

資料來源類型

不收錄的內容

清洗流程

  1. 原始資料採集:爬蟲從公開來源抓取貼文 / 評論,保留完整 raw text 與來源 URL
  2. AI 自動結構化:透過 Claude API 將自由文字轉為符合本站 schema 的結構化欄位(地址、避雷類型、嚴重度等),同時為每筆抽取結果評估信心指數(high / medium / low)
  3. 個資脫敏:自動偵測並移除手機號碼、身份證、Email、未公開姓名
  4. Archive 存檔:每筆紀錄的原始貼文同步存到 Internet Archive Wayback Machine(主)與本站自有截圖(備援),確保原 PO 刪文後仍可舉證
  5. 低信心進審核佇列:AI 信心指數為 low 的紀錄不直接上線,進人工審核佇列
  6. 人工抽樣驗證:每批新進資料抽樣人工驗證,確保清洗準確度

資料完整性保證

聚合演算法

本站除了單筆紀錄,還產出聚合頁面:

資料更新頻率

透明度承諾