Sitemap 生成的工程化设计：多数据源合并、去重、语言齐全约束与降级策略

sitemap.xml 不是“把所有 URL 列出来”这么简单。

只要你的站点开始满足任意两条：路由规模增长、内容来自 CMS、多语言、存在历史兼容与 rewrite、模板页/运行时路由，你就会很快遇到工程问题：漏路由、重复路由、语言缺失、收录口径不一致、以及数据源异常导致 sitemap 直接 500。

这篇文章给一套可复用的方法论：把 sitemap 当作“发布契约”，用工程手段保证它一致、可回归、可降级、可解释。

TL;DR（30 秒讲清楚）

目标：让 sitemap 生成具备工程属性：一致性、可回归、可降级、可解释。
方法：三层数据源（静态/内容/运行时）合并 → URL 规范化与去重 → 生产环境“语言齐全”约束 → 数据源异常时降级输出最小可用 sitemap。
验证：用覆盖率（entries 数量）、重复率（去重命中次数）、语言齐全率、以及抽样抓取/站长工具覆盖率回归。

适用读者与前置知识

适合：sitemap 经常漏路由/重复/语言缺失，且需要可持续维护的站点。
不适合：路由极少且人工维护完全可控的站点。
前置：了解 sitemap 基本规范与多语言页面组织方式（无需精通）。

背景与约束

把 sitemap 当作工程交付，你至少要面对四类约束：

数据源不止一个：静态页面、CMS 内容页、运行时模板页，各自生命周期不同。
路由存在治理层：rewrite/redirect/Custom Server 映射可能让“可访问 URL”与“页面文件结构”不一致。
多语言不齐：某些内容只在部分 locale 存在；生产环境如果输出缺语言 URL，容易导致抓取到 404。
线上必须稳定：sitemap 作为爬虫入口，不能因为某个数据源挂了就 500；必须有降级策略。

问题定义（Problem Statement）

生成一个可持续维护的 sitemap.xml：多数据源合并、一致去重、生产环境语言齐全约束、以及当数据源异常时仍能输出最小可用结果，并能通过指标验证与回归。

目标与非目标（Goals / Non-goals）

目标

一致性：输出的 URL 集合与实际可访问路由一致（避免 sitemap 与路由分叉）。
正确性：URL 规范化与去重稳定（尾斜杠、locale 前缀、重复路径）。
多语言可靠：生产环境对关键内容页启用“语言齐全 gate”，避免输出会 404 的语言版本。
可降级：任何动态数据源失败时，sitemap 仍能输出最小可用集合（不能 500）。

非目标

不在本文展开 sitemap index（多文件拆分、50k 限制）与 lastmod/priority 的深度策略。
不在本文展开“全站自动爬虫对照平台”（只提供最小验证闭环与建议）。

方案与权衡（Solution & Trade-offs）

1) 数据源分层：静态 / 内容 / 运行时

推荐用“三层模型”描述 sitemap 的来源，这会让你很容易做一致性与降级：

静态路由：产品/工具页、固定入口（通常由配置清单维护）。
内容路由（Manifest）：CMS 内容驱动的落地页，随内容发布变化。
运行时路由：模板页、标签页等依赖运行时 API 的集合（可能分页、可能失败）。

2) URL 规范化与去重：先把“同一个页面”定义清楚

去重不是“去掉重复字符串”，而是“定义何为同一页面”。建议至少统一以下规则：

路径规范：是否保留尾斜杠？是否允许重复斜杠？大小写是否敏感？
locale 前缀：默认语言是否无前缀？非默认语言是否必须带 /{locale}？
query：sitemap 通常不应包含追踪参数；避免碎片化与重复页面。

文件：your-project/src/pages/sitemap.xml.tsx

符号：hasPath / getLocalizedUrl

// 伪代码：用“路径”做去重维度（而不是完整 URL 字符串）
function hasPath(entries, path) {
  return entries.some((e) => new URL(e.loc).pathname === path);
}

function getLocalizedUrl(baseUrl, path, locale, defaultLocale) {
  const cleanPath = path.startsWith('/') ? path : `/${path}`;
  return locale === defaultLocale
    ? `${baseUrl}${cleanPath}`
    : `${baseUrl}/${locale}${cleanPath}`;
}

3) 多语言：为什么生产环境需要“语言齐全 gate”

多语言站点最隐蔽的 SEO 风险是：你把某个内容页的部分语言版本输出到 sitemap，但该语言页面实际不存在或内容为空。结果就是：爬虫批量抓取到 404，覆盖率下降，甚至把整批 URL 判定为低质量。

因此建议把规则写成工程约束：

生产环境：内容路由必须覆盖“站点支持的全部语言”才允许进入 sitemap（语言齐全 gate）。
非生产环境：允许输出“已有语言”，方便内容团队在测试环境验证。

生产环境语言齐全 gate：只有当内容页覆盖 requiredLocales 时，才进入 sitemap；非生产环境可部分输出 — 图：用 gate 把“缺语言的内容页”挡在 sitemap 之外（生产环境尤为重要）。

文件：your-project/src/modules/landing/slugLanding/routes.ts

符号：fetchLandingRoutesFromSupabase（按 slug 聚合 locale，并按环境严格过滤）

// 伪代码：按 slug 聚合语言，并在生产环境启用 requireAllLocales
const requireAllLocales = isProduction;

const aggregated = new Map(); // slug -> Set(locales)

for (const row of rowsFromCMS) {
  if (!row.isActiveInProd && isProduction) continue;
  if (!isValidPageData(row.pageData)) continue;
  aggregated.get(row.slug).add(mapDbLangToSiteLang(row.language));
}

const result = [];
for (const [slug, localesSet] of aggregated) {
  if (requireAllLocales && !coversAll(localesSet, requiredLocales)) continue;
  result.push({ slug, locales: Array.from(localesSet) });
}

4) hreflang / x-default：别让 alternate 成为错误信号

多语言 sitemap 常见做法是为每个 URL 输出 xhtml:link 的 alternate 集合。但注意：只有当该页面在某个 locale 下真实存在时，才应该输出对应 alternate。

文件：your-project/src/modules/landing/utils/hreflang.ts

符号：buildHreflangLinks

// 伪代码：默认语言不加前缀，其他语言加 /{locale}，并可追加 x-default
function buildHreflangLinks({ baseUrl, path, defaultLocale, locales }) {
  const links = [];
  for (const lc of [defaultLocale, ...locales.filter((l) => l !== defaultLocale)]) {
    const href = lc === defaultLocale
      ? `${baseUrl}${path}`
      : `${baseUrl}/${lc}${path}`;
    links.push({ hreflang: lc, href });
  }
  links.push({ hreflang: 'x-default', href: `${baseUrl}${path}` });
  return links;
}

5) 降级策略：sitemap 必须“永远可用”

动态数据源一定会失败：CMS 超时、模板 API 抖动、鉴权异常……工程化的 sitemap 必须在失败时仍然可用。最小策略是：尽量输出静态集合，并对失败的数据源打印可观测日志，避免整个 sitemap 500。

Sitemap 降级层次：静态路由总能输出；内容/运行时失败则跳过或降级为最小集合；全流程异常则输出根 URL — 图：降级策略分层：局部失败不影响整体输出；全局失败也要有兜底。

文件：your-project/src/pages/sitemap.xml.tsx

符号：fetchAndAddManifestRoutes / fetchAndAddTemplates / getServerSideProps

// 伪代码：数据源失败只影响该层，不影响整体 sitemap 输出
try {
  await addManifestRoutes();
} catch (e) {
  log('manifest fetch failed', e);
}

try {
  await addRuntimeTemplates();
} catch (e) {
  log('templates fetch failed', e);
  // 降级：至少输出 /templates
  entries.push('/templates');
}

// 全局兜底：生成异常时输出最小 sitemap（根 URL）
try {
  return renderXml(entries);
} catch (e) {
  return renderXml(['/']);
}

实现要点（Implementation Notes）

真实链路：生成 sitemap 的 7 步

确定 baseUrl：统一使用站点主域（不要在 sitemap 里混多个 base）。
建立 entries 容器：统一使用一种 entry 结构（loc + alternates）。
写入静态根页面：通常包含 /，并输出 hreflang alternates（若多语言）。
拉取内容路由：按 slug 聚合 locale，并应用生产环境语言齐全 gate。
写入静态路由清单：复用路由表（工具页、语义路由等）。
拉取运行时路由：模板页、标签页等；失败时降级输出最小集合。
渲染 XML：xmlEscape、添加 xmlns:xhtml 与 alternate links。

文件：your-project/src/pages/sitemap.xml.tsx

符号：SitemapGenerator.generateXml

// 伪代码：SitemapGenerator 的组织方式（按层构建，再统一渲染）
class SitemapGenerator {
  constructor(baseUrl) {
    this.baseUrl = baseUrl;
    this.entries = [];
  }

  async generateXml() {
    await this.buildSitemapEntries();
    return this.renderSitemapXml();
  }

  async buildSitemapEntries() {
    this.addStaticRoot();
    await this.addManifestRoutes(); // 可失败，需降级
    this.addStaticToolRoutes();
    await this.addRuntimeRoutes(); // 可失败，需降级
  }
}

“只输出英文、无 hreflang”的例外处理

真实项目里会出现“只在默认语言存在”的页面（例如模板页、对比页等）。这类页面不应该强行输出全语言 alternate；更安全的做法是：只输出默认语言 URL，并让 hreflang 构造函数在“只有默认语言”时可返回空数组。

指标与验证（Metrics & Validation）

覆盖率（entries count）：输出 URL 数量的变化趋势（按数据源分层统计更有意义）。
重复率（dedupe hits）：去重命中次数；突然升高通常表示路径规范化或路由表分叉。
语言齐全率：内容路由中满足 requiredLocales 的比例（生产环境应接近 100%）。
抓取回归：抽样抓取 sitemap 中的 URL，检查 200/301/404 分布；结合站长工具覆盖率与软 404 报告。

通过标准（建议）：

canonical：每页只出现 1 个，不包含 query/hash，尽量指向最终态 URL（避免 301 链）。
alternates：包含 x-default（如适用），只链接真实存在的语言 URL（不 404/不软 404）。
sitemap：抽样 URL 的 200 比例接近 100%，301 链长 ≤ 1；不应包含 noindex 或黑名单路径。

最小可复现验证（示例）：

# 1) 拉取 sitemap（应始终返回 200）
curl -I https://your-domain.com/sitemap.xml

# 2) 抽样检查是否包含 xhtml:link alternates（多语言站点）
curl -s https://your-domain.com/sitemap.xml | head -n 60

# 3) 抽样抓取若干 URL（建议脚本化）
curl -I https://your-domain.com/some-url-from-sitemap

预期与判定（建议）：

可用性：/sitemap.xml 永远返回 200（数据源异常也不 500）。
alternates：如启用多语言，能看到 xhtml:link，且不指向缺语言/黑名单 URL。
抽样抓取：200 占绝大多数；允许少量 301（迁移期），但最终应落到 200，且链长 ≤ 1。

不通过先查：URL 规范化（尾斜杠/大小写/locale 前缀）是否一致；语言齐全 gate 是否生效；去重是否以规范化后的 pathname 做基准；以及降级策略是否真的能在数据源失败时返回“最小可用集合”。

常见坑与规避（Pitfalls）

sitemap 与路由分叉：静态路由清单、rewrites、Custom Server 三处各写一份，迟早不一致。坚持路由表单一真相。
输出缺语言 URL：生产环境没做语言齐全 gate，会把缺内容的语言页输出到 sitemap。
错误 alternate：对“仅默认语言”的页面输出全语言 hreflang，会给搜索引擎错误信号。
动态数据源导致 500：没有降级策略时，CMS/API 抖动会让 sitemap 直接不可用。
URL 规范不一致：尾斜杠/大小写不统一导致重复页面；去重应以规范化后的 path 为准。

FAQ

Q：sitemap 应该构建时生成（build-time）还是运行时生成（runtime）？

A：取决于数据源与发布方式。内容强依赖 CMS 且变更频繁时，运行时生成更灵活；但一定要有降级与缓存策略。构建时生成更稳定，但需要确保路由清单在构建阶段可拿到且可回滚。

Q：生产环境为什么要强制“语言齐全”？内容可以慢慢补齐不行吗？

A：sitemap 是爬虫的抓取清单。一旦输出缺语言 URL，就等于主动邀请爬虫抓 404，覆盖率会下降。更稳妥的策略是：未补齐语言的内容先不上 sitemap，等齐了再放出。

Q：页面只有默认语言，应该输出 hreflang 吗？

A：通常不建议硬输出多语言 hreflang。更安全的是：只输出默认语言 URL，并让 hreflang 构造在“只有默认语言”时返回空数组或仅输出 x-default（视站点策略而定）。

Q：动态数据源失败时，应该返回空 sitemap 还是旧 sitemap？

A：不要返回空。最小策略是输出“静态集合 + 可用的部分动态集合”，并记录错误；全局失败也应输出根 URL，保证 sitemap 永远可抓取。

Q：怎么保证 sitemap 与 rewrites/Custom Server 的路由口径一致？

A：把静态路由清单与 legacy 模式沉淀为路由表（单一真相），并让 rewrites、Custom Server、sitemap 都复用它；发布前加一条校验：抽样访问 sitemap URL，检查 200/301/404 分布与重定向链长。

Q：sitemap 里要不要包含 query 参数？

A：通常不要。query 很容易引入重复页面与碎片化；除非你非常确定 query 是内容标识的一部分且具有 canonical 规范，否则建议全部排除。