Hexo AI 数据通道:让 AI 零噪音读取博客内容
约 2k 字 9 分钟阅读 问题:AI 读到的不是文章,是噪音 #Hexo 生成的 HTML 页面中,正文内容只占约 30%,其余全是导航栏、侧边栏、页脚、JavaScript 脚本、CSS 样式等 UI 元素。当 AI Agent 尝试读取文章时,必须从一堆 HTML 标签中提取正文,效率低且容易丢失格式。 现有数据源的问题 # 数据源 问题 HTML 页面 80% 是 UI 噪音,AI 要从 HTML 中捞正文 search.json 所有文章挤一个文件;内容被截断;混入 UI 噪音;表格/代码格式丢失 atom.xml XML 开销;仅限 20 篇;仍含 HTML 标签 ai-index.json 只有元数据,没有正文 核心矛盾:人类需要丰富的 UI,AI 需要干净的纯内容。两者不能在同一个 HTML 里兼得。 解决方案:平行数据通道 #为 AI 提供一条独立的数据通道——人类看 HTML,AI 读 JSON/MD。两条通道并行,互不干扰。 12345678hexo generate ├── 生成...
RSS 源大全:可信信息获取的数据源清单
约 1.8k 字 8 分钟阅读 为什么需要 RSS #在算法推荐泛滥的时代,RSS 是唯一让你主动选择信息源的方式。没有算法干预、没有广告插入、没有注意力收割——你订阅什么,就收到什么。 本文所有 RSS 源均经过实际访问验证,标注可访问性(✅ 可访问 / ⚠️ 需代理 / ❌ 不可访问),并按可信度分级。 可信度分级 # 级别 说明 特征 ⭐⭐⭐ 源头直供 官方机构/学术/大厂自家博客,几乎零噪音 ⭐⭐ 高质量媒体 知名科技/行业媒体,偶有软文但信息密度高 ⭐ 独立声音 个人博客/社区,信号强但需自行过滤立场 一、学术 / 科研(最值得信) # 名称 RSS 地址 状态 可信度 介绍 arXiv · AI https://rss.arxiv.org/rss/cs.AI ✅ ⭐⭐⭐ 每日 AI 预印本论文,学术界源头 arXiv · 机器学习 https://rss.arxiv.org/rss/cs.LG ✅ ⭐⭐⭐ 机器学习方向论文 arXiv · NLP https://rss.arx...
GitHub Pages 完全指南:原理、配置与使用限制
约 1.7k 字 6 分钟阅读 什么是 GitHub Pages #GitHub Pages 是 GitHub 提供的静态网站托管服务。它直接从 GitHub 仓库读取 HTML/CSS/JS 文件,通过 CDN 分发到全球,无需自己搭建服务器。 核心定位:为项目文档、个人博客、开源项目主页提供零成本的静态站点托管。 工作原理 #请求流程 #1234567用户访问 https://username.github.io/repo/ ↓GitHub Pages CDN 节点(全球分布) ↓从仓库的特定分支读取静态文件 ↓返回 HTML/CSS/JS 给浏览器 构建方式 #GitHub Pages 支持两种模式: 1. 直接部署模式(Deploy from a branch) 123仓库分支(如 master/main 或 gh-pages) ↓ 直接提供文件GitHub Pages CDN 适用于已经构建好的静态文件(如 Hexo 的 public/ 目录直接推送到仓库)。 ...
用 Hexo 搭建认知管理系统
约 1.3k 字 4 分钟阅读 为什么用 Hexo 做认知管理 #知识管理的核心痛点不是”存”,而是”找”。传统的笔记软件(Notion、Obsidian、语雀)各自封闭,数据无法被搜索引擎和 AI 直接检索。而 Hexo 作为一个静态博客生成器,天然具备三个优势: 数据即文件 — 所有内容是本地 Markdown,无平台锁定 结构化索引 — search.json 提供机器可读的全文索引 公开可检索 — 部署到 GitHub Pages 后,内容可被 Google 和 AI 搜索引擎索引 这个项目不是”写博客”,而是构建一个个人知识的外化系统:把学过的知识用结构化的方式记录下来,既便于自己检索,也能被 AI 工具消费。 技术栈 # 组件 选型 说明 框架 Hexo 8.x 静态站点生成器 主题 Butterfly 5.5.5 暗色模式,通过 npm 安装 搜索 hexo-generator-searchdb 生成本地搜索索引 search.json 字数统计 hexo-wordcount 文章阅读时长估...