URL智能读取SKILL:一键抓取任何网站内容并自动同步到到Obsidian做为素材。
- Source: https://x.com/yhslgg/status/2018951488488513621?s=46
- Mirror: https://x.com/yhslgg/status/2018951488488513621?s=46
- Published: 2026-02-04T07:35:19+00:00
- Saved: 2026-02-05
Content

卧槽!!!今天必须给大家分享一个我刚做完的神器!!!
一个能读取任何网站内容的工具,微信公众号、小红书、知乎、抖音、淘宝、京东...全都能抓!!!
而且自动保存成Markdown并同步到Obsidian,图片也全部下载到本地!!!
为什么要做这个?
每次看到好文章想保存,要么复制粘贴格式全乱,要么图片全是外链过几天就挂了。
微信公众号更离谱,复制出来全是乱码!!!
所以我就想:能不能做一个工具,输入URL就自动把内容和图片全部抓下来?
答案是:能!而且特么的超简单!!!
核心思路:三层策略自动降级
这个工具的核心就是三层策略:
Firecrawl(首选)→ Jina(备选)→ Playwright(兜底)
为什么要三层?因为没有一个方案能搞定所有网站!!!
Firecrawl:AI驱动,能搞定96%的网站,但要钱(免费500页/月)闲鱼有8万积分,很便宜。
Jina:完全免费,但有些网站搞不定
Playwright:浏览器自动化,什么都能搞,但需要登录态
三层组合,基本上能搞定99%的网站!!!
第一步:平台识别
首先要识别URL是哪个平台的,这样才能选择最佳策略。
让AI写代码的Prompt:
帮我写一个Python函数,输入URL,识别是哪个平台:
-
微信公众号:mp.weixin.qq.com
-
小红书:xiaohongshu.com, xhslink.com
-
知乎:zhihu.com
-
抖音:douyin.com
-
淘宝:taobao.com
-
京东:jd.com
-
B站:bilibili.com
返回平台名称和是否需要登录
AI会给你一个完美的identify_platform()函数!
第二步:Firecrawl策略
Firecrawl是一个AI驱动的网页抓取API,牛逼的地方在于:
自动处理JavaScript渲染
自动绕过反爬机制
直接返回干净的Markdown
让AI写代码的Prompt:
帮我写一个用Firecrawl抓取网页的函数:
-
从环境变量读取FIRECRAWL_API_KEY
-
调用firecrawl-py库的scrape方法
-
注意:Firecrawl v2返回的是Document对象,不是dict
-
用getattr获取markdown和metadata
-
检查内容是否有效(长度>100,不是验证页面)
踩坑提醒:Firecrawl v2的返回值变了!!!
以前是result.get('markdown'),现在要用getattr(result, 'markdown', '')!!!
这个坑我踩了半小时才发现...
第三步:Jina策略
Jina Reader是完全免费的!!!用法超简单:
https://r.jina.ai/{你的URL}
直接在URL前面加上https://r.jina.ai/就行!
让AI写代码的Prompt:
帮我写一个用Jina Reader读取网页的函数:
-
在URL前面加上https://r.jina.ai/
-
设置Accept: text/markdown
-
设置User-Agent模拟浏览器
-
检查返回内容是否有效
第四步:Playwright策略
这是兜底方案,用真实浏览器去访问页面。
让AI写代码的Prompt:
帮我写一个用Playwright读取网页的函数:
-
使用async_playwright
-
启动chromium浏览器(headless模式)
-
设置微信内置浏览器的User-Agent
-
支持加载已保存的登录态(storage_state)
-
等待页面加载完成后提取内容
-
用page.evaluate执行JS提取标题和正文
踩坑提醒:微信公众号的长链接(带__biz参数的)容易触发验证!!!
短链接(/s/xxxxx格式)更稳定!
第五步:内容保存及同步
抓到内容后,要保存成Markdown并下载图片同时保存到Obsidian
只需要指定内容保存到XXXX目录,然后再到Obsidian把这个目录添加进去就可以了。
让AI写代码的Prompt:
帮我写一个保存内容的函数:
-
从内容中提取标题
-
创建目录:日期_标题
-
用正则提取所有图片URL(支持Markdown格式、直接URL、小红书图片、飞书图片)
-
下载图片到本地,命名为img_01.jpg等
-
把内容中的图片URL替换成本地路径
-
保存为content.md,带上元数据(标题、来源、时间)
踩坑提醒:下载小红书图片要设置Referer头!!!
headers = {
'User-Agent': 'Mozilla/5.0...',
'Referer': 'https://www.xiaohongshu.com/'
}
不然会403!
踩坑总结
Firecrawl v2返回值变了:用getattr()不要用.get()
微信长链接触发验证:用短链接更稳定
标题提取要跳过元数据:第一行可能是"来源:xxx"不是标题
图片下载要设Referer:不同平台要设不同的Referer
成本计算
Firecrawl:免费500页/月,够用了
Jina:完全免费
Playwright:免费,但需要安装chromium(约200MB)
总成本:0元!!!
变现方向
内容采集服务:帮自媒体批量采集素材
竞品监控:监控竞争对手的公众号/小红书
数据分析:采集行业内容做分析报告
知识库建设:自动采集整理行业知识
最后
这个工具我后面我会开源了,现在还在优化中,接下来会做批量抓取,同时会结合其他skill,做更多的二创内容,
用法超简单:
读取并保存
python url_reader.py https://mp.weixin.qq.com/s/xxxxx --save
内容和图片自动保存到本地!!!
有问题评论区见!!!


Link: http://x.com/i/article/2017224095575031808