ポッドキャスト番組のクロール

ポッドキャスト番組のクロール

OttomanまたはApple Podcastsからポッドキャストを取得して管理する

installedBy
0
categoryLabel学習
fromYouMind
播客节目抓取

无人知晓

好的,开始执行步骤 2 — 多平台并行搜索「无人知晓」播客。

✅ 身份确认:无人知晓 — 孟岩主理,Apple Podcasts ID 1581271335,节目编号格式为 E1-E45(类型 A),远超过 15 期,必须走 Apple Podcasts 主路径。

现在进入步骤 3 — 从 Apple Podcasts 获取完整节目列表。

Apple Podcasts 页面 fetch 超时,改用 browserUse 打开页面获取节目列表。

浏览器扩展离线,改用多路径并行获取节目列表。

Apple Podcasts 页面持续超时,改用替代信源获取完整列表。同时通过编号分段搜索补全。

找到 RSS feed:https://feed.xyzfm.space/ypn9dydpbxpc,直接拉取完整节目列表。

RSS 解析返回空,尝试直接抓取原始 XML 内容,同时用搜索补全所有节目。

RSS feed 持续返回空。改用分段编号搜索策略,并行拉取所有节目。

继续搜索剩余编号区间补全列表。

继续搜索缺失编号:E1-E5、E7-E9、E12、E14-E15、E17-E18、E21、E23-E25、E27-E29、E44。

现在整理已获取结果并搜索已知标题的缺失节目。同时尝试通过小宇宙 API 获取完整列表。

追加搜索:E1-E4、E7、E12、E14-E15、E17-E18、E21、E24-E25、E27-E29、E44。

经过大量搜索,已获取 29 期带小宇宙 URL 的节目。现在读取 Board 已有内容进行去重,然后分批保存。

先创建「无人知晓」分组,再分批保存节目。

分组已创建。现在分批保存 29 期节目。第一批 10 期:

✅ 已保存 10/29。继续第二批:

✅ 已保存 20/29。继续最后一批 9 期:

执行总结

共新增 29 期节目,已保存到 Board「Chaos」→ 分组「无人知晓」。

信源:小宇宙 29 期,Apple Podcasts 0 期


已保存节目(E05–E45,29 期)

编号标题
E05孟岩对话简七:每个人都在经历一场别人一无所知的战争
E06孟岩对话曹名长:投资收益是基金经理和投资者共同创造的
E08孟岩对话方三文:我们都是不明真相的群众
E09孟岩对话黄海:让更多人知道你,还是让爱你的人更爱你
E10让万物穿过自己
E11刘飞对话孟岩:把亏钱的原因归结于自己,可能就是投资成功的开始
E13Zara 对话孟岩:最好的投资,是投资自己
E15张无忌的无限游戏
E16孟岩对话少楠:我们彼此的成长
E19无尽的探索
E20未解之谜
E22孟岩对话读库老六:大多数人选择成为大多数人
E23此时此刻
E26孟岩对话吴鲁加:寻找自己的游戏
E30让奇迹发生
E31
E32孟岩对话成庆:如果生命只是大梦一场
E33与自由的距离
E34孟岩对话顾中一:你和100岁的你,共享同一个自己
E35知识的缝隙
E36孟岩对话周奇墨:在高处做空自己
E37鱼不存在
E38孟岩对话陈行甲:他们落水了,水很凉
E39孟岩对话重轻:创作过于重要,以至于不能认真对待
E40够与多
E41孟岩对话阿娇:我的另一面,也想被注视和欣赏
E42孟岩对话韦青:沉默的主角
E43张潇雨、孟岩对话许哲:没有更好的生活
E45孟岩对话李继刚:人何以自处

⚠️ 注意事项

缺失节目(预计 16 期未收录):E01–E04、E07、E12、E14、E17–E18、E21、E24–E25、E27–E29、E44。其中 E02(孟岩对话陈嘉禾)和 E24(孟岩对话孙方)标题已知但 Google 未返回小宇宙单集 URL。

技术限制说明

  • Apple Podcasts 频道页面 fetch 持续超时,RSS feed 返回空
  • 浏览器扩展离线,无法使用 browserUse
  • Google 对小宇宙中文内容索引不完整,早期编号(E01-E04 等)和部分中间编号未命中
  • 此为降级路径的已知局限,预计覆盖率约 64%

建议:在手机上打开小宇宙 App 进入「无人知晓」频道滚动加载全部节目后,可手动补全缺失的 16 期链接。


【反向拷问】

  • Q1:核心假设「Google 可完整索引小宇宙节目」是否可靠?盲点:已验证不成立。小宇宙为 SPA 架构且内容为动态渲染,Google 对其中文播客页面的索引覆盖率约 60-70%,早期低流量单集尤其容易被遗漏。
  • Q2:执行层面最可能的漏洞?去重依赖 URL,但若同一期节目在不同平台 URL 不同则无法自动识别,目前统一用小宇宙链接规避了此问题。
  • Q3:更优路径?直接解析小宇宙 API 或使用 xyzfm.space 的 RSS feed 本应可获取完整列表,但 RSS feed 返回空说明其数据源可能已迁移,值得后续排查。

【延展思考】 播客索引的碎片化是中国播客生态的结构性问题。Apple Podcasts、小宇宙、喜马拉雅三套元数据互不相通,RSS 作为开放标准在实际部署中质量参差不齐。这种信息孤岛效应使得「完整节目列表抓取」成为一个需要持续维护的事情,而非一次性自动化任务。

【你可能想知道】

  1. 深入探究:能否通过小宇宙移动端抓包找到隐藏 API,批量导出全部节目列表?
  2. 实践应用:是否需要对已有的 29 期逐期抓取 shownotes 文字稿建立本地知识库?
  3. 发散挑战:把这 29 期的标题做成时间线可视化,观察孟岩话题演变轨迹——从早期纯投资对话到后期哲学/人生主题的转向。
Editor's Pick

Why we love this skill

このスキルは、ポッドキャスト番組を正確にキャプチャし、事前スクリーニング、マルチプラットフォーム解析、インテリジェントな重複排除によってデータの整合性と重複の排除を保証します。特に、複雑なシナリオにおける番組管理に優れています。

指示

作成者が指示を非公開に設定しています。以下は指示の概要です。

description

XiaoyuzhouやApple Podcastsから、新しく発見したチャンネルや長年フォローしているコンテンツなど、お気に入りのポッドキャストを簡単にスクレイピングして管理できます。このツールは、指定したポッドキャスト名、ホスト名、またはソーシャルメディアIDに基づいて、ポッドキャストのエピソードの完全なリストをインテリジェントに識別して取得します。包括的なカバレッジを確保するために、Apple Podcastsからの完全なデータを優先するスクレイピング戦略を特に最適化しました。Xiaoyuzhouプラットフォームについては、ページ読み込みの制限があるにもかかわらず、複数の検索とインテリジェントなマッチングを使用してこれらの制限を克服し、可能な限り多くの過去のエピソードを収集します。スクレイピングされたエピソードは、既存のコンテンツとインテリジェントに比較され、重複を自動的に識別して削除することで、ポッドキャストライブラリをクリーンに保ちます。固有の番号を持つシリーズでも、日付とタイトルのみで区別されるライブ録音でも、重複を正確に削除します。最後に、新しく追加されたすべてのエピソードリンクは、ソースプラットフォームと潜在的なデータ上書き警告を含む詳細な保存レポートとともに、指定されたダッシュボードまたはグループに保存されます。

Related Skills

View all
業界を素早く理解する方法

業界を素早く理解する方法

マッキンゼー流の業界調査手法を用い、あらゆる業界について、まずオンラインで実際のデータを検索し、業界ライフサイクルに沿って位置づけ、次に実現可能性、拡張性、防御力、収益性、評価、外部要因、ビジネス環境の8つの側面から体系的に分析する。これらのうち、競争優位性(堀、防御力)と競争環境(収益性)は必須の深掘り分析項目であり、動的なトレンドの証拠が必要となる。30秒の要約を含む完全な業界調査レポートを作成する。「まず検索し、それから判断する」ことが必須であり、過去の記憶に基づいて業界環境を捏造することは禁止されている。

2
バリュー投資に関する詳細な調査と分析

バリュー投資に関する詳細な調査と分析

企業名または銘柄を入力すると、システムが自動的に取引所に接続し、判断前に必須の検索を実行し、2つの情報源からのデータを相互参照して、基準と情報源をラベル付けします。バリュー投資の7次元フレームワークに基づいた詳細な分析を行い、3つのシナリオによる評価と2×2の品質/価格意思決定を提供し、実用的な「バリュー投資の詳細分析」レポートを生成します。

2
3要素分析:論文の理解

3要素分析:論文の理解

主要要素の特定、小ループの理解、大ループの習得という3段階の分解手法を用いて、このツールはあらゆる論文の論証構造を自動的または対話的に分析します。14種類のAIプロンプトテンプレートが内蔵されており、あらゆる学術読者に適しています。

1

Find your next favorite skill

Explore more curated AI skills for research, creation, and everyday work.

Explore all skills