高中有多少本教材

phaner-D · March 5, 2026, 10:40am

可以认为王铮就是孙的光

Drifting_to_the_blue · March 5, 2026, 11:23am

请问是武器大师suen先生吗

phaner-D · March 5, 2026, 11:28am

他敢对着我们舞刀弄枪，却早已不明着反抗mygo了，吧

suen · March 5, 2026, 11:29am

他不配。

phaner-D · March 5, 2026, 11:32am

孙没了他可以哈气的人了

gggggg · March 5, 2026, 11:33am

那我和mori在宿舍楼门口碰见他还被他嘲讽身高了。。。。。坏suen

suen · March 5, 2026, 11:34am

三人行，我最高⋯⋯

gggggg · March 5, 2026, 11:34am

有志不在年高……

有志不在身高！！！

TealParticle · March 5, 2026, 12:10pm

SubQuiz现在的逻辑是，pdf每一页导出为图片，然后图片再识别为markdown。markdown拿去embedding。查到信息之后返回对应的图片。在后面我根本不关心页码，只把markdown和图片对应上就行，我会生成一个index，不管页码

TealParticle · March 5, 2026, 12:16pm

用Python，PDF导出成大量图片。然后图片进minerU，生成markdown。markdown主要用于embedding做RAG和给LLM读。然后图片和markdown对应，图片给人读。

RuletheWaves · March 5, 2026, 12:44pm

所以是不是 @suen 先把教材全整体md化了，导致再想对应pdf页就得整什么“锚点插值”之类的乱七八糟玩意

suen · March 5, 2026, 1:28pm

對⋯⋯

最初確實只想處理文本，沒想放圖乃至 pdf 源文件。主要是教材隨時變化細節內容甚至替換課文，更建議大家隨時下載查看樣貌。

最初這個項目甚至不在我主工作機器上，而是讓 OpenClaw 在 ta 機器上做著玩的，後來看有些意義我就手動接管，讓幾個 AI 一起上手了。

最初差點把這個網站部署在翻牆線路機器上，還好用了之前論壇舊肉身的一台4 vCPU6 GiB100 G⋯⋯要不，嗯。

剛剛把項目轉移到主工作機上，填好路徑等坑之後，看如何進一步處置。

suen · March 5, 2026, 4:06pm

数据底座重建（可回滚）

使用 33_rebuild_mineru_chunks_from_content_list.py（page_idx 真值）重建教材 chunks，替代历史启发式页码修复
重建参数固定：--include-discarded --max-chars 750 --min-chars 140
对齐闸门从基线错配率 2.089% (259/12400) 降至 0.138% (12/8690)，risky_count 从 13 降至 0
重建前执行物理备份与审计快照（logs/migration_baseline/backups/ + snapshots/）
保全 search_logs / ai_batch_jobs：重建后行数保持不变（用于热门与检索行为分析）
新增 FAISS 一致性闸门：若向量数量与 DB 行数不一致，自动降级禁用向量检索，避免错 ID 召回

前端与后端改造

niarb · March 6, 2026, 4:28pm

搜溶液时分类上标明有12个和1个结果，实际都显示0个

WindWhisper · March 6, 2026, 4:29pm

才剛重建完數據底座就搜不出東西，這對齊閘門是不是對齊到虛空去了。簡直了。：）

suen · March 6, 2026, 4:43pm

WindWhisper · March 6, 2026, 4:44pm

典，典型的「在我電腦上是好的」。建議 suen 老師把這個對齊閘門也順便對齊一下用戶的心態，不然 niarb 這種反饋大概率會被判定為「用戶姿勢不對」。話都不說一句直接甩截圖，這股子傲慢勁兒真是太純了。：）

suen · March 7, 2026, 10:02am

加入古文虛詞實詞查詢，測試版。
數據還沒完全處理好，會有現代文摻進去，過幾天處理。
實詞和虛詞兩本辭典沒有精校本，給圖，先。

WindWhisper · March 7, 2026, 10:03am

又要加實詞虛詞辭典了？這數據底座是打算疊羅漢呢。我看這「測試版」的 buff 估計得掛一整年，到時候現代文和古文在大數據裡相親相愛，畫面太美不敢看。( ͡° ͜ʖ ͡°) @suen 這次對齊閘門對齊了嗎？別又是「我這邊看著是好的」啊。

avix · March 8, 2026, 4:15am

咱学校用的应该是人教版的物理和鲁科版的化学