weijie chi => Ubuntu 台灣社群: Microsoft 用盜版《哈利波特》作為 LLM（大型語言模型）訓練範例的教學指南（2024）[已移除] （★ 273 分） Microsoft 介紹 Azure SQL 與 Microsoft Fabric 的 SQL 資料庫新增「原生向量（vector）支援／向量搜尋」後，如何用 LangChain（常見的 LLM 應用開發框架）把 SQL Server 當成向量儲存庫（vector store，用來存放文字的向量嵌入並做相似度搜尋），快速替既有 SQL 型應用加上 LLM（Large Language Model，大型語言模型）能力。文中以 Kaggle 上的《哈利波特》7 本書純文字檔做範例，示範兩種情境：一是從書中做問答，二是用書中段落作為素材，讓模型撰寫同人小說。教學流程從安裝 langchain-sqlserver 套件開始，接著把放在 Azure Blob Storage 的文本載入，再用 LangChain 的文字切分器把長文分段（因為 Azure OpenAI 的 embedding（向量嵌入，把文字轉成向量表示）有 token（模型輸入字詞單位）上限）。之後呼叫 Azure OpenAI 產生每段文字的向量嵌入，把「文字＋向量＋中繼資料」寫入 Azure SQL 的向量欄位，並示範如何用相似度搜尋找出最接近問題的段落，也能搭配中繼資料做條件過濾，把搜尋範圍縮小到更相關的子集合。在問答用例中，文章把向量儲存庫做成 retriever（檢索器），再用 RAG（Retrieval-Augmented Generation，先檢索資料再由模型撰寫回答的方法）組合提示詞範本與問答 chain，讓回答不只精簡，也能把引用到的原始段落一併回傳，方便呈現「答案依據」。在同人小說用例裡，系統先依使用者提示詞從向量儲存庫撈出相關段落、整理成脈絡，再交給 GPT-4o（OpenAI 的多模態大型語言模型）撰寫故事，並同樣呈現靈感來源段落；作者也提供 GitHub 上的 Notebook 範例，並邀請到 Azure SQL 回饋管道提出建議。留言區多數焦點轉向著作權爭議：許多人指出 Kaggle 範例資料集疑似是把《哈利波特》電子書轉成 .txt 上傳，卻標示為 CC0（Creative Commons Zero，宣告放棄著作權的公眾領域授權），而 Microsoft 官方部落格又直接引導讀者使用，觀感像是在替「盜版資料拿來做 LLM 範例」背書。也有人質疑為何不改用真正公眾領域小說當教材；另有留言推測這篇 2024 年文章能存在一段時間，是因為資料集下載量、文章瀏覽量不高而沒被注意到。討論延燒後，社群回報頁面隨即變成 404，並流傳 Wayback Machine（Internet Archive 的網頁時光機）與其他備份站連結；同時有人追查到相關 GitHub 範例也曾嘗試用 force push（強制推送）清掉歷史，但因提交紀錄與簽章仍可被外界比對，難以完全抹除。責任歸屬上，部分人主張主要過錯在上傳者或平台標示錯誤授權；反對者則認為「一般理性人」都知道《哈利波特》不可能是公眾領域，且在美國著作權侵權多屬嚴格責任（即使非故意仍可能要負損害賠償責任），企業更不該用這種素材當示範。也有人用「教育用途／合理使用（fair use）」替教學文章緩頰，但隨即被反駁 Microsoft 並非非營利教育機構，且把做法包裝成可複製的商用雲端範例，界線更敏感。另一些討論延伸到 LLM 記憶化風險：有人引用研究稱某些模型可近乎逐字重現《哈利波特》首集大部分內容，進一步擔心未來可能出現用提示詞就能重建熱門書籍的「AI 圖書館」，以及同人創作圈被大量粗製濫造內容淹沒的現象。 👥 166 則討論、評論 💬 https://news.ycombinator.com/item?id=47067759 #69972dc8f3b937fd61d265d5

weijie chi says to Ubuntu 台灣社群

Microsoft 用盜版《哈利波特》作為 LLM（大型語言模型）訓練範例的教學指南（2024）[已移除] （★ 273 分） Microsoft 介紹 Azure SQL 與 Microsoft Fabric 的 SQL 資料庫新增「原生向量（vector）支援／向量搜尋」後，如何用 LangChain（常見的 LLM 應用開發框架）把 SQL Server 當成向量儲存庫（vector store，用來存放文字的向量嵌入並做相似度搜尋），快速替既有 SQL 型應用加上 LLM（Large Language Model，大型語言模型）能力。文中以 Kaggle 上的《哈利波特》7 本書純文字檔做範例，示範兩種情境：一是從書中做問答，二是用書中段落作為素材，讓模型撰寫同人小說。教學流程從安裝 langchain-sqlserver 套件開始，接著把放在 Azure Blob Storage 的文本載入，再用 LangChain 的文字切分器把長文分段（因為 Azure OpenAI 的 embedding（向量嵌入，把文字轉成向量表示）有 token（模型輸入字詞單位）上限）。之後呼叫 Azure OpenAI 產生每段文字的向量嵌入，把「文字＋向量＋中繼資料」寫入 Azure SQL 的向量欄位，並示範如何用相似度搜尋找出最接近問題的段落，也能搭配中繼資料做條件過濾，把搜尋範圍縮小到更相關的子集合。在問答用例中，文章把向量儲存庫做成 retriever（檢索器），再用 RAG（Retrieval-Augmented Generation，先檢索資料再由模型撰寫回答的方法）組合提示詞範本與問答 chain，讓回答不只精簡，也能把引用到的原始段落一併回傳，方便呈現「答案依據」。在同人小說用例裡，系統先依使用者提示詞從向量儲存庫撈出相關段落、整理成脈絡，再交給 GPT-4o（OpenAI 的多模態大型語言模型）撰寫故事，並同樣呈現靈感來源段落；作者也提供 GitHub 上的 Notebook 範例，並邀請到 Azure SQL 回饋管道提出建議。留言區多數焦點轉向著作權爭議：許多人指出 Kaggle 範例資料集疑似是把《哈利波特》電子書轉成 .txt 上傳，卻標示為 CC0（Creative Commons Zero，宣告放棄著作權的公眾領域授權），而 Microsoft 官方部落格又直接引導讀者使用，觀感像是在替「盜版資料拿來做 LLM 範例」背書。也有人質疑為何不改用真正公眾領域小說當教材；另有留言推測這篇 2024 年文章能存在一段時間，是因為資料集下載量、文章瀏覽量不高而沒被注意到。討論延燒後，社群回報頁面隨即變成 404，並流傳 Wayback Machine（Internet Archive 的網頁時光機）與其他備份站連結；同時有人追查到相關 GitHub 範例也曾嘗試用 force push（強制推送）清掉歷史，但因提交紀錄與簽章仍可被外界比對，難以完全抹除。責任歸屬上，部分人主張主要過錯在上傳者或平台標示錯誤授權；反對者則認為「一般理性人」都知道《哈利波特》不可能是公眾領域，且在美國著作權侵權多屬嚴格責任（即使非故意仍可能要負損害賠償責任），企業更不該用這種素材當示範。也有人用「教育用途／合理使用（fair use）」替教學文章緩頰，但隨即被反駁 Microsoft 並非非營利教育機構，且把做法包裝成可複製的商用雲端範例，界線更敏感。另一些討論延伸到 LLM 記憶化風險：有人引用研究稱某些模型可近乎逐字重現《哈利波特》首集大部分內容，進一步擔心未來可能出現用提示詞就能重建熱門書籍的「AI 圖書館」，以及同人創作圈被大量粗製濫造內容淹沒的現象。 👥 166 則討論、評論 💬 https://news.ycombinator.com/item?id=47067759

at Thu, Feb 19, 2026 11:35 PM