Microsoft 用盜版《哈利波特》作為 LLM(大型語言模型)訓練範例的教學指南(2024)[已移除] (★ 273 分)
Microsoft 介紹 Azure SQL 與 Microsoft Fabric 的 SQL 資料庫新增「原生向量(vector)支援/向量搜尋」後,如何用 LangChain(常見的 LLM 應用開發框架)把 SQL Server 當成向量儲存庫(vector store,用來存放文字的向量嵌入並做相似度搜尋),快速替既有 SQL 型應用加上 LLM(Large Language Model,大型語言模型)能力。文中以 Kaggle 上的《哈利波特》7 本書純文字檔做範例,示範兩種情境:一是從書中做問答,二是用書中段落作為素材,讓模型撰寫同人小說。
教學流程從安裝 langchain-sqlserver 套件開始,接著把放在 Azure Blob Storage 的文本載入,再用 LangChain 的文字切分器把長文分段(因為 Azure OpenAI 的 embedding(向量嵌入,把文字轉成向量表示)有 token(模型輸入字詞單位)上限)。之後呼叫 Azure OpenAI 產生每段文字的向量嵌入,把「文字+向量+中繼資料」寫入 Azure SQL 的向量欄位,並示範如何用相似度搜尋找出最接近問題的段落,也能搭配中繼資料做條件過濾,把搜尋範圍縮小到更相關的子集合。
在問答用例中,文章把向量儲存庫做成 retriever(檢索器),再用 RAG(Retrieval-Augmented Generation,先檢索資料再由模型撰寫回答的方法)組合提示詞範本與問答 chain,讓回答不只精簡,也能把引用到的原始段落一併回傳,方便呈現「答案依據」。在同人小說用例裡,系統先依使用者提示詞從向量儲存庫撈出相關段落、整理成脈絡,再交給 GPT-4o(OpenAI 的多模態大型語言模型)撰寫故事,並同樣呈現靈感來源段落;作者也提供 GitHub 上的 Notebook 範例,並邀請到 Azure SQL 回饋管道提出建議。
留言區多數焦點轉向著作權爭議:許多人指出 Kaggle 範例資料集疑似是把《哈利波特》電子書轉成 .txt 上傳,卻標示為 CC0(Creative Commons Zero,宣告放棄著作權的公眾領域授權),而 Microsoft 官方部落格又直接引導讀者使用,觀感像是在替「盜版資料拿來做 LLM 範例」背書。也有人質疑為何不改用真正公眾領域小說當教材;另有留言推測這篇 2024 年文章能存在一段時間,是因為資料集下載量、文章瀏覽量不高而沒被注意到。討論延燒後,社群回報頁面隨即變成 404,並流傳 Wayback Machine(Internet Archive 的網頁時光機)與其他備份站連結;同時有人追查到相關 GitHub 範例也曾嘗試用 force push(強制推送)清掉歷史,但因提交紀錄與簽章仍可被外界比對,難以完全抹除。
責任歸屬上,部分人主張主要過錯在上傳者或平台標示錯誤授權;反對者則認為「一般理性人」都知道《哈利波特》不可能是公眾領域,且在美國著作權侵權多屬嚴格責任(即使非故意仍可能要負損害賠償責任),企業更不該用這種素材當示範。也有人用「教育用途/合理使用(fair use)」替教學文章緩頰,但隨即被反駁 Microsoft 並非非營利教育機構,且把做法包裝成可複製的商用雲端範例,界線更敏感。另一些討論延伸到 LLM 記憶化風險:有人引用研究稱某些模型可近乎逐字重現《哈利波特》首集大部分內容,進一步擔心未來可能出現用提示詞就能重建熱門書籍的「AI 圖書館」,以及同人創作圈被大量粗製濫造內容淹沒的現象。
👥 166 則討論、評論 💬
https://news.ycombinator.com/item?id=47067759