Jump to...
redirecting...

Log for Ubuntu 台灣社群

Google 的新手機 Pixel 10a 基本上就是去年的 Pixel 9a

Google 推出了新的中階手機 Pixel 10a,其規格與 500 美元售價和去年推出的 Pixel 9a 基本相同,最顯著的變化是相機模組不再凸起了,手機放在桌上可以順暢地滑來滑去。Pixel 10a 顯示螢幕解析度和 Pixel 9a 相同,保護玻璃與最高亮度略有提升,處理器仍然是 Tensor G4,而不是其他 Pixel 10 系列採用的新一代 Tensor G5 SoC(System on a Chip),相機硬體、記憶體、儲存空間都和 Pixel 9a 一樣,電池續航力略有提升,Pixelsnap Qi2 無線充電和 Gemini AI 進階功能都沒有提供。
https://store.google.com/us/product/pixel10aspecs?hl=en-US

https://store.google.com/us/product/pixel10aspecs?hl=en-US
[sticker](media:AAMCBQADHQI9GfldAAECRoFplyvCSdMfpHQgXj1E57Ouiqra0gAC3gUAAtLYyVeJL7ncRGVwagEAB20AAzoE@telegram)
[photo](media:AgACAgUAAx0CPRn5XQABAkaCaZcsC-IzPfhmtZxmWLR0x-rYnp0AAgMOaxsakLhUorn6AhmtlKEBAAMCAANzAAM6BA@telegram)
[sticker](media:AAMCBQADHQI9GfldAAECRoNplywz_JYbl8TyDBj9xF4LEIgfxgACAgADFgVMGB7-aYRq3GmTAQAHbQADOgQ@telegram)
Microsoft 用盜版《哈利波特》作為 LLM(大型語言模型)訓練範例的教學指南(2024)[已移除] (★ 273 分)

Microsoft 介紹 Azure SQL 與 Microsoft Fabric 的 SQL 資料庫新增「原生向量(vector)支援/向量搜尋」後,如何用 LangChain(常見的 LLM 應用開發框架)把 SQL Server 當成向量儲存庫(vector store,用來存放文字的向量嵌入並做相似度搜尋),快速替既有 SQL 型應用加上 LLM(Large Language Model,大型語言模型)能力。文中以 Kaggle 上的《哈利波特》7 本書純文字檔做範例,示範兩種情境:一是從書中做問答,二是用書中段落作為素材,讓模型撰寫同人小說。

教學流程從安裝 langchain-sqlserver 套件開始,接著把放在 Azure Blob Storage 的文本載入,再用 LangChain 的文字切分器把長文分段(因為 Azure OpenAI 的 embedding(向量嵌入,把文字轉成向量表示)有 token(模型輸入字詞單位)上限)。之後呼叫 Azure OpenAI 產生每段文字的向量嵌入,把「文字+向量+中繼資料」寫入 Azure SQL 的向量欄位,並示範如何用相似度搜尋找出最接近問題的段落,也能搭配中繼資料做條件過濾,把搜尋範圍縮小到更相關的子集合。

在問答用例中,文章把向量儲存庫做成 retriever(檢索器),再用 RAG(Retrieval-Augmented Generation,先檢索資料再由模型撰寫回答的方法)組合提示詞範本與問答 chain,讓回答不只精簡,也能把引用到的原始段落一併回傳,方便呈現「答案依據」。在同人小說用例裡,系統先依使用者提示詞從向量儲存庫撈出相關段落、整理成脈絡,再交給 GPT-4o(OpenAI 的多模態大型語言模型)撰寫故事,並同樣呈現靈感來源段落;作者也提供 GitHub 上的 Notebook 範例,並邀請到 Azure SQL 回饋管道提出建議。

留言區多數焦點轉向著作權爭議:許多人指出 Kaggle 範例資料集疑似是把《哈利波特》電子書轉成 .txt 上傳,卻標示為 CC0(Creative Commons Zero,宣告放棄著作權的公眾領域授權),而 Microsoft 官方部落格又直接引導讀者使用,觀感像是在替「盜版資料拿來做 LLM 範例」背書。也有人質疑為何不改用真正公眾領域小說當教材;另有留言推測這篇 2024 年文章能存在一段時間,是因為資料集下載量、文章瀏覽量不高而沒被注意到。討論延燒後,社群回報頁面隨即變成 404,並流傳 Wayback Machine(Internet Archive 的網頁時光機)與其他備份站連結;同時有人追查到相關 GitHub 範例也曾嘗試用 force push(強制推送)清掉歷史,但因提交紀錄與簽章仍可被外界比對,難以完全抹除。

責任歸屬上,部分人主張主要過錯在上傳者或平台標示錯誤授權;反對者則認為「一般理性人」都知道《哈利波特》不可能是公眾領域,且在美國著作權侵權多屬嚴格責任(即使非故意仍可能要負損害賠償責任),企業更不該用這種素材當示範。也有人用「教育用途/合理使用(fair use)」替教學文章緩頰,但隨即被反駁 Microsoft 並非非營利教育機構,且把做法包裝成可複製的商用雲端範例,界線更敏感。另一些討論延伸到 LLM 記憶化風險:有人引用研究稱某些模型可近乎逐字重現《哈利波特》首集大部分內容,進一步擔心未來可能出現用提示詞就能重建熱門書籍的「AI 圖書館」,以及同人創作圈被大量粗製濫造內容淹沒的現象。

👥 166 則討論、評論 💬
https://news.ycombinator.com/item?id=47067759
微軟寫程式要用到魔杖念咒
會不會反被法務阿?
微軟使用盜版素材被吉 這種