Matrix 首頁推薦
Matrix 是少數派的寫作社區,我們主張分享真實的産品體驗,有實用價值的經驗與思考。我們會不定期挑選 Matrix 最優質的文章,展示來自用戶的最真實的體驗和觀點。
文章代表作者個人觀點,少數派僅對标題和排版略作修改。
卡片
我非常喜歡使用卡片筆記。其優點明顯,例如能顯著減輕寫作壓力。在你面對空白屏幕時,寫一篇文章的壓力可能會很大,而随時三言兩語記錄卡片筆記則顯得更爲輕松。由于筆記以卡片形式存在,可以進行大量重組複用,對于内容輸出來說,非常友好。
然而,卡片筆記也會帶來一些問題。信息分散在許多卡片中,在查找和使用時增加了困難。爲了解決這個問題,現有的卡片筆記工具普遍采用了雙鏈方法。
雙鏈将筆記之間進行鏈接。當我們需要查找筆記時,不再僅僅按照關鍵詞搜索,而是找到某一篇筆記作爲種子,然後沿着鏈接指出的路徑和聚簇關聯,找到相關的卡片,并且進行整合輸出。Obsidian,Roam Research 和 Logseq 等卡片筆記工具都提供了這樣的雙向鏈接功能。
疑問
近一段時間,我在知識星球和公衆号後台時常收到讀者的疑問:能否将 AI (例如 ChatGPT)與我們的本地卡片筆記庫進行交互?這樣就可以獲取與特定主題緊密相關的諸多卡片内容,并将它們有機地整合。然後利用 ChatGPT 的自然語言問答交互能力,讓 AI 以流暢、清晰、準确且綜合的方式,回答我們的問題,形成獨有的知識輸出。
回答這個問題有些困難。單一文檔的問答對話已經有很多解決方案,例如我之前推薦過的 ChatDoc 等。然而,要從多文檔中綜合提取信息,ChatDoc 搞不定。好用的多文檔問答工具倒是現成的,例如 ChatBase 。
好用歸好用,價格卻不能忽略。ChatBase 最低月費是 19 美元。
一開始我覺得 19 美金 / 月這價格雖然不低,但如果能提高用戶工作效率并帶來競争優勢,或許值得。但是,我看到這篇作者的訪談後,就改變了想法。
作者觀察到大部分用戶一上來都選擇了最低擋位的 19 美金,但是很快要麽提高訂閱等級(多交錢),要麽幹脆不續訂了。這表明 19 美元的月訂閱費對大部分人來說,根本不夠用。
好在我最近發現了一個新的應用,能以經濟實惠的方式爲大部分用戶提供多文檔對話功能。
應用
這款工具叫做 Quivr ,網址在這裏。
使用之前,你需要先設置你的 OpenAI API 密鑰,然後選擇相關的模型。我建議你選擇 gpt-3.5-turbo-16k 模型,因爲這個 6 月 13 日更新的模型 token 最大長度有顯著提升,可以大概率避免答案中途無緣無故截斷。
使用 Quivr 的過程裏,你依然要爲調用 OpenAI API 付費。但是比起 ChatBase 19 美元起的月費,這個成本就顯得微不足道了。
上傳
Quivr 的界面簡潔易用,用戶可以将一系列文檔拖拽上傳,或者直接指定某個網址,它自己幫你爬取網站信息。這樣一來,你就可以輕松愉快和自己的卡片筆記對話了。
爲了演示方便和保護隐私,我上傳了之前發布在公衆号和知識星球、小報童的一些文章。如果這款工具可以妥善處理文章這樣的長篇材料,那麽卡片筆記篇幅短小,更是不在話下。
除了文本和 Markdown 文件,Quivr 還支持其他類型的文件,如 PDF、PowerPoint、Excel、Word,甚至音頻和視頻。這意味着用戶可以上傳各種不同的材料和類型,然後統一進行提問,我認爲這個設計準确抓住了知識生産用戶的痛點。
在上傳過程中,工具會提示哪些文件已成功上傳。我上傳的都是 markdown 純文本文件,體積不大,很快就完成了。
在 Explore 選項下,我們可以檢查已經上傳的文件,确認沒有遺漏。
用戶還可以通過圖表查看當前存儲空間的使用情況。如果你使用的資料都是 Markdown 文件,這 200 MB 的空間應該能用一段時間了。
至此咱們的資料已經上傳好了,下面可以開始提問了。
提問
我首先詢問我的知識庫中包含哪些 GPT 的應用介紹。
Quivr 返回了四個結果,其中前三個還算準确,而且明顯不是來自單一文件,而是綜合了多個文件的信息。除了過于籠統的第四個答案,我整體比較滿意。
我接着提問 GPT-4 在編程上能提供何種幫助。它根據我的資料列出了一些具體應用,如 代碼解釋器 和 Github Copilot Chat 等。
隻是我不明白答案第二項這個自動化論文評分(AES)是啥,我沒寫過啊?結果在 Obsidian 裏面一查詢,發現是《AI 寫文獻回顧,好使嗎?》一文中引用的 GPT-4 給出的答案。難怪,哈哈。
我進一步提問,哪些 GPT 功能和 GPT 插件可以用于科研文獻回顧,并要求它給出綜合結果并列出原始信息。
Quivr 将 GPT 功能 和 GPT 插件(分别來自兩篇不同的文章)分開處理,分别提供了來源。然而,我發現 Quivr 并未列出具體的文檔名,而且部分結果存在誤導,如将 Wolfram 誤爲文獻回顧的插件。
我懷疑可能是我的提示詞有誤,于是我對提示詞進行了修正,并提出新的問題。
這次我要求綜合結果、具體細節,還要求了原始信息。
下面是 Quivr 的回答:
這答案看完,我頗爲振奮。首先 Quivr 确實綜合了大概 4 篇文檔的内容,而且都進行了梳理提煉,在答案中列出這些原始文件名稱,使得我們驗證答案變得更爲容易,也爲進一步的知識挖掘提供了基礎。
特色
另外我發現 Quivr 還保存了曆次對話,以便于用戶随時回顧和分析曆史信息。這個功能可以幫助你不斷與自己的卡片筆記庫深入對話,找到深層次的洞察,發現可能被忽略的問題。
Quivr 是完全開源的,你可以 在 GitHub 上找到其源代碼倉庫。
Quivr 爲用戶提供了在本機部署服務的方法,使用的是 Docker。如果你有需求,可以按照官方教程操作。
LangChain
我們簡要介紹一下 Quivr 所使用的技術。它的基礎框架是 LangChain,這是一個在 GitHub 上特别受歡迎的庫,評價超過 5 萬顆星,月下載量過百萬。
LangChain 這個庫的優勢在于解決了人們使用大型語言模型時重複性操作問題。深度學習中求導、反向傳播等重複性操作很惱人,于是催生了 TensorFlow 和 PyTorch 這樣的深度學習框架。同樣,LangChain 也在事實上成爲 LLM 應用領域的通用框架,你在目前海量湧現的 LLM 應用中,大多都能看見它的影子。
如果你對 LangChain 感興趣,我推薦 這門由 Deep Learning AI 和 LangChain 官方聯合推出的免費課程。
盡管這隻是一門基礎課程,但學過後你可以對一些已經存在的項目進行修改調整,滿足你自己的應用需求。
安全
我知道讀到這裏,又有讀者要跟我聊隐私數據洩漏問題了。有人堅持認爲一調用 OpenAI API ,你的數據就會被科技巨頭收割。在 ChatGPT 科研預覽版階段,這樣的擔心确實很有必要。我在去年 12 月第一次介紹 ChatGPT 的時候就專門提過。不過我們也要注意與時俱進。自 2023 年 3 月 1 日起,OpenAI 在數據政策上已經做出了重大的調整。
通過 API 上傳的數據并不會被 OpenAI 用于訓練或改進模型,除非用戶明确要求這樣做。由于法規要求,OpenAI 會保留你通過 API 上傳的數據 30 天,然後删除。
如果你就是對數據隐私高度敏感,無法使用 OpenAI ,Quivr 也能幫到你。最近它已經支持了開源模型 GPT4All 。這個模型我之前給你介紹過的,在筆記本上就能運行。雖然處理複雜認知問題,GPT4All 相較于 GPT-4 還有相當的差距,但是對若幹份文檔抽取重點做出解答,還足夠勝任。
随着更多的本地化模型和開源模型的加入,個人和機構的知識庫也可以完全在本地利用 Quivr 進行知識檢索和問答,而無需擔心數據隐私洩露。
小結
今天我爲你介紹了利用 ChatGPT 與你的卡片筆記庫交互的免費開源軟件—— Quivr。從卡片中提取内容時減少手動查詢操作,更減輕了你輸入卡片時的整理壓力。與 ChatBase 等應用相比,Quivr 免費開源。它支持多種文件格式,還可以使用本地開源大語言模型 GPT4All 等。希望它能對你的知識管理起到幫助。
如果你覺得本文有用,請充電。
如果本文可能對你的朋友有幫助,請轉發給他們。
歡迎關注我的專欄「科研利器」,以便及時收到後續的更新内容。
點擊這個鏈接加入少數派會員,立享 9 折優惠!獲得專屬會員内容、會員播客以及會員定制周邊。在更多的領域和方向幫你打開腦洞,找到新的興趣點,與少數派一起洞悉當下,探索新知。
延伸閱讀
> 下載 少數派 2.0 客戶端、關注 少數派公衆号,閱讀更多 WWDC23 專題報道