了最大程度提高向量知識庫的可信程度,對文獻數據進行篩選,選出帶有流程圖,數據,輸入輸出
的英文文獻,作為最後使用的數據。精細篩選後,使用unstructured庫進行數據預處理使其轉化
為結構化數據。
42向量知識庫的構建
向量知識庫構建是一個將處理過的數據嵌入向量知識庫的過程,主要用於將不同類型的數據轉
化為向量,並進行存儲和檢索。其流程如圖41所示。
圖41向量知識庫構建流程
對收集到的數據進行清洗、去重、分類,提取分割文本,以確保數據的質量和有效性。消除噪
聲數據,提高數據的一致性和準確性。將預處理後的數據轉化為向量,將向量化後的數據存儲到向
量知識庫中,並利用向量數據庫進行高效的存儲和檢索。向量數據庫是一種專門用於存儲和檢索向
量數據的數據庫係統,可以根據語義或上下文含義查找最相似或相關的數據。
測試流程包括以下幾個步驟
測試設計根據目標領域定義測試用例,包括典型問題、邊緣情況和錯誤輸入。
環境搭建搭建測試環境,包括聊天界麵和後端模型處理係統。
執行測試記錄模型的回應。
評估結果根據預設的標準(如準確性、響應時間、用戶滿意度)評估模型表現。
優化模型根據測試結果對模型進行調整和優化。
52智能交互組件chatbot
chatbot是一種人工智能程序,它設計用於模擬人類對話,並且能夠基於事先編程或機器學習
技術來進行智能對話交流。chatbot通常被用於客戶服務、信息查詢、娛樂等各種場景,可以通過
文本或語音與用戶進行交互。
chatbot的一些特點和作用包括
1自動化交互chatbot可以自動回答用戶提出的問題,執行指定的任務,無需人工乾,減少
人力成本和時間消耗。
2實時響應chatbot能夠在任何時間、任何地點服務,隨時響應用戶的問題和需求。
3個性化服務chatbot可以根據用戶的需求和曆史數據個性化的服務和建議,提高用戶
體驗。
4多渠道支持chatbot可以在多種通信渠道上運行,如網頁、應用程序、社交媒體平台等,
為用戶多樣化的對話途徑。
本項目選擇openai的gpt模型作為chatbot的大語言模型基座,gpt模型基於transforr
架構,相較於其他模型,這種架構允許模型在處理長文本時保持較好的性能,同時具有良好的並行
化能力,使得模型的訓練和推理速度得到提升。
521chatbot後端
基於先前構建的針對電力lca領域的向量知識庫構建chatbot測試模型性能,主要設計思路是
為了實現檢索功能,大致可分為知識庫檢索功能和在線搜索。
chatbot功能流程圖如圖51所示。
用戶通過chatbot界麵輸入他們的問題或請求。對用戶輸入文本進行清洗,包括去除標點符
號,進行分詞等。轉化為結構化數據後將預處理後的文本轉換為向量形式,以便於機器理解。將向
量化處理後的用戶問題構建成搜索向量。使用搜索向量與知識庫中已向量化的內容進行匹配,找出
相關的信息。對匹配到的知識庫內容進行排序,選擇最相關的幾個回答候選。為保證性能設置最相
關的問答數量。基於排序和選擇的結果,生成回答,將最終確定的回答返回給用戶。
對於用戶輸入的問題語句進行文本預處理,隨後將其變成機構化數據後向量化,與先前處理文
獻數據類似,因此這裡不再贅述。
知識庫搜索