多義詞語義拓撲及有監督的詞義消歧研究

肖銳; 蔣家琪; 張云春云南大學國際學院; 昆明650091; 云南大學軟件學院; 昆明650091

詞義消歧
深度神經網絡
語義拓撲
循環神經網絡
長短期記憶網絡

摘要：多義詞語義是漢語國際教育和HSK考試的重點和難點。詞義消歧研究致力于確定多義詞在給定上下文中的具體含義,在人機交互、機器翻譯、作文自動評分等領域被廣泛應用。然而,現有的詞義消歧方法存在準確率較低、語料庫匱乏、特征簡單等弊端。針對漢語國際教育的相關語料庫和評價系統,基于深度神經網絡設計漢語多義詞詞義消歧的分類模型是當前的研究熱點,同時也是實現HSK作文自動評分的重要技術保障。已有研究假定多個義項相互獨立,缺乏對多義詞義項演變關系的重視,對此文中首先對典型的漢語多義詞進行語義研究,以區分基礎義項和固定搭配義項來構建語義拓撲圖,用于指導分類模型的訓練。在建立多義詞語義拓撲圖的基礎上,通過對漢語語料庫的爬蟲,獲取典型多義詞的語料樣本,進而構建有監督的深度神經網絡模型,包括RNN,LSTM和GRU。通過對爬蟲所獲樣本的分析,選取了30字長和60字長,分別設計單向和雙向6種神經網絡,通過多次訓練對模型參數進行優化,最終獲得詞義消歧分類模型。實驗選取“意思”多義詞作為代表,開展多義詞在給定上下文的詞義消歧實驗。結果表明,基于RNN,LSTM網絡和GRU的深度學習模型的平均準確率均超過75%,其中各模型的最大準確率均超過94%;各模型的ROC曲線下面積(Area Under Curve,AUC)均超過0.966,表明其對樣本類不均衡性具有較好的處理效果;單向和雙向RNN模型在不同字長條件下均取得最佳學習效果。

注：因版權方要求，不能公開全文，如需全文，請咨詢雜志社

投稿咨詢文秘咨詢