<cite id="yyiou"><tbody id="yyiou"></tbody></cite>
<cite id="yyiou"><samp id="yyiou"></samp></cite>
  • <s id="yyiou"></s><bdo id="yyiou"><optgroup id="yyiou"></optgroup></bdo>
  • <cite id="yyiou"><tbody id="yyiou"></tbody></cite>

    首頁 > 期刊 > 自然科學與工程技術 > 信息科技 > 圖書情報與數字圖書館 > 數字圖書館論壇 > 基于改進TF-IDF-CHI算法的農業科技文獻文本特征抽取 【正文】

    基于改進TF-IDF-CHI算法的農業科技文獻文本特征抽取

    杜若鵬; 鮮國建; 寇遠濤 中國農業科學院農業信息研究所/農業農村部農業大數據重點實驗室; 北京100081
    • 特征抽取
    • 卡方統計
    • 文本分類
    • 農業科技文獻

    摘要:針對相近農業科研領域文獻的文本特征信息高度重合的特點,以及傳統的文本特征抽取方法存在的不足,對TF-IDF算法進行優化并加以應用驗證。通過引入卡方檢驗值與特征詞頻修正因子等方式,對特征詞加權函數進行重構,形成改進的ImpTF-IDF-CHI方法。將該方法與文檔頻率法、信息增益法及TF-IDF3種傳統的文本特征抽取結果應用于樸素貝葉斯分類實驗,根據實驗結果判定方法的優劣性。通過4種方法的58組特征抽取與文本分類實驗,發現與前述的3種特征抽取方法相比,ImpTF-IDF-CHI方法抽取的特征詞,應用于文本分類的正確率最高,平均準確率達94%,F1值為0.844,證明該方法在對相近農業科研領域文本進行特征抽取方面,具有準確率高、穩定性好、主題詞代表性強等優點,可以有效地應用于此類文獻文本分類、特征表達、主題抽取等場景。

    注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社

    投稿咨詢 文秘咨詢

    數字圖書館論壇

    • 預計1-3個月 預計審稿周期
    • 0.34 影響因子
    • 科技 快捷分類
    • 月刊 出版周期

    主管單位:中華人民共和國科學技術部;主辦單位:中國科學技術信息研究所

    我們提供的服務

    服務流程: 確定期刊 支付定金 完成服務 支付尾款 在線咨詢
    主站蜘蛛池模板: 巴青县| 石门县| 商水县| 绍兴县| 海盐县| 突泉县| 临江市| 绥棱县| 彭山县| 大荔县| 剑阁县| 平陆县| 河西区| 荆州市| 延寿县| 甘谷县| 大连市| 扎兰屯市| 广宁县| 南川市| 慈利县| 西青区| 伊宁县| 庄浪县| 龙陵县| 炉霍县| 咸丰县| 肃南| 筠连县| 东乌珠穆沁旗| 东至县| 田阳县| 乌苏市| 祁门县| 岗巴县| 涿州市| 慈利县| 新安县| 金山区| 长治县| 天水市|