<strike id="h55fp"><b id="h55fp"></b></strike><address id="h55fp"><nobr id="h55fp"><meter id="h55fp"></meter></nobr></address>

          <sub id="h55fp"><listing id="h55fp"><mark id="h55fp"></mark></listing></sub>
                  立即咨詢
                  您當前的位置:職稱驛站 > 論文 > 科技論文 > 智能科學技術論文職稱驛站 期刊論文發表咨詢 權威認證機構

                  基于小樣本數據增強的科技文檔不平衡分類研究

                  職稱驛站所屬分類:智能科學技術論文發布時間:2022-07-14 09:07:39瀏覽:

                  科學技術的飛速發展衍生出海量的科技文檔,其有效管理與查詢依賴于準確的文檔自動化分類。然而,由于學科門類眾多且發展各異,導致相關文檔數量存在嚴重的不平衡現象,削弱了分類技術的有效性。雖然相關研究證實預訓練語言模型在文本分類任務上能夠取得很好的效果,但由于科技文檔較強的領域性導致通用預訓練模型難以取得良好效果。

                     摘 要:科學技術的飛速發展衍生出海量的科技文檔,其有效管理與查詢依賴于準確的文檔自動化分類。然而,由于學科門類眾多且發展各異,導致相關文檔數量存在嚴重的不平衡現象,削弱了分類技術的有效性。雖然相關研究證實預訓練語言模型在文本分類任務上能夠取得很好的效果,但由于科技文檔較強的領域性導致通用預訓練模型難以取得良好效果。更重要的是,不同領域積累的文檔數量存在顯著差異,其不平衡分類問題仍未完善解決。針對上述問題,本文通過引入和改進多種數據增強策略,提升了小樣本類別的數據多樣性與分類魯棒性,進而通過多組實驗討論了不同預訓練模型下數據增強策略的最佳組合方式。結果顯示,本文所提出的技術框架能夠有效提升科技文檔不平衡分類任務的精度,從而為實現科技文檔自動化分類及智能應用奠定了基礎。

                    關鍵詞:文本分類;預訓練模型;類別不平衡;數據增強

                  中國軟科學

                    《中國軟科學》創刊于1986年,月刊,是由中華人民共和國科學技術部主管,中國軟科學研究會、中國科學技術信息研究所主辦的學術期刊,是中國軟科學研究會會刊。

                    中圖分類號:TP391.1文獻標識碼:A文章編號:2097-0145(2022)03-0023-08doi:10.11847/fj.41.3.23

                    Research of Imbalanced Classification for Technical Documents

                    Based on Few-shot Data Augmentation

                    HUANG Jin-feng, GAO Yan, XU Tong, CHEN En-hong

                    (School of Computer Science, University of Science and Technology of China, Hefei 230027, China)

                    Abstract:Recent years have witnessed the rapid development of science and technologies, which results in the abundant technical documents. Along this line, automatic classification tools are urgently required to support the management and retrieval of technical documents. Though prior arts have mentioned that the pre-trained models could achieve competitive performance on textual classification tasks, considering the domain-specific characters of technical documents, effectiveness of these pre-trained models might be still limited. Even worse, due to the imbalanced accumulation of documents for different research fields, there exists the severe imbalanced classification issue, which impair the effectiveness of classification tool. To deal with these issues, in this paper, we propose a comprehensive framework, which adapts the multiple data augmentation strategies, for improving the diversity and robustness of document samples in few-shot categories. Moreover, extensive validations have been executed to reveal the most effective combination of data augmentation strategies under different pre-trained models. The results indicate that our proposed framework could effectively improve the performance of imbalanced classification issue, and further support the intelligent services on technical documents.

                    Key words:text classification; pre-trained language model; class imbalance; data augmentation

                    1 引言

                    近年來,隨著科研投入力度的不斷加大,各學科研究的長足發展衍生出了海量的科技文檔。以作為測度科技發展水平重要指標的科技論文產出情況為例,自2012年至今的10年來,SCI數據庫收錄的我國作者論文數量不斷攀升,并于2019年突破50萬篇。這一趨勢既體現了科研領域蓬勃發展的新局面,也帶來了科技文檔有效管理與高效檢索的巨大挑戰。由于作者所提供的少量關鍵詞信息難以適應層次復雜的標簽體系和動態變化的分類標準,在實踐中往往無法獲得所需的精度。因此,借助機器學習技術,基于科技文檔中的豐富文本進行自動化分類已成為應時之需。

                    事實上,由于自然語言表達本身有著復雜的語義結構、豐富的多樣性和多義性,并且會隨著不同的外部語境而發生變化,導致科技文檔等長文本的理解與分類任務本身具有較高的困難性。近年來,隨著BERT[1]等預訓練語言模型[1~3]的提出,越來越多的研究者聚焦于預訓練加微調的遷移學習方式進行文本分類。其中預訓練語言模型按照設計的代理任務在海量的無標簽語料中學習文本表征,獲取語言中蘊含的結構信息。由此,通過使用預訓練好的語言模型并在特定下游任務中微調訓練,可以有效地將海量無標簽語料中的信息泛化到下游任務,在各種文本分類中取得了不錯的效果。

                    然而,科技文檔由于其自身領域性和專業性的特點,在詞語分布與表達結構上與通用語料存在較大差異。因此,基于通用語料的預訓練語言模型往往在科技文檔的表征學習任務上存在一定偏差,這在一定程度上削弱了其有效性。更為重要的是,由于各學科分支發展的差異性,不同領域的文檔積累數量存在顯著區別,從而導致了嚴重的不平衡分類問題。例如,據2019年中國科技論文統計分析顯示,國內科技論文最多的

                    10個學科所發表的論文總數占全部國內科技論文的62.9%,其中排名第一的“臨床醫學”學科占總量的26.4%。顯然,這種不平衡性會導致分類標簽傾向于熱門學科,從而導致冷門學科難以有效分類,限制了分類技術在科技文檔管理與檢索任務上的應用。

                    針對這一問題,本文通過引入和改進多種數據增強策略,提升了小樣本類別的數據多樣性與分類魯棒性。具體而言,首先借助各類現有預訓練語言模型,對科技文檔的長文本進行初步的表征學習,進而將學習到的表征輸入下游網絡結構進行語義分類。其中為有效解決冷門學科小樣本所面臨的分類不平衡的問題,采用簡單增強、混類增強等策略增強小樣本數據,從而提升模型的泛化性能;同時,借鑒視覺領域所采用的知識蒸餾思想實現專家模型向小樣本分類任務的數據增強指導。實驗結果證實,本文所采用的策略組合能夠有效緩解科技文檔分類中的不平衡分類問題,從而提升整體的文檔分類效果。在2021年舉行的首屆“人郵杯”高校人工智能挑戰賽中,我們借助本方案的初步版本脫穎而出,最終獲得該競賽冠軍。

                    2 相關文獻綜述

                    在本節中,我們將從兩個方面總結與本文相關的文獻,分別為文本分類技術及不平衡分類問題。

                    2.1 文本分類技術

                    文本分類是自然語言處理中的經典問題。近年來,隨著文本語料的積累與深度學習技術的成熟,基于深度學習的文本分類方法逐漸成為主流。其中Liu等[4]針對RNN網絡能夠有效建模時間序列的歷史信息和位置信息的優勢,基于多任務學習,通過共享部分層RNN網絡的權重,在不同文本分類任務中提升了效果。而Tai等[5]提出了樹形LSTM模型,通過建模語句中的樹形語法層次結構,在預測語句語義關聯和語句情感的分類任務中取得了顯著的提升。此外,Zhou等[6]提出將LSTM與CNN模型相結合并用于文本分類,借助CNN模型加強LSTM輸出中的局部短期關聯,使模型能夠兼顧語言中的長短期依賴。近年來,基于注意力機制的文本分類模型也備受關注,例如Pappas和Popescu-Belis[7]使用層次化的注意力機制,建模語言中復雜的依賴關系,在多語言環境中共享了編碼器和注意力模塊權重,超過了單語言設置下的分類效果。然而,這些技術往往無法有效應對嚴重的不平衡分類問題,因此限制了其在科技文檔分類任務上的有效應用。

                    2.2 不平衡分類問題

                    樣本不平衡分類問題是有監督學習中的基礎性問題,主要指不同類別樣本數量差距過大,導致小樣本類別訓練數據不全面且缺乏多樣性,在測試中難以有效識別。針對這一問題,Elkan[8]使用代價敏感學習,將不同的類別預測錯誤賦予不同的代價權重,調高模型將小樣本類別預測為大樣本類別的懲罰權重,這一定程度上能夠緩解樣本不均衡問題。由于樣本不均衡問題的本質是部分類別沒有足夠的訓練樣本,很多基于數據增強的方法被提出來解決這一問題。例如,Zhang等[9],Wei等[10]通過同義替換的方式,將語句中的詞語用同義詞字典或者詞向量中的近鄰進行替換,擴大了小樣本類別語料的數量和多樣性。Goodfellow等[11]提出FGM方法,通過計算樣本相對損失的梯度,對樣本在梯度上升的方向做隨機擾動,旨在讓模型學習更難分類的樣本,這種在樣本空間中引入噪聲的方式能夠提升模型的魯棒性。不僅是文本任務,在圖片分類和目標識別任務中也存在著嚴重的長尾問題,例如Hu等[12]通過按照樣本數量將所有類別切分為幾個大類,保證大類中的類別樣本數量相對均衡,模型按照降序每次增量學習一個大類,用小樣本遷移學習的方式實現每一次增量學習。在本文中,我們將通過引入多種數據增強策略,并借鑒視覺領域處理長尾分類問題的知識蒸餾技術等多種手段,嘗試解決科技文檔的不平衡分類問題。

                    3 基礎模型

                    在本節中,我們首先簡要介紹面向文檔分類任務的基礎模型作為本文技術框架的預備知識,其中包括基本的預訓練語言模型及其下游網絡結構。

                    3.1 預訓練語言模型

                    由于現階段大多數自然語言處理任務的數據標注成本較為高昂,構建大規模的高質量標注數據集非常困難。近年來,在深度學習技術和豐富語料積累的支撐下,基于大規模無標注語料訓練學習通用語言表示,再將其應用到下游任務,已成為當前研究的基本范式。本節將介紹經典BERT[1]模型作為預訓練語言模型的代表,而其他預訓練語言模型在基本思路上與其類似。

                    具體而言,BERT模型采用兩階段訓練模式。第一個階段為預訓練階段,基于兩個無監督預測任務:遮擋語言模型和下一句預測,從語料中學習到一種通用語言表示。第二個階段為微調階段,在已經訓練好的語言模型基礎上引入下游網絡架構,再基于具體下游任務對模型進行訓練,使其在下游任務上能夠取得良好的性能。

                    3.2 下游網絡結構

                    在基于預訓練語言模型學習到文本表征之后,可以通過將其輸入到下游網絡結構,利用分類任務中的有標注數據完成網絡的訓練,從而實現文本的有監督分類。本節將介紹三種代表性的下游網絡架構,分別為線性分類器、CNN+線性分類器,BiLSTM+線性分類器。

                    (1)線性分類器。在BERT模型基礎上,將學習到的表征(融合了文本的所有信息)輸入到一個全連接層,模型通過特征的線性組合做出相應的分類決策。

                    (2)CNN+線性分類器。通過在BERT模型基礎上加入CNN和全連接層,將BERT模型每層的輸出結果輸入到多層卷積神經網絡,每層卷積操作之后再接一個最大池化操作。合并所有池化操作的輸出結果,輸入到一個全連接層,最終判別得到樣本分類結果。

                    (3)BiLSTM+線性分類器。在BERT模型基礎上加入一個雙向的LSTM層和全連接層。具體的操作和上述方法類似,將BERT模型每層的輸出結果輸入到一個雙向的LSTM層,然后將雙向的LSTM層輸出與BERT模型最后兩層的輸出拼接在一起,輸入到一個全連接層,最終給出樣本分類結果。

                    4 基于小樣本增強的不平衡分類

                    如前所述,科技文檔存在著嚴重的類別不平衡問題,削弱了現有分類技術的精度。在本節中,我們將介紹多種小樣本數據增強的策略,以嘗試解決數據類別不均衡的問題。

                    4.1 技術框架概述

                    本文所采用的技術框架如圖1所示。其中虛線框中的部分為上文所介紹的基礎語言模型,包括預訓練語言模型與相應的下游分類網絡結構。如前所述,這一基礎模型框架雖然可以在通用文本分類任務上獲得較好結果,但在面臨不平衡分類問題的科技文檔分類任務上有一定的局限性。為此,本文擬通過引入多種數據增強策略,包括基于簡單/混類增強的模型泛化策略和基于知識蒸餾的專家指導策略等。下文將分別介紹這些數據增強策略。

                    4.2 簡單數據增強

                    由于各學科分支發展的差異性,部分冷門學科所積累的文檔數據量小且缺乏多樣性,難以將這些文檔歸類到正確的類別。我們期望增加這些小樣本文檔的數據量和樣本豐富度,以幫助模型對其進行正確分類。為此,我們啟發式地引入了簡單數據增強[10](Easy Data Augmentation,EDA)策略,它包含一系列傳統的數據增強方法,比如按照一定的概率對文本中的詞語按照同義詞字典進行文本替換,隨機插入或者刪除文本中的字詞,隨機交換文本中字詞位置等方法來實現數據擴增,借助一些先驗知識,基于文本經過少量變換不改變語義的假設,生成一批新的數據,從有限的數據中挖掘出等價于更多數據的價值,利用這些數據指導模型進行學習。

                    4.3 混類增強

                    目前對于文檔分類任務,往往采用大規模深度神經網絡加以實現,它們訓練模型以使訓練數據的平均誤差最小化,即經驗風險最小化[13](Empirical Risk Minimization,ERM)原則。但是,使用ERM方法訓練后,神經網絡可能會記住訓練數據,而不是去泛化它,如果測試分布和訓練分布略有不同,模型的預測性能可能會發生斷崖式下跌。針對這一問題,我們期望增加模型的泛化能力,減少模型對噪聲的敏感性,提升模型訓練時的穩定性。對此,考慮增加樣本的多樣性,使得模型能夠從豐富的樣本數據中學習到一般規律,提升其泛化能力。

                    在上一節中,我們引入了簡單數據增強策略,它可以實現對每一類的樣本分別進行數據擴增,屬于同類增強,但是這種方法與數據集密切相關,且需要一定的領域知識。針對這一局限性,我們希望能夠實現一種簡單且獨立于數據集的數據擴增方式,通過挖掘出不同類不同樣本之間的關系,構建虛擬的數據樣本;谏鲜鰡l,我們引入并改進了Mixup[14]的思想,按照一定的權重對訓練集中隨機抽取出的兩個樣本以及它們的標簽進行加權求和,實現虛擬數據樣本的構建。其中符號λ表示組合的權重,超參數γ控制特征-標簽對之間的插值強度。

                    =λxi+(1-λ)xj(1)

                    =λyi+(1-λ)yj(2)

                    λ=Beta(γ,γ)(3)

                    最后,將構建好的虛擬數據樣本輸入模型進行訓練,幫助模型優化。

                    4.4 正則化丟棄

                    同時,針對數據不平衡可能導致的過擬合問題,我們還將采用正則化丟棄(Regularized Dropout,RDrop[15])策略。它通過兩次dropout的方式得到同一個輸入的不同特征,構建對抗樣本對,同時計算模型兩次輸出結果之間的KL散度,使得不同dropout得到的模型輸出基本一致,從而提升訓練和測試時模型的一致性,增加模型的魯棒性,最終提升模型性能。

                    具體而言,在本問題中,訓練數據可以表示為{(xi,yi)}Ni=1,模型表示為P(y|x)。RDrop的損失函數包括兩個部分,一部分是基于每個模型的輸出結果計算損失值

                    L(CE)i=-logP(1)θ(yi|xi)-logP(2)θ(yi|xi)(4)

                    另一部分是計算兩個模型之間的對稱KL散度

                    L(KL)i=12[KL(P(2)θ(y|xi)‖P(1)θ(y|xi))+

                    KL(P(1)θ(y|xi)‖P(2)θ(y|xi))](5)

                    最終的損失函數是對這兩個部分的損失進行加權求和,通過最小化該目標即可實現優化求解

                    Li=L(CE)i+αL(KL)i(6)

                    4.5 多專家學習策略

                    之前引入的各種策略都是在數據輸入端,為提升模型魯棒性和泛化性而進行的操作。然而,如前所述,科技文檔存在嚴重的類別不平衡性,而這些模型并沒有有效借助那些數據量較少的類別。事實上,我們發現在樣本數較為平衡的原數據類別子集中訓練的模型效果要比直接在所有類別中訓練的模型效果好。為此,一種可行的策略是首先訓練多個分類子任務,然后在分類子任務的指導下,訓練對所有類別的分類任務,而這正是在視覺領域常用于解決不平衡分類問題的LFME[16]方法的出發點。為此,我們將LFME模型遷移到自然語言處理領域,其總體框架如圖2所示。

                    具體而言,LFME方法先將所有類別按照樣本切分為L個子集,并針對L個類別相對均衡的類別子集分別訓練分類模型,從而得到L個專家模型,再通過知識蒸餾的方式將L個專家模型遷移為針對所有類別的統一模型。其中知識蒸餾損失的權重由統一模型在不同類別子集上達到的驗證集準確率決定,驗證集準確率越低,代表越需要向對應的專家模型學習,蒸餾損失如下

                    LKDl=-H(τ(z(l)),τ((l)))

                    =-∑|Sl|i=1τ(z(l)i)log(τ((l)i))(7)

                    τ(z(l)i)=exp(z(l)i/T)∑jexp(z(l)j/T)

                    τ((l)i)=exp((l)i/T)∑jexp((l)j /T)(8)

                    wl=1.0if AccMβAccEl

                    AccEl-AccMAccEl(1-α)if AccM>βAccEl(9)

                    LKD=∑Ll=1wlLKDl(10)

                    其中T為溫度超參數,β為知識蒸餾的閾值超參數,AccEl為第l個專家模型的驗證集準確率,AccM為當前統一模型在第l個樣本子集的驗證集準確率,wl會在每個訓練周期結束后更新。

                    同時,LFME也進行了課程學習的設置,即從簡單到困難學習,使模型能夠平滑地收斂,其中樣本的難易程度由專家模型給出的置信度決定。交叉熵損失如下定義

                    LCE=∑Ni=1v(k)iLCE(xi)(11)

                    v(k)i=(1-piNSminNSl)eE+piNSminNSl(12)

                    其中LCE為交叉熵損失函數,e為所處的訓練周期序號,pi為專家模型得到的樣本置信度,NSl為第l個類別子類的樣本數量,NSmin為NSl中的最小值。最后,優化以下的總體損失函數

                    L=∑Ni=1viLCE(xi,yi)+∑Ll=1

                    ∑Ni=1wlLKDl(M,Mexp;xi)(13)

                    5 實驗驗證與討論

                    在本節中,我們將首先介紹實驗驗證所使用的數據集與數據處理過程,進而通過多組實驗,討論不同預訓練語言模型、下游網絡結構及相應的小樣本數據增強策略的最佳組合方式,并通過案例分析討論不同策略組合效果提升的可能原因及其潛在局限性。

                    5.1 數據集介紹

                    本文采用“人郵杯”有關測評的圖書分類數據集近似科技文檔數據,并通過分層抽樣將原始數據集按照18∶1∶1的比例劃分為訓練集、驗證集和測試集,三部分分別包含92549條、5142條和5141條記錄。整體文本長度分布如圖3所示,其中標題平均長度約為13,摘要平均長度約為240。樣本類別總共22類,其分布如圖4所示,可以看到數據存在嚴重的分布不平衡問題。例如,其中T類書籍在訓練集中占比超過30%,而S類書籍在訓練集中僅有13條。為進一步提升數據質量,我們對數據進行了簡單的清洗,去除了數據集中存在的特殊字符、重復字符等。

                    5.2 實驗設置

                    本次實驗所使用的預訓練語言模型均來自HuggingFace資源庫,訓練中使用的顯卡型號為NVIDIA GeForce RTX 3090。具體的參數設置如下:對于一般的預訓練語言模型,max_len設為200,對于長文本語言模型longformer,max_len設為456,學習率設為2e-4,batch_size設為32, dropout設為0.1, epoch設為20,混類增強方法中的γ設為0.25,RDrop方法中的α設為1,LFME方法中的溫度超參數T設置為2,知識蒸餾的閾值超參數β設置為0.8。在訓練LFME中的統一模型時,過采樣小樣本類別,使用類別獨立的采樣方式。

                    在實驗過程中,我們采用了micro-f1和macro-f1作為文本多分類任務的評估指標。其中macro-f1側重于小樣本,能夠更好地體現類別不均衡場景下小樣本類別上的性能。

                    5.3 基礎語言模型及其對比效果

                    在本實驗中,為了充分比較分析不同預訓練語言模型與下游網絡結構組合在科技文檔分類任務上的效果,我們采用了多種預訓練語言模型+線性分類器作為基準模型,其在驗證集和測試集上的分類效果如表1所示。由實驗結果可知,實驗中采用的所有基于預訓練語言模型的文本分類方法相對于傳統的文本分類方法,在各項指標上均有大幅度的提升,說明相較于隨機初始化詞向量,在大規模無標注語料庫上學習到的語言表征可以很好地遷移到下游任務,提升下游任務上的模型性能。同時,對于不同的預訓練語言模型,可以發現Longformer模型的性能最好,推測與其采用了局部注意力機制,可以有效地對長文本信息進行建模相關。

                    5.4 下游網絡結構對比

                    我們在多個預訓練語言模型的基礎上研究下游分類網絡對預訓練語言模型分類效果的影響,結果如表2所示,可以發現在BERT、NEZHA、Longformer三個預訓練語言模型中,BiLSTM作為下游網絡效果最好,而CNN下游網絡相對于線性分類器沒有明顯提升。

                    5.5 小樣本分類策略對比

                    針對前文所述的科技文檔嚴重的樣本不均衡問題,在本環節中,我們以Longformer為基準模型,在測試集上驗證和對比在第4節中介紹的多種數據增強方法。

                    具體而言,我們將數據中的22個類別按照出現頻次分成兩部分,并將出現頻次高的11個類別稱為head,出現頻次低的11個類別稱為tail,其中tail類別只占總樣本數的約5%。實驗結果如表3所示,其中分別列出了在tail類別、head類別和所有類別中的f1-micro和f1-macro等指標,數據增強方法名稱后有tail的代表僅僅在tail類別的樣本中進行數據增強。

                    通過實驗結果對比,我們發現LFME、RDrop、EDA、Mixup這四種數據增強方法,對比基線方法,在整體性能上均有不小的提升,通過分別評估head類別和tail類別中的f1-score,我們發現數據增強能夠在不影響大樣本類別分類效果的同時,極大地提升小樣本類別的分類表現。對比第2行和第3行以及第5行和第6行,我們發現僅僅在占5%的tail類別樣本中使用EDA或RDrop的方法,和與在所有樣本上做數據增強相比,在整體性能上能獲得差不多的提升,但在小樣本類別中明顯更優。對比第8行和第9行,在小樣本類別上利用Mixup能在整體性能和小樣本兩方面獲得更好的效果。對比第6行和第7行以及第9行和第10行,我們發現在RDrop或Mixup方法上疊加EDA會造成性能損失,我們推測是EDA生成的噪聲數據被RDrop或Mixup放大所造成的。

                    5.6 消融實驗

                    在前述策略組合的基礎之上,我們對于LFME中的重要模塊進行了消融實驗,其在測試集上的實驗結果如表4所示,其中“-課程學習”表示不根據專家模型區分樣本的難易程度,即公式(11)中的v(k)i設置為0,而“-動態蒸餾權重”表示在head和tail合集中不根據準確率動態調整蒸餾權重,即公式(9)中的wl在前一半訓練周期設置為1,后一半訓練周期設置為0。實驗結果驗證了課程學習和動態蒸餾權重模塊的有效性,在總體macro-f1和小樣本指標上,LFME模型都優于消融后的模型。

                    同時,對于EDA中插入、刪除、替換和交換4種數據增強方式,我們通過刪去一種增強方式而保留其他三種進行對比,驗證EDA中每種增強方式的有效性,實驗結果如表5所示。通過消融實驗,我們驗證了所有4種數據增強方式對小樣本分類任務均有幫助,其中交換操作提升最少。

                    5.7 案例分析

                    最后,我們通過部分案例的分析,討論在效果最好的預訓練語言模型Longformer模型的基礎上,Mixup和LFME兩種策略在小樣本分類問題上各自提升的可能原因及潛在的局限性。

                    [樣例1]:

                    標簽:C類圖書(社會科學總論)

                    標題:國際大都市文化導論,《國際大都市文化導論》對國際都市文化的比較研究

                    摘要:置于全球視野之下,試圖在全球化與全球新的城市世紀到來之際,比較研究不同全球城市精神文化的特點,進而揭示全球城市精神文化的共同本質及其深層價值…

                    在該案例中,該樣本被Longformer基線模型錯誤分類為T類圖書(工業技術),但在使用LFME方法后卻可以被正確分類,而且能夠達到0.93的置信度。我們預測的原因為,在一般的訓練過程中,由于類別樣本數量的失衡,不同類別辨別特征的學習速率存在著很大的差異,C類樣本數量只占T類樣本的1/16,模型在C類樣本上的泛化能力不足。但在LFME方法中,C類樣本作為tail子集中樣本數量最多的分類,tail專家模型能夠有效地識別C類樣本,通過知識蒸餾用tail專家模型指導LFME統一模型學習,能夠使得不同類別間的學習速率相對同步。并且在C類圖書上LFME方法相對于基線模型在f1-score上能有4個百分點的提升,這也印證了我們的推測。

                    [樣例2]:

                    標簽:C類圖書(社會科學總論)

                    標題:大國空巢:反思中國計劃生育政策

                    摘要:《大國空巢:反思中國計劃生育政策》曾于2007年在香港出過一版,書一出版就受到了廣泛關注,并引發了激烈爭論…

                    在該案例中,Longformer基線模型將該樣本錯誤分類為D類圖書(政治、法律),我們推測原因為,“政策”一詞在D類訓練樣本中高頻出現,導致模型只根據“政策”這一關鍵詞進行判別。這一方面是由于“政策”在該案例的標題和摘要中多次出現,容易混淆模型,干擾模型接收其他有效信息;另一方面,C類圖書數據量比較少,樣本多樣性不足,導致模型在C類樣本上的泛化能力比較差。而通過Mixup進行混類增強,能夠減少對錯誤標簽的記憶,增加模型的泛化能力,使模型在訓練和預測時性能比較一致。

                    6 結論與啟示

                    本文研究了如何將預訓練語言模型遷移到科技文檔多標簽分類任務上,并借助小樣本數據增強技術解決科技文檔不平衡分類的技術挑戰。我們通過實驗發現,在小樣本上做數據增強和在所有數據上做數據增強的效果差不多,不過前者相對后者在訓練時間上縮短了5倍。同時,本文通過引入和改進多種數據增強策略,提升了小樣本類別的數據多樣性,并通過多組實驗討論了不同預訓練模型下數據增強策略的最佳組合方式。結果顯示這一技術框架能夠有效提升科技文檔不平衡分類任務的精度,且大多數據增強策略都能幫助提升小樣本分類效果。

                    借助于上述技術框架的初步版本,我們在首屆“人郵杯”高校人工智能挑戰賽中取得了冠軍的成績。在未來工作中,將進一步結合集成學習技術,在發揮各預訓練模型與策略組合專長的基礎上進一步提升整體方案的魯棒性,并結合元學習等手段更有效地應對冷門學科中的小樣本學習問題。

                  《基于小樣本數據增強的科技文檔不平衡分類研究》

                  本文由職稱驛站首發,一個權威專業的職稱論文發表網

                  文章名稱:基于小樣本數據增強的科技文檔不平衡分類研究

                  文章地址:http://www.aquaprosensors.com/lunwen/keji/zn/47384.html

                  '); })(); 半夜看的直播软件,午夜成人性刺激免费视频在线观看,18禁国产免费福利网站
                  <strike id="h55fp"><b id="h55fp"></b></strike><address id="h55fp"><nobr id="h55fp"><meter id="h55fp"></meter></nobr></address>

                          <sub id="h55fp"><listing id="h55fp"><mark id="h55fp"></mark></listing></sub>