pos機(jī)廣告語句,聯(lián)合漢語分詞和依存句法分析的統(tǒng)一模型

 新聞資訊2  |   2023-06-23 17:51  |  投稿人:pos機(jī)之家

網(wǎng)上有很多關(guān)于pos機(jī)廣告語句,聯(lián)合漢語分詞和依存句法分析的統(tǒng)一模型的知識,也有很多人為大家解答關(guān)于pos機(jī)廣告語句的問題,今天pos機(jī)之家(www.shineka.com)為大家整理了關(guān)于這方面的知識,讓我們一起來看下吧!

本文目錄一覽:

1、pos機(jī)廣告語句

pos機(jī)廣告語句

漢語 NLP 任務(wù)與英語不同,由于詞語缺乏明顯邊界,漢語需要先依次分詞、詞性標(biāo)注,再進(jìn)行依存句法分析。但這種模式的分析容易造成誤差傳播,而且這三個小任務(wù)之間的共享知識無法充分利用。

對此,傳統(tǒng)的解決方案是采用基于轉(zhuǎn)換的聯(lián)合模型。但這些模型仍然具有不可避免的缺陷:特征工程和巨大的搜索空間。因此,本文提出一種基于圖的統(tǒng)一模型來解決這些問題。

這種模型將漢語分詞和依存句法分析集成在一個分析模型中。它比以前的聯(lián)合模型性能更好,并在漢語分詞和依存句法分析中實現(xiàn)了當(dāng)前最佳的結(jié)果。

與英語不同,漢語句子由連續(xù)的字符組成,詞語之間缺乏明顯的界限。由于詞語常被認(rèn)為是最小語義單位,因此漢語分詞(CWS)成為下游漢語自然語言處理的預(yù)處理步驟。

例如,基本的 NLP 任務(wù)——依存句法分析通常在詞級上定義。要分析一個中文句子,基本過程過程大致是:分詞、詞性標(biāo)注和依存句法分析。

但是,這種 pipeline 方式總是存在以下局限:

誤差傳播。在這種方式中,一旦某些詞語被錯誤地分割,隨后的詞性標(biāo)注和分析也會出錯。因此,pipeline 模型只能達(dá)到約 75%~80%的 dependency 分?jǐn)?shù) [1]。知識共享。這三個任務(wù)(分詞,詞性標(biāo)注和依存句法分析)是密切相關(guān)的。漢語分詞的標(biāo)準(zhǔn)也取決于詞語在句子中的語法作用。因此,從這三個任務(wù)中學(xué)到的知識是可以共享的。

一項任務(wù)的知識可以幫助其它任務(wù)。然而,pipeline 方式分別單獨訓(xùn)練三個模型,每個模型針對一個任務(wù),不能充分利用三個任務(wù)之間的共享知識。

這種誤差傳播問題的傳統(tǒng)解決方案是使用聯(lián)合模型 [2,3,1]。這些聯(lián)合模型主要采用基于轉(zhuǎn)換的分析框架來集成分詞、詞性標(biāo)注和依存句法分析。它們基于標(biāo)準(zhǔn)的順序 shift-reduce 轉(zhuǎn)換,為分詞和詞性標(biāo)注設(shè)計了一些額外的動作。

雖然這些聯(lián)合模型比 pipeline 模型的性能更好,但它們?nèi)跃哂袃蓚€局限性:第一,巨大的搜索空間;第二,特征工程(feature engineering)。

最近,基于圖的模型在依存語句法分析方面取得了很大進(jìn)展 [4,5],它充分利用了雙向長短期記憶網(wǎng)絡(luò)(BiLSTM)[6] 和注意力機(jī)制 [7] 來捕捉句子中單詞之間的交互。

與基于轉(zhuǎn)換的模型不同,基于圖的模型為每個可能的弧分配一個分?jǐn)?shù)或概率,然后根據(jù)這些加權(quán)弧來構(gòu)建最大生成樹(MST)。

本文提出了一個統(tǒng)一的漢語分詞和依存語句分析模型,它將這兩個任務(wù)集成在一個基于圖的分析模型中。由于分割是字符級任務(wù),而依存分析是詞級任務(wù),因此研究人員首先將這兩個任務(wù)公式化為基于圖形的字符級分析框架。

詳細(xì)地說,本文模型包含(1)深度 BiLSTM 編碼器,它能夠捕獲每個字符的長期上下文特征,(2)biaffine 注意力計分器(attentional scorer)[5],它統(tǒng)一預(yù)測字符級別的分割和依存分析關(guān)系。此外,與以前的聯(lián)合模型不同,該統(tǒng)一模型不依賴于詞性標(biāo)注任務(wù)。

本文三項貢獻(xiàn)如下:

據(jù)研究人員所知,這是第一個將漢語分詞和依存句法分析集成在統(tǒng)一模型中的基于圖的方法。且提出的統(tǒng)一模型非常簡潔,易于實現(xiàn)。與之前基于轉(zhuǎn)換的聯(lián)合模型相比,本文提出的模型是基于圖的,這使得特征工程的工作量減少。此外,此模型可以處理標(biāo)記的依存句法分析任務(wù),而這對于基于轉(zhuǎn)換的聯(lián)合模型來說并不容易。在數(shù)據(jù)集 CTB-5 和 CTB-7 上進(jìn)行的實驗中,即使沒有 POS 信息,本文模型在聯(lián)合漢語分詞和依存句法分析中也達(dá)到了當(dāng)前最先進(jìn)的性能。

論文:A Unified Model for Joint Chinese Word Segmentation and Dependency Parsing

論文地址:https://arxiv.org/abs/1904.04697

漢語分詞和依存句法分析是漢語自然語言處理的兩個基本任務(wù)。依存句法分析是在詞級定義的,因此分詞是依存句法分析的前提條件,這使得依存句法分析受到誤差傳播的影響。

在本文中,我們提出了一個統(tǒng)一的模型來集成漢語分詞和依存句法分析。與以前的聯(lián)合模型不同,我們提出的模型是基于圖形的模型,它更加簡潔,從而減少了特征工程的工作量。

我們的聯(lián)合模型比以前的聯(lián)合模型性能都更優(yōu),并在漢語分詞和依存句法分析中實現(xiàn)了當(dāng)前最優(yōu)的結(jié)果。

本文提出的模型

以前的聯(lián)合方法主要基于轉(zhuǎn)換的模型,它通過添加一些額外的操作(如「app」和「tag」)來修改標(biāo)準(zhǔn)的「shift-reduce」操作。與以前的方法不同,我們將分詞和依存句法分析集成到一個基于圖的統(tǒng)一分析框架中,這樣更簡單且更易于實現(xiàn)。

圖 1:聯(lián)合漢語分詞和依存分析的統(tǒng)一框架。綠色弧線表示詞級依賴關(guān)系。帶有「app」的藍(lán)色虛弧線表示連接的字符屬于同一個詞。

首先,我們將分詞轉(zhuǎn)換為特殊的弧預(yù)測問題。例如,中文單詞「金融業(yè)(financial sector)」有兩個詞內(nèi)依存?。骸附稹凇购汀溉凇麡I(yè)」。這兩個詞內(nèi)依存弧都有標(biāo)簽「app」。

在本文中,我們只是將詞語中的最后一個字符定義為首字符,所有其它字符都依賴于它。

其次,我們將詞級依存弧轉(zhuǎn)換為字符級依存弧。假設(shè)在詞語 w1 = xi:j 和 w2 = xu:v 之間存在依存弧,其中 xi:j 表示句子中從 i 到 j 的連續(xù)字符,我們用此弧連接每個詞的最后字符 xj 和 xv。

例如,弧「發(fā)展 (develop)→金融業(yè) (financial sector)」被轉(zhuǎn)換為「展→業(yè)」。圖 1 說明了聯(lián)合漢語分詞和依存句法分析的統(tǒng)一框架。

因此,我們可以使用基于圖的統(tǒng)一分析模型來執(zhí)行這兩個任務(wù)。我們的模型包含兩個主要組成部分:(1) 深度 BiLSTM 編碼器,用于提取上下文特征,它將給定句子的每個字符嵌入作為輸入并生成密集向量,(2)biaffine 注意力計分器 [5],將給定字符對的隱藏向量作為輸入并預(yù)測標(biāo)簽得分向量。

圖 2 說明了聯(lián)合漢語分詞和依存句法分析的統(tǒng)一模型。具體說明如下。

圖 2:本文提出的聯(lián)合模型。為了簡單起見,我們省略了弧標(biāo)簽的預(yù)測,它使用不同的 biaffine 分類器。

實驗

我們使用 Penn Chinese Treebank 5.0(CTB-5)和 7 個(CTB-7)數(shù)據(jù)集來評估我們的模型。

表 1:CTB-5 和 CTB-7 的數(shù)據(jù)統(tǒng)計

如表 3 所示,我們的聯(lián)合模型(倒數(shù)第二行)在漢語分詞和依存句法分析方面都大大超過了以前的方法,即使沒有(基于轉(zhuǎn)換的聯(lián)合模型中廣泛使用的)局部句法分析特征。

表 3:主要結(jié)果

所有模型在漢語分詞中的性能如表 4 所示。前兩行顯示了是否在 MLP 頂部使用 CRF 的區(qū)別。表 4 的下半部分給出了對本文所提所有聯(lián)合模型的分段評估。聯(lián)合訓(xùn)練漢語分詞和依存句法分析比單獨訓(xùn)練漢語分詞效果更好。

表 4:漢語分詞結(jié)果

以上就是關(guān)于pos機(jī)廣告語句,聯(lián)合漢語分詞和依存句法分析的統(tǒng)一模型的知識,后面我們會繼續(xù)為大家整理關(guān)于pos機(jī)廣告語句的知識,希望能夠幫助到大家!

轉(zhuǎn)發(fā)請帶上網(wǎng)址:http://www.shineka.com/newsone/72535.html

你可能會喜歡:

版權(quán)聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn),該文觀點僅代表作者本人。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容, 請發(fā)送郵件至 babsan@163.com 舉報,一經(jīng)查實,本站將立刻刪除。