時間:2023-06-19 16:15:05
序論:好文章的創作是一個不斷探索和完善的過程,我們為您推薦十篇網絡輿情分析研究現狀范例,希望它們能助您一臂之力,提升您的閱讀品質,帶來更深刻的閱讀感受。
中圖分類號:TP311 文獻標識碼:A文章編號:2095-2163(2013)02-0050-04
0引言
目前,隨著網絡全球化的進程加快以及移動技術的推廣,微博已經成為了網絡輿情的主要源頭和有效傳播路徑。由于微博具有的進入門檻低、操作便捷、互動性強等特點,近兩年在全國得到了迅速的普及,獲得廣泛的應用。但是不可忽視的隱患也隨之呈現。微博已經成為了各種謠言和違法信息滋生、蔓延的主要平臺,對社會也造成了無法預知的不良影響。因此,開展微博的輿情監控和分析研究已是大勢所趨,勢在必行。
1研究現狀
目前,已有針對網絡輿情分析和挖掘的軟件產品,較典型的有 Autonomy 網絡輿情聚成系統、Goonie 互聯網輿情監測系統、TRS 互聯網輿情信息監控系統、方正智思輿情預警輔助決策支持系統、中科點擊(北京)科技有限公司研發的軍犬網絡輿情監控系統等。這些系統均能對網絡輿情發揮一定的監測、分析和預警的作用,為社會和諧穩定提供了有效的技術和決策支持。雖然如此,但針對微博輿情監測和分析的大部分系統卻沒有充分考慮到微博用戶基數大、覆蓋面廣、數據量巨大、更新速度快的特點,而在這種情況下,采用普通的關系數據庫顯然無法滿足要求,因此,引入NoSQL技術存儲數據則是一個頗有前景的發展方向。
2微博輿情傳播特點
基于上述對微博使用方式的分析,決定了微博輿情的傳播將具有如下特點:
(1)信息生成和傳播簡便。只要簡單操作,就可以第一時間關注微博新聞中的相關人物,或轉發傳統新聞和論壇中的內容,而且由于移動終端對微博的支持,微博就超越了時間與地域的限制,完全實現了微博的簡便簡易性。
(2)傳播信息快捷。僅以“7 .23”動車事件為例,2011 年7 月23 日晚20 點38 分事故發生,4分鐘后網友發出了第一條微博,比傳統媒體提早了兩個多小時。
(3)病毒爆發式的信息傳播模式。消息一經發出,用戶的所有關注者都能收到,而這一群體再亦如此繼續向外傳播,則微博信息就呈現了病毒爆發式擴散傳播的態勢。
3基于noSQL的數據庫設計
NoSQL最初出現于2009年6月11日由Oskarsson在舊金山發起并組織的一個非正式會議上。NoSQL是當下數據庫家族的外來者,雖然有些通用的特征,但卻沒有一個特征得到了明確定義。
根據輿情監控系統的數據實際情況,在其系統的數據庫設計中引入NoSQL,當寫入數據時,可在MySQL、NoSQL中分別寫入一條數據的不同字段,而讀取數據時,則從MySQL、NoSQL組合字段完成讀取。這一讀/寫過程如圖1所示。
在如圖1所示的組合結構中,MySQL中存儲著需要查詢字段中的數字、時間等類型的小字段,其后按照查詢建立相應的索引,而NoSQL中則存儲著包括大文本字段在內的其他并不需要的字段。查詢過程可描述為,首先將數據主鍵從MySQL中查詢出來,再從NoSQL中直接取出對應的數據。
文中設計的架構模式使得MySQL和NoSQL能夠各自發揮所長,即由MySQL實現關系存儲,而NoSQL則實現數據存儲。這種設計的優點如下:節省MySQL的IO開銷、提高MySQl Query Cache緩存命中率、改進了MySQL主從同步效率、提升了MySQL數據備份和恢復的速度、具有更好的擴展性。
還需一提的是,這種以MySQL為主、NoSQL為輔的架構設計與MySQL的單體架構相比,系統的多樣性能和可擴展性均得到了有效提高。
4基于微博的Scool輿情監測分析系統設計與實現
基于微博的Scool輿情監測分析系統旨在取代傳統的人工收集和監控工作,實現深入、高效挖掘,并實時得到微博網絡中相對敏感的輿論信息,以警示管理人員及時采取相應措施。
基于微博的Scool輿情監測分析系統的實現過程是,每日需定時、周期地對新浪微博、騰訊微博、網易微博、搜狐微博進行網頁抓取后,并對其內容實行解析后存入數據庫,而后通過分詞索引以建立搜索引擎,實現數據索引,再通過用戶設定的關鍵詞庫對采集的數據進行關鍵詞集過濾,由此獲得敏感輿情信息文本返回給用戶界面。系統還應對收集的信息進行自然語言處理,從而識別得到熱點話題和熱門事件。
4.1軟件體系結構
系統分為后臺數據分析模塊和前臺數據展示模塊。后臺模塊負責實現數據抓取與分析,是系統的核心。前臺模塊負責完成微博、Web數據展示和基本維護操作。
4.1.1前臺結構
前臺展示程序分為四大塊,分別是:輿情信息展示、輿情搜索、用戶監控網址和關鍵詞設置、用戶登錄與管理。其中,輿情整體全面展示則按五類來進行和表現,分別是:最新輿情展示、按網站類型展示、按監控網址展示、按話題事件展示和輿情統計。前臺模塊的結構框架如圖2所示。
前臺展示程序主要基于JAVA開源SSH框架來進行構建而得以實現,其設計結構如圖3所示。
在本系統的架構設計中,將在表示層上構設的Struts框架,在業務邏輯層構設的Spring框架以及在數據訪問層構設
(1)表現層使用JSP來實現構建,為客戶端提供對應用程序的訪問;
(2)控制層接受客戶端的請求,并根據不同的請求調用相應的事務邏輯,再將處理結果返回到相關的頁面;
(3)業務邏輯層用來提供相關的業務邏輯;
(4)數據訪問層提供對數據庫的各種操作。
系統設計中的三大框架有機配合、協調統一,其各自實現功能為:
在表現層中,由Struts框架負責處理JSP頁面的請求和轉發工作;在系統中用Hibernate來封裝數據庫的連接類,通過該框架所提供的注解方式實現了實體類與數據庫表結構間的映射關系,并由該框架完成在數據訪問層與數據庫間的交互工作,再通過Hibernate框架的二級緩存EHCache提供對用戶關鍵詞和行業惡劣情感詞的高效緩存。此外,系統使用Spring框架作為系統運行輕量級的容器,負責在業務邏輯層處理業務邏輯工作。通過在配置文件中設置對象的創建方式及對象之間的關系,即可由Spring框架的IoC的容器來創建對象,同時也維護對象之間的依賴關系。通過這三大框架的整合,有效降低了系統中各模塊之間的相關性,由此形成一個結構科學、功能強大和層次清晰的框架體系。
4.1.2后臺結構
由圖6可知道,后臺結構可分為數據緩沖池隊列,線程池線程和數據庫三部分。其中,緩存隊列負責數據流的來源,關鍵處理流程則拆分至各個線程中獨立實現;線程控制數據緩存池中數據流的走向,各線程本身的并發運行均交由線程池實現統一管理。數據庫則采用上述的NoSQL與關系數據庫相結合的對應技術來主導實現。
4.2系統實現
用戶注冊、登錄系統后,可以點擊頁面上的相應標簽來查看有關的輿情記錄。同時,系統也會將每天最新的輿情記錄完整、清晰地呈現。用戶還可以點擊更多的輿情鏈接來查看當日之前任何一天的輿情記錄。
可以點擊系統主頁上的輿情搜索標簽來進行包含指定關鍵詞的輿情記錄,搜索頁面如圖7所示。在輸入框中輸入關鍵詞,就可以看到相關的信息。
5.結束語
在Scool輿情監測和分析系統設計與實現過程中,有關信息存儲方面,本文主要提出了NoSQL和MySQL相結合的方法。實驗證明,采用這種信息存儲的方法可節省MySQL的IO開銷、提高MySQL數據備份和恢復的速度、且比以前更容易實現擴展。對其后類似系統的設計提供了有益借鑒,并顯示了一定參考價值。由于時間及技術的限制,測試和抓取的數據還不夠連續和充分,下一步仍可繼續完善和推進這一方面的工作。
參考文獻:
[1]賈焰,劉江寧. 微博的輿情特點及其謠言治理[J]. 圖書情報知識,2012(6):7-9.
[2]張玉峰,何超. 基于Web挖掘的網絡智能分析研究[J]. ITA,2011(4):64-68.
[3]汝艷紅. 微博信息傳播的特點及發展趨勢[J]. 青年記者,2012(8):27-30.
[4]鐘瑛,劉利芳. 微博傳播的輿論影響力[J]. 新聞與傳播研究,2013(2):8-12.
[5]FOWLER M. NoSQL Distilled[M]. 2009:1-20
中圖分類號:TP3911 文獻標識碼:A文章編號:2095-2163(2013)02-0011-05
0引言
依存句法分析模型可用于精確地自動構建給定句子中詞匯之間的依存關系[1]。該類模型可大致分為基于有監督學習和基于文法規則兩類模型。基于有監督學習的依存句法分析模型是指使用統計機器學習方法,通過從大量標注語料中學習參數而相應構建的依存句法分析模型。而基于文法規則的依存句法分析模型則指依據專家提煉或數據挖掘的文法規則而憑此構建的依存句法分析模型。兩種模型各有優缺點,前者一般可以獲得較高的預測精度,但卻需要設計大量的標注依存結構的句子作為學習樣本訓練模型;后者通常不需要設計大量訓練樣本,但由于專家的知識受限,規則領域適應性較差,導致該種模型預測精度并不高。藉此分析,基于有監督學習的依存句法分析模型具有較高的預測精度,因此,本文將圍繞該類模型的研究現狀而展開綜述。具體內容如下。
基于有監督學習的依存句法分析模型的構建過程一般可分為兩步[2]:
(1)學習。給定一個標注依存結構的句子集合,人工構建依存特征模板,再從集合中抽取依存特征。其后,設定模型參數,并在有限步驟內推導得出一個依存句法分析模型;
(2)評價。給定測試集合及評價方法,若該模型的預測結果滿足期望值,模型構建完成,否則進入步驟(1)。
有監督學習的依存句法分析模型又可分為基于移近規約和基于圖兩類。其中,基于圖的依存句法分析模型在效率和精確度都有良好表現,因而廣受關注。基于圖的依存句法分析模型的原理是借助最大生成樹算法,實現句子的依存句法分析。例如句子“漢族/nR 醫學/n 又/d 有/v 中醫/n 之/uJDE 稱/n”的依存句法分析結果如圖1所示。
在構建基于有監督學習的依存句法分析模型時,主要集中于兩個方面:資源建設和特征工程。針對其相關研究,本文給出了較為系統、詳盡的綜述。在資源建設研究方面,人們通過依存關系映射和主動學習兩種方法緩解語料匱乏的困境。通過將源領域中標注依存關系的映射到目標領域實現目標領域的依存關系自動化標注,達到自動化構建目標領域語料的目的,進而在目標領域借助自動標注的語料構建依存句法分析模型;而借助主動學習思想,一方面可選擇頗具價值的人工標注對象進行人工標注,擴充標注集合,另一方面也可降低人工標注的工作量。在特征工程研究方面,人們分析了不同特征對構建依存句法分析模型的貢獻,涉及的特征包括詞匯特征、句子特征,以及語言形態特征等,同時介紹了如何因解決特征稀疏而導致的模型性能下降的問題。此外,具體而深入地分析、評價了依存句法分析模型一體化的優勢和不足。
本文的組織結構如下:第二部分針對語料匱乏、特征選擇和獲取、以及模型一體化問題,詳細比較和分析了現有模型的研究現狀;第三部分從事件抽取、產品評論分析,以及輿情分析角度說明了現有模型最近的應用情況;最后總結現有模型研究并對未來可能研究方向給予展望。
1基于有監督學習的依存句法分析模型
1.1標注語料匱乏
近年來,在標注語料匱乏研究方面,人們借助依存關系映射和主動學習方法改進標注語料不足的狀況。在依存關系映射研究方面,已有學者采用規則過濾[3]、適應性標注方法[4]、動態規劃方法[5]解決源領域和目標領域之間的差異,但效果并不明顯。Jiang等[6]采用一種依存結構映射策略,將源領域中豐富的依存關系映射到資源短缺的目標領域中,實現目標領域依存關系語言的自動構建。例如,將標注依存關系的英語語料中的依存關系映射到中文語料中,實現中文語料的自動標注。實現依存映射時,若采用詞對齊方法實現依存關系映射,映射過程中會產生詞對齊的錯誤和不同語言之間因句法差異產生的錯誤。與已有方法不同,作者采用的映射方法不是將整棵句子依存樹映射到目標領域,而是映射詞匯依存關系。給定詞對齊雙語語料,源領域的句子標注了依存句法結構,其中的依存關系是布爾型,表示是否存在依存關系。而后將源領域中詞對的依存關系映射為目標領域的詞對。在目標領域產生依存關系的實例過程中,最先獲得詞對齊的映射,采用映射矩陣而不是單個的詞對齊,這樣可以減少詞對齊的錯誤。而且詞對齊的映射不是一一映射,因而能夠獲得多種映射組合。假設詞對(a, b),其中,詞a有n種映射射結果,詞b有m種映射結果,則詞對(a, b)就存在n×m種映射可能。然后,根據源端句法樹庫以及映射矩陣計算目標領域存在依存關系的概率。最后,設定閾值T確定在目標領域是否產生依存關系。大于閾值T,則存在依存關系,即為正例;若小于(1 - T),則不存在依存關系,即為反例。如此就獲得了大量目標領域的依存關系樣例。通過在目標領域產生的樣例上訓練最大熵分類器實現目標端的依存關系預測。該種映射方法降低了依存關系映射時產生錯誤關系的概率,并且一定程度上借助英文標注語料應對中文依存分析語料匱乏的狀況。但該模型仍然無法避免兩種語言在句法差異上導致的錯誤的關系映射。此外,也難以精確設定閾值來判定映射結果是否為依存關系。
其中,si表示n-best的句法分析結果中第i個預測結果分值,n表示利用DP預測得到的句法分析樹的數量。當n-best的句法分析結果的分值互相之間越發接近時,熵值也將越高。這時,句法分析器預測結果“徘徊”在n-best之中,即根據句法分析器預測結果是很難選擇得到最好的句法分析樹的,因此,句子s需要人工標注依存句法結構。依據上述思想,可從未標注集合中挑選k個不確定性最高的樣本進行人工依存句法結構標注。
此后,將標記結果加入到標注集合中,重新訓練句法分析器,獲得新的句法分析器。上述過程反復迭代,直到未標注集合為空。通過這種方式擴充標注集合來解決語料匱乏問題。
另外,句子中只有部分依存關系不確定,通過標注這些不確定的依存關系就可以完成句子的依存結構標注。借助依存關系熵來度量依存關系的不確定性,具體計算如式(3)所示。
由圖2可知,首先根據標注集合訓練得到依存句法分析器DP,借助DP構建未標注集合中句子依存句法分析樹,再根據句子不確定函數選擇k個不確定句子,同時根據依存關系不確定函數選擇k’個依存關系并人工標注,由此將標注結果加入標注集合,重新訓練構建依存句法分析器,上述過程反復進行,直到未標注集合為空。
1.2特征提取與選擇
在特征提取與選擇研究方面,人們分別從不同特征對構建依存句法分析模型的貢獻角度,以及特征稀疏對構建模型產生的影響角度展開研究。其中的特征主要分為:句子級特征、詞類別特征、語言形態特征、以及高階特征等,下面對其相關工作分別作以綜合分析。
在句子級特征研究方面,Gadde[8]等使用短句信息提高句法分析性能。將短句的邊界信息作為依存關系的限制特征來豐富特征集合,并提高依存關系預測精度。將ICON2009的數據集作為測試集,使用MSTParser[1]作為依存句法分析器,在無標記和有標記的評測中預測精度分別為87%和77%。在詞類別特征提取研究方面,Agirre等[9]嘗試從WordNet中獲得詞匯的基本語義類作為依存特征,同時采用詞義消歧算法減少詞義歧義帶來的噪聲,以此提升依存句法關系預測精度。Haffari等[10]在MSTParser依存句法分析器框架下提出將詞匯表示為句法和語義兩種表示方式,并采用線性加權方式將這兩種表示形式的特征信息相融合,由此將依存句法分析精度則從90.82%提升到92.13%。在利用語言形態特征研究方面, Marton等[11]探索了形態學特征對句法分析的貢獻,并發現時態、單復數、詞綴均可提升阿拉伯語的依存句法分析精度。而在利用高階特征研究方面,Massimiliano Ciaramita等[12]使用依存語言模型和beam搜索構建高階特征。采用大量基準依存句法分析器自動分析語句構建依存句法語言模型,并借助依存語言模型構建高階特征,再使用beam搜索在解碼階段將特征有效整合至依存句法分析模型中。模型中考慮了原始模型(MSTParser)中最大生成樹的分值,同時考慮依存語言模型的分值,具體計算如式(5)所示。
由式(5)可知,該模型在解碼階段不僅考慮了MSTParser預測結果,同時考慮了依存語言模型對依存句法分析的貢獻。實驗結果顯示中文句法分析達到了最高精度,而且在英語上也獲得了與已知最好系統的可比精度。在特征稀疏研究方面, Zhou[13]結合從網絡獲取的詞匯搭配偏好來提高依存句法分析精度。通過從網絡語料Google hits和Google V1構建詞匯之間的搭配偏好。實驗結果表明,借助搭配偏好提升了依存句法分析性能。更重要的,在處理新領域數據時,使用網絡獲取的詞匯搭配偏好可使模型具有更好的健壯性。另外,在網絡數據上抽取詞匯搭配偏好還可以避免數據稀疏問題,而且已在特征稀疏的生物醫療領域驗證了吃方法的有效性。
1.3一體化模型
詞性標注是依存句法分析中必不可少的一個基礎步驟。當前的研究將依存句法分析和詞性標注分開建模,這就可能導致底層的詞性標注錯誤向高層依存句法分析傳播,進而降低依存句法分析精度。實驗表明,由于詞性標注的錯誤,將造成句法分析精度大約下降6%。為了解決這個問題,李正華等[14]提出詞性標注和依存句法分析的聯合模型。模型采用剪枝策略來減小候選詞性標簽空間,大大提高了句法分析速度。其基本思想是同時最大化詞性標注和依存句法分析性能。在這個模型中,詞性標注和依存句法分析的特征權重做以同步調整,借助詞性和句法特征交互來確定優化的聯合結果。在中文賓州樹庫上進行測試實驗,其結果表明依存句法分析精度提高1.5%。而在此基礎上,Hatori等[15]提出第一個分詞、詞性標注以及句法分析的一體化模型。通過結合分詞、詞性標注和依存分析模型的特征構建一體化模型,并提出基于字符的解碼方法。此外,Li, Zhongguo等[16]提出一體化中文依存句法分析模型,將未分詞的句子作為輸入,其輸出即為句法結構。通過移除中間分詞步驟,一體化句法分析器不再需要單詞和短語的分割標記,因特征提取錯誤而導致的性能下降也將為之得到控制。但是一體化模型雖然提升了依存句法分析的精度,但卻同時增加了解碼復雜度。
1.4其他
此外,人們在改善依存分析效率,以及借助機器翻譯技術提升依存句法分析精度方面也同樣開展了廣泛研究。在改善依存分析效率研究中,研究人員發現構建依存樹的過程中會產生大量錯誤的依存關系,過濾這些依存關系可以提高依存分析效率。Bergsma等[17]采用級聯式過濾模型過濾錯誤的依存關系。可采用三種方法實現過濾:基于規則過濾、借助線性過濾器和二次型過濾器過濾錯誤的依存關系。在基于規則過濾研究方面,訓練支持向量機依存關系分類器,特征只包括頭或依存關系中的詞性,由此利用學習得到的特征權重過濾詞性或詞性對。例如,如果一個詞性標記在非頭詞的分類器中的權重為正,則以這個節點作為頭的所有弧都將被過濾。這樣借助學習得到的權重構建一組高精度的過濾規則,即真正實現了依存關系的過濾。在線性過濾器研究方面,首先構建8個分類器作為過濾器,分別針對如下8種節點分類問題:
(1)節點是否為頭(例如節點是葉子節點);
(2)節點的頭是否在左側;
(3)節點的頭是否在右側;
(4)節點的頭是否在左側5個節點距離之內;
(5)節點的頭是否在右側5個節點距離之內;
(6)節點頭是否在左側第一個節點;
(7)節點的頭是否在右側第一個節點;
(8)節點是否是根節點。
使用相同的特征模板,得到8種不同的特征權重,分別對應8種不同的分類,并且每一種過濾器的輸入均是上一種過濾器輸出的結果。通過這種方式實現過濾,構建二次型支持向量機分類器決定過濾哪些頭—依賴對。實驗結果表明,基于規則過濾可以過濾占據25%的潛在依存關系。線性過濾器能夠過濾高達54.2%的潛在依存關系。而二次型過濾器則能夠過濾具體為22%的潛在依存關系。
在借助機器翻譯技術提升依存句法分析精度研究方面,Chen等[18]提出使用統計機器翻譯系統提高雙語句法分析精度的方法。假設在源端存在模糊的依存關系判定,在目標端可能就是清晰的依存關系判定,因而可根據目標端來修正源端的依存關系預測結果。首先,使用統計機器翻譯系統將源端的單語樹庫譯為目標端的語言。然后,在目標端采用目標端依存句法分析器進行句法分析,構建依存句法分析樹。由此獲得雙語樹庫,即在源端是人工標記的樹庫,在目標端就是自動生成的樹庫。盡管在目標端的句子和生成樹并不完備,但是采用這些自動生成的雙語樹庫,從中抽取出目標端的依存限制來修正源端依存分析性能,實現雙語句法分析性能的改進和提升。實驗結果顯示該方法的表現則要顯著優于基準方法。更進一步,當使用一個更大規模的單語樹庫,句法分析的性能也得到了較大提高。
2相關應用
基于有監督學習的依存句法分析模型能夠構建句子的依存樹,而依存樹則表明了詞匯間的依存關系,并且在不同問題中表現了其有效性與實用性,例如關系獲取[19]、復述獲取[20]和機器翻譯[21]等。此外,近年來該類模型在解決事件抽取、產品評論挖掘、以及輿情分析問題方面也發揮了主體重要作用。
在事件抽取研究方面,人們發現事件之間存在聯系,例如一個犯罪事件會引起調查事件,并且還將最終引發逮捕事件。由此可知,事件之間多存在一定的依賴關系。但現有的事件抽取方法并未考慮事件間的依存關系,而是孤立抽取每一個事件。David McClosky等[22]借助依存句法分析器構建事件的依賴關系。首先,將事件及其對應的謂詞轉化為依存樹,樹中節點包括實體、事件錨和一個虛擬根節點,各邊則表示三者間的依存關系,其中的事件錨識別常采用回歸模型運行實現,使用的特征包括字符級別。生成依存樹時,可采用兩步排序方法:
(1)根據句法分析器得到n-best結果;
(2)采用最大熵模型實現第二次排序,由此將建立事件間的依存關系。
在產品評論分析研究方面,Zhang等[23]借助淺層依存句法分析來構建產品屬性及其評價之間關系。其中包含三個步驟:
(1)根據淺層短語結構分析和依存句法分析構建淺層的依存樹。可采用淺層句法分析器Sundance實現組塊分析,并且采用Stanford句法分析器實現依存樹的構建。其中,組塊作為依存樹中的節點,邊表示組塊之間的依存關系;
(2)識別產品屬性和候選評價。首先,使用觀點詞典以過濾候選評價,觀點詞典包含著8 221個觀點表達。其次,假設與候選評價越近似的組塊,自身是產品屬性的可能就越大,憑此識別產品屬性;
(3)構建產品屬性和評價之間的關系。可將關系構建視為一個分類任務,而將所有的產品屬性和候選評價視為潛在關系。可采用支持向量機分類器實現關系構建,特征包括上下文和詞性。現已在手機和數碼相機領域驗證了此方法的可行性和有效性。
在輿情分析研究方面,Wu等[24]提出基于圖的句級情感分析模型。引入了線性規劃結構學習方法產生輸入句子的圖形表示。圖中節點包括評價目標、觀點表達和觀點修飾。邊表示節點之間的關系,具體包括觀點表達和修飾之間的關系,以及觀點表達之間的關系,并且包含單個觀點之間的語義關系。通過圖,可以將之前被忽略的各種信息融合進來。該模型的優勢在于,借助觀點之間的關系,可更加精確地判定句子的整體情感極性。Nakagawa等[25]提出借助依存分析結果實現中文和日文主觀句情感分類。主觀句通常包括將情感極性反轉的詞匯。包含積極(或消極)的情感詞的句子不一定表達與情感詞相同的極性。因此在情感分析中需要考慮詞匯之間的修飾對詞匯情感極性的影響,但是采用詞袋的方法很難解決這個問題。若采用規則方法實現句子極性判斷,則不能從語料中學習情感信息,而且規則的適用性十分有限,同時需要大量的人力、物力構建規則。嘗試借助依存句法分析解決這個問題。句子的情感標注不應該只標注句子的整體情感極性,而應該存在句子的局部情感極性標注,并且利用這些局部標注信息來實現情感分類。在該方法中,將句子轉化為依存樹結構,再將句子的依存樹中每一個依存子樹的情感極性表示為隱式變量,整句的情感極性則可由隱式變量之間的交互而共同決定。
3結束語
本文重點總結了在構建基于有監督學習的依存句法分析模型時面對的語料匱乏和特征選擇兩個問題的相關研究。此外,分析和總結了依存句法分析模型一體化的優缺點。最后,介紹了如何應用現有模型解決事件抽取、產品評論挖掘、以及輿情分析問題。盡管現有模型在依存句法分析方面取得了一定成功,但也存在相應不足。首先,現有模型需要大規模的標注語料用于訓練與評價,這種需求并且隨著互聯網的發展日益增長,由此產生嚴重的標注語料匱乏問題,僅靠上述方法無法從根本上獲得解決。其次,盡管基于有監督學習的依存句法分析模型性能最佳,但該模型只能在有限的數據集合上完成一次模型參數學習,在其后的使用過程中無法自動調節模型參數來適應領域和用戶個人興趣的變化。經由本文研究,可得只有借助用戶反饋,構建連續學習的依存句法分析模型才能解決上述問題。根據用戶反饋無間斷地調整模型參數,以此適應領域和用戶興趣的變化,同時用戶在使用該模型時也一并完成完了語料標注工作,從而克服了標注語料缺乏的困境。
參考文獻:
[1]KBLER S, MCDONALD R, NIVRE J. Dependency Parsing [M]. Synthesis Lectures of Human Language Technologies, 2009: 1-20.
[2]NIVRE J. Dependency grammar and dependency parsing [R]. Technical Report, 2005: 1-32.
[3]HWA R, RESNIK P, WEINBERG A, et al. Bootstrapping parsers via syntactic projection across parallel texts[J]. In Natural Language Engineering, 2005,11: 311-325.
[4]SMITH D, EISNER J. Parser adaptation and projection with quasi-synchronous grammar features [C]// Proceedings of EMNLP, 2009: 822-831.
[5]JIANG Wenbin, LIU Qun. Automatic adaptation of annotation standards for dependency parsing using projected treebank as source corpus [C]//Proceedings of IWPT, 2009: 25-28.
[6]JIANG Wenbin, LIU Qun. Dependency parsing and projection based on word-pair classification [C]// Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics (ACL '10), Stroudsburg, PA, USA, 2010: 12-20.
[7]MIRROSHANDEL S A, NASR A. Active learning for dependency parsing using partially annotated sentences [C]//Proceedings of IWPT, 2011: 140-149.
[8]GADDE P, JINDAL K, HUSAIN S, et al. Improving data driven dependency parsing using clausal information [C]//Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics (HLT '10), Stroudsburg, PA, USA, 2010: 657-660.
[9]AGIRRE E, BENGOETXEA K, GOJENOLA K, et al. Improving dependency parsing with semantic classes [C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies: short papers - Volume 2 (HLT '11), Stroudsburg, PA, USA, 2011: 699-703.
[10]HAFFARI G, RAZAVI M, SARKAR A. An ensemble model that combines syntactic and semantic clustering for discriminative dependency parsing [C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies: short papers - Volume 2 (HLT '11), Stroudsburg, PA, USA, 2011: 710-714.
[11]MARTON Y, HABASH N, RAMBOW O. Improving Arabic dependency parsing with form-based and functional morphological features [C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies - Volume 1 (HLT '11), Stroudsburg, PA, USA, 2011: 1586-1596.
[12]CIARAMITA M, ATTARDI G. Dependency parsing with second-order feature maps and annotated semantic information [C]//Proceedings of the 10th International Conference on Parsing Technologies (IWPT '07), Stroudsburg, PA, USA, 2007: 133-143.
[13]ZHOU Guangyou, ZHAO Jun, LIU Kang, et al. Exploiting web-derived selectional preference to improve statistical dependency parsing [C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies - Volume 1 (HLT '11), Stroudsburg, PA, USA, 2011: 1556-1565.
[14]LI Zhenghua, ZHANG Min, CHE Wanxiang, et al. Joint models for Chinese POS tagging and dependency parsing [C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP '11), Stroudsburg, PA, USA, 2011: 1180-1191.
[15]HATORI J, MATSUZAKI T, MIYAO Y, et al. Incremental joint POS tagging and dependency parsing in Chinese [C]//Proceedings of the 5th International Joint Conference on Natural Language Processing, 2011: 1216-1224.
[16]LI Zhongguo, ZHOU Guodong. Unified dependency parsing of Chinese morphological and syntactic structures [C]//Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL '12), Stroudsburg, PA, USA, 2012: 1445-1454.
[17]BERGSMA S, CHERRY C. Fast and accurate arc filtering for dependency parsing [C]//Proceedings of the 23rd International Conference on Computational Linguistics (COLING '10), Stroudsburg, PA, USA, 2010: 53-61.
[18]CHEN Wenliang, KAZAMA J, ZHANG Min, et al. SMT helps bitext dependency parsing[C]// Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP '11), Stroudsburg, PA, USA, 2011: 73-83.
[19]CULOTTA A, SORENSEN J. Dependency tree kernels for relation extraction [C]//Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics (ACL '04), Stroudsburg, PA, USA, Article 423, 2004.
[20]SHINYAMA Y, SEKINE S, SUDO K. Automatic paraphrase acquisition from news articles [C]// Proceedings of the second international conference on Human Language Technology Research (HLT '02), San Francisco, CA, USA, 2002: 313-318.
[21]DING Yuan, PALMER M. Machine translation using probabilistic synchronous dependency insertion grammars[C]//Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics (ACL '05), Stroudsburg, PA, USA, 2005: 541-548.
[22]MCCLOSKY D, SURDEANU M, CHRISTOPHER D. Manning. event extraction as dependency parsing [C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies - Volume 1 (HLT '11), Stroudsburg, PA, USA, 2011: 1626-1635.
中圖分類號:TP3-05文獻標識碼:A文章編號:16727800(2012)009000303
1文本情感研究的背景
所謂文本情感分析(Sentiment Analysis),就是對說話人的觀點、態度和情感傾向性進行分析,即分析文本中表達的主觀性信息。根據立場、出發點、個人態度和喜好的不同,人們對各種對象和事件表達的信念、態度、意見和情感的傾向性不可避免地存在差異。在論壇、微博等反映人們觀點的網絡媒體上,尤其表現出了這種差異。
文本情感分析在實際生活中有著廣泛的應用,可以應用于產品推薦系統、有害信息過濾、社會輿情分析、產品在線跟蹤和質量評價、影視評價、Blogger聲譽評價、新聞報道評述、事件分析、股票評論、圖書推薦、敵對信息檢測、企業情報系統等方面。
在已有研究中,文本情感分析也被稱作觀點鑒別(Opinion Classification)、流派分類(Genre classification)、情感的極性(Sentiment polarity)、語義傾向(semantic orientation)、觀點挖掘(opinion mining)、觀點抽取(opinion extractive)等,為了表述的一致性,本文中將其統一表述為情感分析。
文本情感分析通常包含4個子問題:①確定文本情感的類別有多少;②文本的主客觀區分,即區分出文本內容是主觀評論還是客觀陳述;③文本的極性分類(Polarity Classification),又稱為正負面傾向性分類,即判別文本內容是肯定贊賞的,還是否定批判的;④文本情感強度分類,即判定文本情感傾向性的強弱程度,如強烈貶義、一般貶義、客觀、一般褒揚、強烈褒揚5個類別,這一問題通常又被稱為等級推理(Rating Inference)。
2文本情感分析整體研究現狀
目前,公認的關于文本情感分析的研究工作開始于Pang在2002年提出的基于文本的N元語法(Ngram)和詞類(POS)等特征,分別使用樸素貝葉斯(Naive Bayes),最大熵(Maximum Entropy)和支持向量機(Support Vector Machine,SVM)將電影評論文本的傾向性分為正向和負向兩類。此外還有Turney在2002年提出的基于無監督學習(Unsupervised Learning)對文本情感傾向性分類的研究。同時他們在實驗中使用的電影評論數據集目前已成為廣泛使用的情感分析的測試集。
如今,國內外都已經掀起了文本情感的研究熱潮,很多研究團體、科研院校、公司已經對文本情感展開了研究。把這些相關的研究分為4個階段:①語料階段;②文本的預處理階段;③特征標注與特征選擇階段;④情感分類階段。
2.1語料階段
目前絕大部分語料都來自博客、專業的評論站點、新聞站點、電子商務站點。而其中影評資料、產品的用戶評論、Web 2.0博客文章是研究者的首選。
康奈爾大學的電影評論數據集以及Theresa Wilson等建立的MPQA庫是目前研究者廣泛使用的兩類情感分析數據集。
2.2文本的預處理階段
文本情感分析的預處理包括:停用詞、詞綴修剪、N元詞、詞性標準、簡化替換(如書替換為NOUN、照相機替換產品名)等,但這些有意“美化”的處理都會降低情感分析的準確率。
此外,主觀句識別也屬于文本情感分析的預處理階段。該研究的目標是需要提取文本的真正表達情感的句子。Pang于2004年提出基于文本中的主觀句的選擇和Wilson等人于2005年開創了在短語層進行主觀性分析的研究工作,提出基于文本中中性實例(Neutral Instances)的分析,他們根據28個混合特征訓練了一個分類器,都是為了能夠盡量獲得文本中真正表達情感的句子。Abbasi于2008年提出通過信息增益(Information Gain,簡稱IG)的方法來選擇大量特征集中對于情感分析有益的特征。
2.3特征標注與特征選擇階段
情感特征的標注方法目前主要包括:
(1)監督機器學習的方法,由已有的電子詞典或詞語知識庫擴展生成的情感傾向詞典。情感詞就是指具有情感傾向的詞語以名詞、動詞、形容詞和副詞為主,包括人名、機構名、產品名、事件名等命名實體。其中,部分詞語的褒貶性(或稱為極性,通常分為褒義、貶義和中性)可以通過查字典獲得,其它的極性與情感傾向性的強烈程度都無法直接獲得。
使用情感詞作為特征的研究有:
朱嫣嵐等人提出了基于知網的兩種詞匯語義傾向計算方法,即基于語義相似度的方法和基于語義相關場的方法。
婁德成和姚天昉也是通過計算文本中詞匯與知網中已標注褒貶性詞匯間的相似度,來獲取詞匯的語義傾向性。
目前,依靠語料或字典語料結合構建意見詞典成為主流。由于目前用于情感分析的中文標注語料較少,即當目標領域不存在標注語料時,Xiaojun Wan通過谷歌翻譯等機器翻譯服務,利用英語標注語料和中文未標注語料彌補中文標注語料不足的問題。此外,還有Danushka Bollegala等提出算法可以通過其它領域標注語料和目標領域的未標注語料生成意見挖掘所需的情感敏感詞典。
(2)無監督機器學習的方法。Turney在2002年基于點互信息(PMI)計算文本中抽取的關鍵詞和情感基準詞(Excellent, Poor)的相似度來對文本的情感傾向性進行判別(SOPMI算法)。實現方法簡單,此算法得到了很多研究者的推薦。
Yuan等人在Turney的研究工作的基礎上,對漢語極性詞的自動獲取進行了研究,發現采用一個字符的漢語情感詞比漢語情感詞的效果要好。
(3)情感特征的選擇方法。目前很多情感分析的研究基于機器學習,那么特征選擇就是一個很重要的問題,N元語法等句法特征是使用最多的一類特征,Wilson等人于2009年提出混合單詞特征、否定詞特征、情感修飾特征、情感轉移特征等各類句法特征的情感分析,Abbasi等人于2008年提出混合句子的句法(N元語法、詞類、標點)和結構特征(單詞的長度、詞類中單詞的個數、文本的結構特征等)的情感分析。Melville等人于2009年提出結合情感詞的先驗的基于詞典的情感傾向性和訓練文本中后驗的基于上下文的情感傾向性共同判斷文本的情感傾向性。
另外,傳統的文本特征選擇方法有監督特征選擇方法CHI、IG、MI和無監督特征選擇方法DF、TS、TC、En。這些方法應用到這些情感特征選擇上的效果如何還有待實驗驗證。
2.4情感分類階段
(1)情感建模的方法。基于監督學習算法的情感分析仍然是主流,Zhang等人于2009年提出基于非負矩陣三分解(Nonnegative Matrix Trifactorization),Abbasi等人于2008年提出基于遺傳算法(Genetic Algorithm)的情感分析之外,使用最多的監督學習算法是樸素貝葉斯、k最近鄰(KNearest Neighbor,KNN)、最大熵和支持向量機等。
此外還有基于規則和無監督的建模方法。婁德成等人于2006年利用句法結構和依存關系對中文句子語義進行了情感分析,Zagibalov等人于2008年在SOPMI算法的基礎上通過對于中文文本特征的深入分析以及引入迭代機制在很大程度上提高了無監督學習情感分析的準確率。
(2)情感分析的其它研究點。除以上介紹的情感分析關注情感的分類以外,還有評論對象的識別、情感傾向性論述的持有者識別、抽取句子中評價詞語和目標對象之間的關聯關系、評價傾向極性的強度等研究方向等等。
(3)目前已有系統。目前很多系統已經問世,例如:日本富士通公司開發了從中、日、英三國語言的博客和論壇中提取對企業及其產品的評價信息的技術,根據從萬維網上抓取的大量用戶的評論得到產品的整體信譽度。
上海交通大學開發了一個用于“漢語汽車論壇”的意見挖掘系統。目的是在電子公告板、門戶網站的各大論壇上挖掘并且概括顧客們對各種汽車品牌的不同性能指標的評論和意見,并判斷這些意見的褒貶性和強度。然后,通過對文本處理的綜合統計,給出可視化的結果。該系統仍需要在特征獲取、權重計算等方面進行完善。
綜合以上研究現狀,對比國內外的研究進展,對于國內來講,中文文本情感分析可以說剛剛起步,與國外的主要差距表現在:①在基礎資源建設方面,還沒有建立起一個公開、公用、權威、標準的詞典資源和具有一定規模的標準語料資源;②在研究方案方面,從詞語、短語、搭配、句子到文本,主要跟蹤借鑒國外研究思路與技術路線進行嘗試。
3中文文本情感分析亟待解決的問題
相比傳統的文本分類,情感分類有先天的困難和挑戰,主要表現在:①自然文本中表達方式的多樣化:比喻、附和、諷刺、正話反說等;②句式的復雜性:比較型的句子、各種不同的習慣用語、句式的不同搭配等;③訓練數據的稀疏性和不均衡性。這些都造成了目前較為狹窄的應用領域,不能同時獲得較高的準確率和召回率。
中文文本情感分析研究方興未艾,仍然存在很多問題亟待解決,未來的研究將主要圍繞以下幾個方向展開:
(1)建立標準的中文文本情感詞庫及標準的文本情感測試語料庫。標準完善的數據庫是驗證算法的有力工具。因此創建更大規模且更標準的中文文本情感數據庫是下一步工作的重中之重。
(2)選擇最優文本情感特征集。文本情感特征是中文文本情感分析研究的第一步,在很大程度上影響最終的列表識別結果。一個詞存在多維度的情感,因此,單純依靠情感詞并不能準確判定所有情況下的情感和意見。所以,對于情感特征集選擇技術需要我們進一步的研究和完善。
(3)選擇合理有效的文本情感分類方法。情感特征的權重簡單累加并不意味著情感表達能力的累加,緊致有效的特征表達方法是跨越“語義鴻溝”的重要手段。人們往往通過各種手段多渠道地獲取各種各樣的情感特征,并通過不同分類器的融合表示它們。但這方法需要在更多的情感分析領域進行實驗驗證,未來還需要開展融合多方面文本情感特征的工作。
(4)可靠性研究。文本情感中評論的真實性通過信用評價來衡量,不真實甚至是混淆視聽的評論稱為意見垃圾(Opinion Spam)或虛假評論,也將是未來研究的方向之一。
參考文獻:
[1]LIU B. Web data mining: exploring hyperlinks, contents [M].Usage Data. Springer,2011.
[2]PANG B, LEE L, VAITHYANATHAN S. Thumbs sentiment classification using machine learning techniques[C]. EMNLP,2002.
[3]TURNEY P D. Thumbs up or thumbs down semantic orientation applied to unsupervised classification of reviews[C]. ACL,2002.
[4]PANG B, LEE L. A sentiment education: sentiment analysis using subjectivity summarization based on minimum cuts[C]. ACL,2004.
[5]WILSON T, WIEBE J, HOFFMANN P. Recognizing contextual polarity in phraselevel sentiment analysis [C]. HLTEMNLP,2005.
[6]ABBASI A, CHEN H, SALEM A. Sentiment analysis in multiple languages: feature selection for opinion classification in Web forums[C].ACM Transaction on Information Systems,2008.
[7]朱嫣嵐,閔錦,周雅倩,等.基于HowNet的詞匯語義傾向計算[J].中文信息學報,2006(1).
[8]婁德成,姚天昉.漢語句子語義極性分析和觀點抽取方法的研究[J].計算機應用,2006(11).
[9]XIAOJUN WAN. Bilingual cotraining for sentiment classification of Chinese product reviews[J]. Computational Linguistics,2011(3).
[10]CLIFTON, ANN AND SARKAR, ANOOP. Combining morphemebased machine translation with postprocessing morpheme prediction[C]. ACL HLT,2011.
[11]YUAN R W M, CHAN T Y W, LAI T B Y, KWONG O Y. Morphemebased derivation of bipolarsemantic rientation of chinese words[C]. COLING.2004.
[12]MELVILLE P, GRYC W, LARENCE R D. Sentiment analysis of blogs by combining lexical knowledge with text classification [C]. KDD,2009.
[13]ZHANG T L Y, SINDHWANI V. A nonnegative matrix trifactorization approach to sentiment classification with lexical Prior knowledge[C]. ACL,2009.