時間:2022-05-26 06:17:50
序論:好文章的創作是一個不斷探索和完善的過程,我們為您推薦十篇銀行輿情工作總結范例,希望它們能助您一臂之力,提升您的閱讀品質,帶來更深刻的閱讀感受。
2010年4月13日,住建部出臺的《關于進一步加強房地產市場監管完善商品住房預售制度有關問題的通知》(建房〔2010〕53號)明確要求:各地要加快完善商品住房預售資金監管制度。尚未建立監管制度的地方,要加快制定本地區商品住房預售資金監管辦法。商品住房預售資金要全部納入監管賬戶,由監管機構負責監管,確保預售資金用于商品住房項目工程建設;預售資金可按建設進度進行核撥,但必須留有足夠的資金保證建設工程竣工交付。《成都市商品房預售款監管辦法(試行)》于同年9月30日印發,同年11月1日,成都市正式實施商品房預售資金監管。2015年10月9日,成都市城鄉房產管理局印發《成都市商品房預售款監管辦法》,完成對原辦法的修訂。
成都市實施商品房預售資金監管6年有余,但成都市在建商品房項目爛尾情況仍未得到完全杜絕,由商品房預售項目爛尾引發的也時有發生。在梳理成都市部分預售項目爛尾的成因時發現,部分爛尾項目開發商存在挪用預售資金的情況。因此,進一步完善和加強商品房預售資金監管尤為必要。
1.加大監督檢查及懲處力度
監督檢查是懸掛在開發企業頭頂上的達摩克利斯之劍,讓開發企業緊繃守法遵規之弦。除常態例行檢查之外,加強飛行檢查,即在被檢查單位不知曉的情況下進行的啟動慎重、行動快的檢查,以此及時掌握真實情況,讓監管部門做到心中有數。此外,還可采取重點檢查手段。在當今信息傳播手段日益簡便快捷、制度日益完善的情況下,及時根據輿情及情況,重點檢查輿情反應大、突出的項目。
2.采取有效措施對違法行為予以嚴厲打擊
根據《成都市商品房預售款監管辦法》,開發企業不按規定繳存、使用預售款以及利用其他賬戶替代預售款專用賬戶的,由市、縣房產行政主管部門責令限期改正;情節嚴重或逾期仍不改正的,按照《城市商品房預售管理辦法》的相關規定對違法行為予以行政處罰。監管銀行未履行監管協議約定職責,除承擔相應法律責任外,由主管部門予以公示不得再在本市從事商品房預售款監管事宜,并將有關情況抄送銀行業主管部門。根據《城市商品房預售管理辦法》,開發企業不按規定使用商品房預售款項的,由房地產管理部門責令限期糾正,并可處以違法所得3倍以下但不超過3萬元的罰款。在當前高企的房價面前,法定的罰金金額對開發企業而言幾乎可忽略不計,換言之,罰款對于開發企業違法行為基本上毫無震懾力。監管部門除責令開發企業限期改正等告誡類措施外,可采取暫停網簽、暫停受理新預售許可申請等行政管理措施。
《成都市商品房預售款監管辦法》僅由房產管理部門單獨制定,銀行業管理部門未參與聯合發文,該辦法對監管銀行的違規行為懲處規定不夠強硬,威懾力不足。在實際操作中,房管部門將銀行存在的預售款監管違規行為書面函送銀行業主管部門后,違規銀行受到的懲處力度很小甚至零懲處。因此,在對監管銀行進行督促、指導,促使銀行全面履行監管職責的同時,房管部門可建立黑名單制度,采取暫停或終止受理存在嚴重違反《成都市商品房預售款監管辦法》規定行為的商業銀行與任何開發企業簽訂的包含《預售款監管協議》在內的預售方案審查申請。
3.要加強技術創新,進一步優化監管手段
進一步優化和完善房管金融信息服務交互平臺并建立預售款監管信息系統,將取得商品房預售許可證的商品房實時交易備案情況與銀行監管賬戶的實時入賬情況進行匹配計算,監察入賬情況;將資金使用計劃、工程進度計劃納入信息系統以規范預售款撥付,并通過信息系統自動監察各個預售項目預售款收支,同時通過設定資金足額量、資金撥付額與資金使用計劃及工程進度匹配度等風險控制指標建立預警機制,對超過風險控制線的預售款暫停撥付并啟動現場督察程序。通過技術創新,實現預售款監管從入賬到撥付全流程、動態化、規范化的全面監控。此外,可通過預售款監管信息系統實現對全部預售項目預售款監管進行大數據分析,通過監管大數據對參與預售款監管的各商業銀行監管能力及服務水平進行考核,為建立監管銀行優勝劣汰的淘汰機制提供基礎條件。
4.加強合同備案審查,防止虛假交易、確保預售款納入監管
《城市商品房預售管理辦法》規定:商品房預售,開發企業應當與承購人簽訂商品房預售合同。開發企業應當自簽約之日起30日內,向房地產管理部門和市、縣人民政府土地管理部門辦理商品房預售合同登記備案手續。長期以來,成都市對預售商品房合同備案的審查主要是采取開發商自主備案、房管部門嚴管備案變更及注銷的模式,事前及事中監管較松,事后監管較嚴。在這種模式下,開發企業通過備案系統進行虛假備案以達到變相融資(通過備案到債權人或擔保人名下作為融資擔保)、惡意逃避查封(由于只能查封在房管系統中開發企業名下未售房源,開發企業可自行將房源備案至相關主體名下造成房源全部售完的假象導致無房可封)、捂盤惜售(操作手法類似惡意逃避查封)等虛假交易的目的,由于這些虛假交易并未存在真實購房款,對這些虛假交易房源的預售款監管也無從談起。此外,部分開發商在購房人支付首付款或全部購房款時,通過非監管銀行POS機等渠道將這些資金打入其他賬戶,繞開預售資金監管,為開發企業挪用現售資金提供了便利。
因此,為避免上述不良行為的發生并確保預售款監管實現全面覆蓋,加強合同備案審查尤為必要。在購房資格審查通過后(如有該項審查),開發企業可通過房管系統的開發企業用戶端進行預售商品房合同擬定,但在完成備案前,開發企業應當將購房人的付款憑證及資金進入預售款監管賬戶的證明資料提交房管部門進行購房真實性及預售款入~審查,待審查通過后,房管工作人員通過房管系統房管用戶端解除備案限制,開發企業方可完成合同備案。
二、進一步完善預售商品房質量保證機制
在建工程爛尾往往是開發商實力較弱、資金鏈斷裂造成,相較而言小型開發企業開發項目發生爛尾或存在商品房質量問題的風險要比大型開發企業要高。住建部出臺的《關于進一步加強房地產市場監管完善商品住房預售制度有關問題的通知》(建房〔2010〕53號)明確要求:暫定資質的房地產開發企業在申請商品住房預售許可時提交的預售方案,應當明確企業破產、解散等清算情況發生后的商品住房質量責任承擔主體,由質量責任承擔主體提供擔保函。質量責任承擔主體必須具備獨立的法人資格和相應的賠償能力。由于該通知未明確規定質量責任承擔主體賠償能力的審查標準,各地在實際執行預售商品房質量保證機制時僅對質量責任承擔主體提供擔保函做形式審查,對于該主體是否具有賠償能力無法做出判斷,造成了該機制的實施基本上流于形式。因此,作為承擔實際監管職責的房管部門可結合地方實際進一步完善預售商品房質量保證機制。房屋質量責任承擔主體應當具有較為雄厚資金實力及管理運營經驗,可從工商注冊實繳資本金、近段時期(如近3年)賬戶資產情況、成立時間(如不低于5年)、主營范圍等維度考量。同時對房屋質量責任承擔具有較大風險的主體類型進行排除,例如:暫定資質的房地產開發企業不能作為其他房地產企業開發項目的房屋質量責任承擔主體。
三、進一步完善信息公開機制
房地產市場存在明顯信息不對稱,開發企業具有項目信息主導優勢,往往會對相關不利信息予以屏蔽或隱瞞,購房人獲得預售項目相關信息的來源及渠道較為缺乏。由于信息不對稱,購房人在信息不充分的情況下作出的購房決策可能存在盲目性。因此,在不涉及商業機密的前提下,盡可能展現作為交易商品的房屋相關信息,需要進一步完善信息公開機制。
1.信息渠道分散
房地產開發產業鏈條長,涉及的政府部門及公眾部門多,各部門獨自自身掌握的信息,導致房產相關信息渠道分散,購房人全面收集相關信息費時費力。例如:工商主管部門掌握開發企業經營信息、建設主管部門掌握開發項目工程建設信息、房管部門掌握開發項目銷售信息、銀行主管部門掌握開發企業及其實際控制人的信用信息等,購房人若要全面調查了解到所有相關信息,需要到各個政府主管部門查詢、核實,費時費力的同時還不一定能得到全面信息。
2.信息不及時、不全面
一些主管部門存在對監管中掌握的信息不及時、不全面的情況。一些信息僅在工作總結中草草帶過,對于購房人而言,獲得的信息越及時、越全面,越有助于其做購房決策。
3.信息聚合程度低
相關信息渠道分散及信息不及時、不全面導致了信息聚合程度低,極大增加了購房人整理、利用這些信息的難度。
為了進一步增加房地產市場信息透明度,應加強頂層設計,進一步完善信息公開機制。
關鍵詞:
潛在狄里克雷分配;主題模型;Kmeans++聚類;聚簇評價;熱點話題
0引言
作為Web 2.0技術迅猛發展的產物,網絡論壇使人們能更多地參與到日常話題的互動中,因此論壇成為了重要輿情的發源地與傳播地。及時地發現輿情有利于政府部門的治國理政,也為企業的發展決策、危機公關處理等提供了輿論向導,因此熱點話題挖掘成為了輿情監測領域的一個重要研究方向。
對于熱點話題挖掘的問題,相關研究人員進行了大量的研究。丁偉莉等[1]對博客用向量空間模型建模后使用SinglePass算法進行聚類來發現其中的話題;邱立坤等[2]在對網絡論壇中文本數據用向量空間建模并聚類后利用點擊數與評論數對結果排序來發現熱點話題;王偉等[3]對用傳統向量空間模型表示的網頁信息用OPTICS(Ordering Points To Identify the Clustering Structure)聚類算法進行兩次聚類來發現熱點輿情。以上研究中都用到了向量空間模型表示文本,它并沒有融入語義信息,這會使得語義不相關的信息出現在同一聚簇中,從而造成了主題信息的丟失,影響了聚類的效果。席耀一等[4]與劉嵩等[5]在對論壇話題追蹤時利用知網語義庫為詞匯加入了語義信息,并用它作為文檔表示模型來計算文檔的語義相似度[6],這種方法在很大程度上緩解了主題丟失的問題,但論壇信息的快速更新使得這種融入了監督成分的方法仍然不能達到理想的效果,而且維護知網語義信息也是個難題。劉霄等[7]通過利用概率潛在語義分析(Probabilistic Latent Semantic Analysis,PLSA)主題模型為Twitter數據建模來發現突發的熱點話題,PLSA成功地利用概率統計的方法來為文本建模,但它并沒有在文檔與主題的層面上給出一個合適的概率模型,PLSA中文檔的主題分布與主題中詞的分布是模型的參數,它們會隨著文檔增多而增加,這樣它只能生成給定文檔集合上的模型,在新的文本加入時還要重新訓練,另外當訓練集有限的情況PLSA還可能會出現過度擬合的現象[8]。
本文熱點話題挖掘的研究對象是網絡論壇數據集,它不同于新聞網頁中經過專業編輯處理過的文本,它有著自己的特點:1)口語化,帖子者來自不同的地方,也有不同的經歷與背景,在表達同一觀點時措辭會有很大不同,經常會有錯別字或網絡新詞匯產生,這就使得詞匯噪聲較多;2)篇幅差距較大,有些帖子的論述比較多,另一類只通過帖子的標題來傳達信息,這會造成詞匯矩陣稀疏的問題。
針對以上研究中的不足以及論壇文本數據的特點,本文采用潛在狄里克雷分配(Latent Dirichlet Allocation,LDA)主題模型對論壇文本數據建模,在對數據集進行聚類基礎上提出基于主題聚簇的評價方法對聚簇進行排名。該方法在考慮主題的關注度同時,還對聚簇內部所含主題的突發性與主題純凈度加以考慮。通過對最有可能出現熱點話題的聚簇進行信息抽取后設計話題展示的方法來完成熱點話題挖掘任務。
1系統整體框架
對論壇文本集預處理后用LDA主題模型建模,將文本表示由高維詞匯空間映射到了低維主題空間,這樣就去除了詞匯噪聲的影響,之后用處理規模相似的訓練集進行聚類實驗,從對聚類的速度與效果兩方面考慮得出合適的主題噪聲閾值與聚類中心數目,然后用優化聚類中心選擇的Kmeans++算法對主題空間中表示的文本集合進行聚類,之后通過主題聚簇用評價方法對出現熱點話題可能性賦予權重,最后從最有可能出現熱點話題的聚簇中用本文提出的描述方法提取出熱點話題信息作為展示。
2論壇熱點話題挖掘
2.1論壇文本建模
2.1.1LDA主題模型
LDA主題模型是一種三層貝葉斯概率模型,是Blei等[8]在2003年提出的,它的目的在于以無監督的學習方法從文本集合中發現其中隱含的語義信息。
根據LDA模型的描述,文本集合可以按以下算法生成。
2.1.2模型求解
LDA主題模型求解模型的過程就是在給定模型參數的條件下,最大化式(2)中描述的每個文檔的生成概率的問題:
p(w|φ,α)=∫p(w|φ,θ)p(θ|α)dθ (2
LDA模型求解是困難的問題,很難有精確的解法。實踐中常用到的有兩種不精確的解法:一種是基于變分法的EM(EstimationMaximization)算法求解[8];另一種求解方法是Gibbs Sampling[9],它是MCMC(Markov Chain Monte Carlo)方法的一種,其理論基礎是馬爾可夫鏈收斂定理,通過構造符合馬爾可夫鏈細致平衡條件的狀態轉移矩陣,讓任意給定的初始分布通過轉移矩陣迭代轉移,使其收斂到目標分布。Gibbs Sampling算法采樣公式推導起來簡單而且實際應用中運行效果也十分理想。
Gibbs Sampling求解方法采用了與式(2)提到的方法所不同的思想,它不直接將φ與θ作為模型參數來估計,而是先計算后驗概率p(z|w),再對模型隱含變量進行估計。以下是Gibbs Sampling算法求解LDA模型變量的步驟。
2.1.3論壇文本建模
本文采用了JGibbsLda[10]LDA建模工具對預處理后的論壇文本數據進行建模分析。參考文獻[11]中LDA主題模型參數的經驗值,取α=50/K, β=0.1,其中K為指定的潛在主題數,Gibbs Sampling的次數N設為1000。
Gibbs Sampling算法結束時會產生兩個矩陣:
大小為M×K的文檔——主題分布矩陣,其中M為論壇文檔集數目;大小為K×Nw的主題——詞的概率分布矩陣,其中Nw為文檔集中詞匯表的大小。
2.1.4主題噪聲去除
通過對文檔集主題分布矩陣觀察發現,每個主題分布中會出現一個或幾個突出的主要主題,其他次要的主題所占的比重可以忽略。為了突出主要主題的影響,采用了以下規則對主題噪聲進行去除:假設每個文檔的主題分布中概率值最大的為主要主題記作Tmain,它的概率記作P(Tmain),設定閾值δ,對于除主要主題外的其他任何主題Ti,如果P(Ti)
2.2主題空間Kmeans++聚類
傳統的Kmeans聚類算法中,聚類中心的選擇是個關鍵的步驟。大多數用到的隨機選擇的方法會導致每次聚類的結果有差別而不能很好地反映聚類的真實情況,所以對映射到低維主題空間的論壇數據采用優化聚類中心選擇的Kmeans++算法[11]對論壇數據進行聚類。Kmeans++算法如下:
設D(x)為文檔x到已有的聚類中心中最近的距離;X為數據點集合;
步驟1從X中隨機選擇一個點作為第一個聚類中心c1;
步驟2以概率分布D(x)2/∑Xx=1D(x)2選擇數據點x∈X,并將它作為新的聚類中心ci,更新D(x);
步驟3重復步驟2直到找到K個聚類中心;
步驟4執行標準的Kmeans聚類算法對數據進行聚類。
對于最優聚類中心數的確定,可以在已知處理數據集規模條件下進行聚類實驗,從中心數的設定對聚類質量與速度的影響選出最優值。
2.3主題聚簇評價方法
為了發現熱點話題,本文提出了一種主題聚簇評價方法對出現熱點話題的可能性進行權重賦值。
假設聚類中心各個主題分量的概率分布矩陣表示如下:
其中:C為聚類中心數;K為主題數;p(k,c)表示主題k分配在聚類中心c的概率,k∈K,c∈C且對于任意c∈C,∑Kk=1p(k,c)=1。
盡管聚類算法已經將主題描述不相關的帖子分開,但依然存在一些主題,它們在每個簇中的分布情況非常均衡,這樣的主題因為其普遍性而少了突發的特征,本文采用主題在各聚簇中的分布均衡情況來描述主題突發性。
定義1設C為聚類中心總個數,p(k,c)為聚類中心c中主題k的概率分布值,那么主題k突發度PromDeg(k)定義如下:
PromDeg(k)=∑Cc=1(p(k,c)-∑Cc=1p(k,c)/C)2/C(7
當得到了各個主題的突發度后,將各維度中主題的突發度與其所占的概率加權求和,很容易得到總的主題突發度,用它作為衡量聚簇主題突發性的標準。
定義2假設PromDeg(k)表示主題k的突發度,p(k,c)為聚簇c中第k維主題的概率值,其中k∈K,K為主題數,那么聚簇c的主題突發度為:
PromDeg(c)=∑Kk=1PromDeg(k)p(k,c)(8
在主題聚簇中,可以將聚簇表達的信息表示為在主題上一定概率的混合,純凈度高的聚簇可以更清楚地表達主題信息,而熱點話題聚簇會因為其主題的聚集趨勢明顯而使得純凈度高。信息熵是信息論中度量信息量的概念,系統的狀態分布越有序,信息熵越小。以聚簇的主題信息熵為依據,定義衡量聚簇主題純凈度的標準。
定義3假設K為主題數,p(k,c)為聚類中心c在第k維主題的概率,那么聚簇主題純凈度Purity(c)為:
其中γ為平滑值,防止主題信息熵為0。
為了衡量聚簇的熱度,融入人為參與因素,賦予聚簇不同的關注度權重,文本采用單位時間內點擊數與回復數來對聚簇的關注度進行描述。
定義4假設T2為采集時間,T1為發貼時間,φ為調整回復數與點擊數的權重,repNum、clickNum分別是帖子的回復數與點擊數,N為聚簇中包含的帖子總數,那么聚簇c關注度AttenDeg(c)為:
AttenDeg(c)=1N∑Nn=1(φ*repNumn+(1-φ)*clickNumn)T2-T1(10
將聚簇主題突發度、主題純凈度、關注度三個評價標準綜合進行考慮可以得到每個聚簇含有熱點話題可能性的歸一化的評價公式:
S(Cj)=PromDeg(Cj)AttenDeg(Cj)Purity(Cj)∑Cc=1PromDeg(c)∑Cc=1AttenDeg(c)∑Cc=1Purity(c)(11)
其中Cj代表了第j個聚類。
2.4熱點話題提取
對聚簇按出現熱點話題的可能性排序后,通過找出與聚類中心所描述的主題擬合程度最高的帖子,并抽取出最能描述熱點話題的標簽,來完成熱點話題挖掘的工作。
由于聚類中心反映了聚簇中的平均的主題分布情況,通過找出與聚類中心語義相似度最大且關注度最高的帖子作為包含熱點話題的帖子樣例。本文使用JensenShannon散度[12]來計算帖子主題分布與聚類中心之間的擬合程度。JensenShannon散度公式如下:
DJS(PC)=12∑Kk=1P(k)lbP(k)M(k)+C(k)lbC(k)M(k)(12)log的底是多少,請明確。
其中M(k)表示兩概率分布中同一維度上的概率均值,可用式(13)來表示:
M(k)=12(P(k)+C(k))(13)
其中:P為帖子在主題空間的概率表示,C為聚類中心在主題空間的概率表示,K為主題空間的維數。
最后找出聚簇中占比重最大的主題,統計出在此主題下出現頻率最高且出現概率最大的若干個詞匯作為熱點話題的標簽化描述。
3實驗與結果分析
3.1主題噪聲閾值與聚類中心數的確定
對主題空間中表示的文本進行聚類時,不同的主題噪聲閾值與不同的聚類中心數目選擇會對聚類的質量與速度產生不同的影響,而目前并沒有合適的規則對兩個值進行選擇。通過對不同的主題噪聲閾值與聚類中心數進行訓練,選擇出最優的聚類參數。
聚類效果的評價標準采用平均聚簇內誤差平方和(Average Sum of Squared Errors,ASSE),值越小表示了聚簇內部的樣本點越集中,聚類質量越高,其形式如式(14)所示:
ASSE=∑Cc=1∑Nn=1xcn-xc2/C(14)
其中:xcn 為聚類c中的第n個樣本點,xc為聚類中心。
實驗中選擇了2763篇論壇帖子作為訓練集,聚類采用Kmeans++算法,主題噪聲參數范圍設為[0,1],聚類中心的數目選擇為[5,100]。圖3與圖4分別顯示了不同的主題噪聲與聚類中心選擇對聚類質量與速度的影響。
實驗結果表明:聚類中心選擇不同值時,當主題噪聲閾值在區間[0,0.7)時,聚類結果的ASSE值會顯著降低,閾值在區間[0.7,1)時,ASSE值不會發生明顯變化,為了考慮次要主題對話題描述的意義,將主題噪聲閾值設置為0.75;圖4中的峰值顯示當主題噪聲閾值設置過大,聚類中心數目較少時聚類時間開銷較大且不穩定,當閾值過小,聚類中心數目多時也會出現相同的狀況,考慮到聚類質量相對較優的情況下,參照圖中時間開銷較低的區域,將聚類中心數目選擇為50,這樣就可以在保證聚類質量同時提高聚類算法效率。
3.2聚簇評價與熱點話題發現
本文采用的實驗數據來自用戶活躍的天涯論壇的經濟論壇、股市論壇、理財前線、房產觀瀾這4個版塊,通過網絡爬蟲采集了從2013年7月1日到7月5日的帖子共11200篇。采用LDA主題模型對預處理后的數據進行建模,主題個數K取100,模型的參數選擇原則為2.1.3節中所述。主題噪聲閾值設為0.75,之后將數據用Kmeans++算法進行聚類,聚類中心數N設為50,最后對主題聚簇用評價方法對出現熱點話題的可能性進行權重計算。
為了詳細分析主題聚簇評價效果,在圖5中列出了2013年7月2日當天排名前4的聚簇各評價因子權重。從圖中分析得出:雖然有些主題聚簇的突發性與純凈度得分高,但關注度很低,可以判斷這是一類灌水貼,不能當作熱點話題;而熱點話題的特征是關注度高,而且突發度與主題純凈度得分也比較高。圖中標注的是排名最高的4個話題聚簇的主題詞依次是:大盤、板塊、期貨;貨幣、流動性、銀行;百姓、貨幣、物價;收益率、期限、風險。
4結語
本文基于LDA主題模型與Kmeans++聚類算法,提出了一種在論壇中挖掘熱點話題的方法。主要工作總結如下: