計算語言學（漢文部分）

發(fā)布時間：2021-12-09 10:56:24 | 來源：中國藏學研究中心 | 作者： | 責任編輯：

四、計算語言學

（一）算法和知識庫研究

算法研究在計算語言學領域一直是熱點。相關的研究成果主要有：向令、扎西加、馬偉珍、盧超等的《基于貝葉斯算法的藏語拼寫檢查的研究與實現(xiàn)》（《科技創(chuàng)業(yè)月刊》第 11期），拉巴頓珠、歐珠的《現(xiàn)代藏文基字識別的算法設計》（《西藏大學學報》自然科學版第 1期），拉金措、安見才讓的《藏文機構名的識別算法研究》（《電子技術與軟件工程》第 14期），劉昕、安見才讓的《藏文 WEB文檔分類算法》（《微型電腦應用》第 8期），陳碩、趙棟材、周歡歡的《基于匹配算法的藏文自動分詞》（《電子技術與軟件工程》第 1期）等。

向令、扎西加、馬偉珍、盧超等的《基于貝葉斯算法的藏語拼寫檢查的研究與實現(xiàn)》一文，首先讀取待要檢查的詞匯到三叉樹 TST.java，根據貝葉斯轉換之后在三叉樹中進行前綴查詢，查到以這個詞開頭的搜索詞匯，并對詞匯頻率進行了排序，采用的 Java中 list，最后根據該序列給出拼寫檢查的建議。拉巴頓珠、歐珠的《現(xiàn)代藏文基字識別的算法設計》一文，依據藏文文法，嚴格遵循現(xiàn)代藏文音節(jié)字的結構特征，設計了現(xiàn)代藏文音節(jié)字的基字識別算法，并對不符合現(xiàn)代藏文構字規(guī)則的高頻字進行了特殊處理，設計實現(xiàn)了現(xiàn)代藏文音節(jié)字的基字識別軟件。該軟件對 18785個現(xiàn)代藏文音節(jié)字進行測試，識別率達到 100%。拉金措、安見才讓的《藏文機構名的識別算法研究》一文，對未登錄詞中藏文機構名的結構及其在文本中的出現(xiàn)進行了深入的研究，建立了藏文機構名特征詞庫與前部詞構造規(guī)則庫，在此基礎上提出了藏文機構名的識別算法。劉昕、安見才讓的《藏文 WEB文檔分類算法》一文，針對藏文 WEB文檔分類中 KNN算法計算復雜度高的缺點，提出了一種基于 Java Bean模式的并行算法，其關鍵部分的時間計算復雜度從O（n2）降為O（log（n）），該算法與經典的串行算法相比，能顯著地提高分類速度。陳碩、趙棟材、周歡歡的《基于匹配算法的藏文自動分詞》一文，采用了正向最大匹配和逆向最大匹配算法相結合的方式進行藏文分詞，通過分別計算兩種分詞結果的頻率，然后選擇頻率較大的一個。最終，通過對 26個不同大小的文本對該系統(tǒng)進行測試和分析，得出了分詞準確率在 92%以上的結論。才讓叁智、趙棟材的《基于 DIV標簽分段的藏文網頁正文提取研究》（《西藏大學學報》自然科學版第 1期）一文，針對藏文電子文獻資源匱乏、文本資源不規(guī)整、收集困難等問題，提出了基于 DIV標簽分段的藏文網頁正文提取算法，該算法將原始網頁信息分割為頁面信息中與 DIV元素等量的信息段，再對段中標簽等非正文信息進行刪除，最終形成該頁正文。實驗表明，正文提取結果準確、通用性強，適用于互聯(lián)網上不同模型的藏文網頁。

涉及知識庫方面的研究有丁海蘭、祁坤鈺的《基于依存句法的藏文屬格結構統(tǒng)計研究》（《西北民族大學學報》自然科學版第 2期）一文。文章從句法功能的角度對屬格助詞在藏文名詞短語中的結構及功能進行分析研究，從句法結構上總結和歸納了其結構特征，為多語言句法結構樹庫和框架語義構建提供最基本的語法信息。

關于標準的討論。龍從軍、劉匯丹、安波、才華、吳健等的《藏文編碼字符集標準應用中的問題及對策》（《信息技術與標準化》第 1期）一文，通過大規(guī)模文本統(tǒng)計，找出了 90組同形異碼實例；分析發(fā)現(xiàn)，藏文文本中同形異碼現(xiàn)象是國際編碼集中同時存在單字符編碼和組合字符編碼導致的。描述了各種可能產生同形異碼的字符，從改進國際編碼字符集和改進輸入法等方面提出了一些建議。

（二）實用技術平臺及軟件開發(fā)研究

相關的研究成果有：李苗苗、高定國、普次仁、扎西倉覺等人的《藏文字頻統(tǒng)計軟件的設計與實現(xiàn)》（《電腦知識與技術》第 4期），普次仁、李苗苗的《藏文音節(jié)字的頻次統(tǒng)計》（《西藏大學學報》自然科學版第 1期），陳小瑩、艾

金勇的《基于小字符集藏文拉丁轉寫系統(tǒng)的設計與實現(xiàn)》（《中文信息學報》第29期），巴桑卓瑪、高定國的《藏文電子詞典的設計與實現(xiàn)》（《信息與電腦》理論版第 12期），袁斌、江濤、西熱卓嘎、德吉巴宗、魏興海、雪靈、高定國等人的《基于 Android平臺的藏文活字帖的開發(fā)》（《信息與電腦》理論版第 1期）、尕桑才讓、安見才讓的《基于 Android平臺實現(xiàn)本地化技術和加載藏文字體》（《電腦知識與技術》第 6期），童英華、耿生玲的《基于 ARM的嵌入式藏文電子閱讀器的設計與實現(xiàn)》（《電子設計工程》第 1期），才智杰、才讓卓瑪的《藏文字符的向量模型及構件特征分析》（《中文信息學報》第 2期）等。

李苗苗、高定國、普次仁、扎西倉覺等人的《藏文字頻統(tǒng)計軟件的設計與實現(xiàn)》一文，根據藏文音節(jié)的特性，結合 Unicode藏文基本集的編碼特征，提出了計算機統(tǒng)計藏文字頻的方法，設計實現(xiàn)了藏文字頻統(tǒng)計軟件。普次仁、李苗苗的《藏文音節(jié)字的頻次統(tǒng)計》一文，以 1.5億藏文字符的藏文平衡語料庫——大型藏文基礎語料庫為統(tǒng)計源，提出了非藏文字符和 93個特殊藏文字符作為音節(jié)分隔符來識別藏文音節(jié)字的方法，設計實現(xiàn)了藏文音節(jié)字頻次統(tǒng)計。陳小瑩、艾金勇的《基于小字符集藏文拉丁轉寫系統(tǒng)的設計與實現(xiàn)》一文，在前人有關藏文拉丁轉寫研究的基礎上，設計并實現(xiàn)了基于小字符集方案的藏文拉丁轉寫系統(tǒng)。文章通過對小字符集編碼方案的特征分析，提出了基于小字符集編碼的藏文拉丁轉寫算法，并對具體算法策略進行了分析和說明，最后在Windows平臺進行了程序的實現(xiàn)。巴桑卓瑪、高定國的《藏文電子詞典的設計與實現(xiàn)》一文，根據藏文傳統(tǒng)卡片式詞典中存在的一些問題，設計出一款藏文電子詞典。該系統(tǒng)不僅克服了藏文傳統(tǒng)卡片式詞典中存在的問題，而且實現(xiàn)了藏文電子詞典中的各個功能。最后通過系統(tǒng)的整體測試取得較好的成果，并已達到了高效的應用程度。袁斌、江濤、西熱卓嘎、德吉巴宗、魏興海、雪靈、高定國等人的《基于 Android平臺的藏文活字帖的開發(fā)》一文，在研究藏文書法的特點的基礎上，選擇了最常用的三種藏文字體，在 Android平臺上實現(xiàn)了藏文活字帖，實現(xiàn)了藏文書寫筆順演示、字帖臨摹練習和軟件有關設置三種功能。尕桑才讓、安見才讓的《基于 Android平臺實現(xiàn)本地化技術和加載藏文字體》一文，認為藏語文適應現(xiàn)代化的發(fā)展，首要的問題就是實現(xiàn)藏文的信息輸入，如何快速準確地利用手機輸入藏文信息，對藏族人或研究藏文化的人而言非常重要。童英華、耿生玲的《基于 ARM的嵌入式藏文電子閱讀器的設計與實現(xiàn)》一文，利用 ARM9嵌入式開發(fā)平臺，通過擴展 SDRAM模塊、USB模塊、以太網控制模塊和觸摸屏模塊，結合 QT技術，設計了一款嵌入式藏文電子閱讀器。論文給出了系統(tǒng)的總體架構，硬件實現(xiàn)原理框圖及軟件設計流程。實驗結果表明，該系統(tǒng)成功實現(xiàn)了全藏化的閱讀器應用程序界面，并可以支持 TXT、HTML、PDF、DOC格式的藏文電子書的正常顯示、閱讀和編輯，同時可進行BMP、JPEG、PNG等格式的圖片文件的瀏覽，系統(tǒng)運行穩(wěn)定、安全可靠，使用便捷靈活。才智杰、才讓卓瑪的《藏文字符的向量模型及構件特征分析》一文，分別建立了藏文字及藏文字符串的向量模型 VMTT、VMTS和藏文字符串的稀疏域模型 SLM，并在向量模型和稀疏域模型上研究了藏文字符的構件特征。

此外涉及藏語文信息處理方面的研究成果有：鮑永慶、袁建、達娃卓瑪、格桑央吉等人的《藏文搜索引擎關鍵技術分析》（《西藏科技》第 2期）一文，針對當前主流藏文搜索引擎的情況進行了介紹。劉文香的《基于國際標準編碼的藏文前加字校對模型研究》（《甘肅高師學報》第 1期）一文，介紹了藏文前加字的音勢搭配規(guī)則，提出了藏文前加字與基字的搭配規(guī)則模型，運用前加字與基字的搭配規(guī)則模型對藏文文本中出現(xiàn)的錯別字進行校對，為藏文音節(jié)規(guī)則校對模型打下基礎，為完成藏文自動校對提供基礎性研究資料。李廷鵑的《青海省藏語信息化主動推送服務平臺應用與實踐》（《農業(yè)科技與信息》第 23期）一文，闡述了青海省藏語信息化服務平臺的應用情況以及對藏區(qū)同胞生產生活產生的積極作用，分析了藏語信息化主動推送服務存在的問題。何東琴、屈兵的《基于開源 Word Press構建藏文網站的設計與實現(xiàn)》（《福建電腦》第 5期）一文認為，Word Press是一款個人博客系統(tǒng)，它使用 PHP語言和 My SQL數據庫?；?Word Press構建藏文網站，首先可以解決字符編碼，其次可以節(jié)約時間和打破空間的限制，再者可以使網頁內容和功能更加豐富。才讓草的《淺析甘南州藏文科技文獻資源共享平臺建設》（《科技經濟導刊》第 13期）一文淺析甘南州藏文科技文獻資源共享平臺建設存在的問題，采用國內文獻資源共享平臺架設與運營的成功經驗，提出建立甘南州藏文科技文獻信息資源共享服務平臺的建議和設想。劉芳、關白的《現(xiàn)代藏文中詞的自動校對方法研究》（《電腦知識與技術》第 19期）一文，根據藏文詞錯誤的類型，分別提出了對應的校對方法。郭曉軍、何磊、王亮、黃操的《藏文 Web網頁的信息隱藏研究》（《實驗室研究與探索》第 8期）一文，針對藏文 Web頁面信息隱藏技術隱蔽性差、隱藏容量小、抗干擾性弱問題，提出了一種具有同步機制的藏文 Web頁面信息隱藏方法。該方法先對秘密消息的二進制序列進行置亂處理，添加具有同步性的巴克爾碼以形成新消息序列，并通過改變 HTML標簽屬性名稱的大小寫狀態(tài)來表示該序列中的 0或 1，實現(xiàn)秘密消息在藏文 Web頁面內的隱藏。實驗結果表明該方法在保證隱蔽性的情況下，能有效提高隱藏容量，在隨機擾亂程度較大時具有更好的魯棒性。

涉及自然語言處理的有：袁斌、江濤、于洪志的《基于語義空間的藏文微博情感分析方法》（《計算機應用研究》第 3期），扎西本、安見才讓的《藏文句子的情感傾向研究》（《電腦知識與技術》第 6期），才智杰、才讓卓瑪的《藏文字形結構分布研究》（《中文信息學報》第 4期），馬偉珍、陳碩、趙棟材的《基于 HMM的藏文詞性標注的研究與實現(xiàn)》（《信息安全與技術》第 2期），冷毛措、張有誼的《小學藏文教材中詞性的分布情況研究》（《電腦知識與技術》第 6期），多杰卓瑪的《藏文名詞短語的語義研究》（《西北民族大學學報》自然科學版第 3期）等。

袁斌、江濤、于洪志的《基于語義空間的藏文微博情感分析方法》一文，結合藏文句法結構和語義特征向量構建語義特征空間，提出了一種基于語義空間的藏文微博情感分析方法。首先使用句法樹生成句法結構并結合語義特征向量構建特征空間，運用 K-means方法聚類形成語義簇質心，將基于簇的 TF-IDF值作為最終的微博情感特征值。實驗結果表明，該方法的情感分類效果均優(yōu)于SVM+TF-IDF和 naive Bayes+最大熵的方法。扎西本、安見才讓的《藏文句子的情感傾向研究》（《電腦知識與技術》第 6期）一文，從句子的結構研究了情感詞的提取及句子情感傾向。才智杰、才讓卓瑪的《藏文字形結構分布研究》一文，通過分析藏文字形結構的特征，將藏文字的字形結構分成獨體字和合體字，合體字按其構件的結構位和所含構件數進行分類。設計了藏文字形結構統(tǒng)計系統(tǒng)模型和算法，從約含 8500萬藏文字的 450M語料中對藏文字形結構進行統(tǒng)計，建立了藏文字形結構分布統(tǒng)計表，并對統(tǒng)計結果進行了分析。馬偉珍、陳碩、趙棟材的《基于 HMM的藏文詞性標注的研究與實現(xiàn)》一文，采用基于隱馬爾科夫模型的 Viterbi算法進行詞性標注，詞性標記規(guī)范參考了北大計算機研究所的詞性標注規(guī)范的標記集。對于未登錄的藏文詞語，采用了基于統(tǒng)計和規(guī)則的二元語法統(tǒng)計模型進行處理。通過對該系統(tǒng)進行自動標注的文本與人工手動完成藏文詞性標注的文本進行測試和對比，得出了該系統(tǒng)詞性標注正確率在 89%以上。冷毛措、張有誼的《小學藏文教材中詞性的分布情況研究》（《電腦知識與技術》第 6期）一文以小學藏語文教材為語料，利用計算機對教材中藏語詞的頻次、數量等信息做出統(tǒng)計，進而摸索出目前藏語文教材編輯中藏語詞性的分布規(guī)律，目的在于給藏語詞的安排、重要程度等是否科學合理，即是否符合各個年齡段藏族學生對知識的接受狀況，提供參考。多杰卓瑪的《藏文名詞短語的語義研究》一文，在藏文網絡語料的基礎上，就“N1+N2”結構的名詞短語進行舉例分析，包括它的結構類型、組成成分、句法及語義功能的分析，給出了名詞短語的線性結構組合形式和詞性結構擴展模式，細化了它的主要組成成分，從句法和語義的層面出發(fā)，挖掘了該結構所蘊涵的句法關系和語義特征。

相關的研究還有：普布次仁的《詞庫開放型藏文詞典軟件的實現(xiàn)——以Goldendict詞典為例》（《西藏科技》第 1期）一文，以詞庫開放型 Goldendict詞典為例，著重探討了如何打造多平臺下的藏文詞典軟件。于詩畫、趙小兵的《藏文自動分詞技術研究綜述》（《科技視界》第 6期）一文，主要從藏文自動分詞的意義、國內研究現(xiàn)狀、分詞方法，以及目前所面臨的主要問題等方面來簡單闡述藏文自動分詞技術的相關內容。張云洋的《高校圖書館藏文圖書編目與流通工作探討——以西藏大學圖書館為例》（《農業(yè)圖書情報學刊》第 2期）一文，認為藏文圖書的編目與流通是藏區(qū)高校圖書館的重要工作，但目前各文獻收藏單位對藏文文獻的著錄處于各自為政的狀態(tài)，為了實現(xiàn)館藏文獻的統(tǒng)一管理和MARC數據共享，建議對藏文圖書使用中圖法進行分類，使用漢文和藏文兩種文字進行著錄。

龍從軍、劉匯丹所著《藏文自動分詞的理論與方法研究》（知識產權出版社）一書，是作者十多年研究藏文分詞的經驗總結，書中介紹了藏語分詞的問題及處理策略，并配套了語料庫和分詞軟件，實現(xiàn)了基礎研究和應用研究相結合的研究突破。該書有以下幾個方面的貢獻：（1）手工切分百萬級分詞語料，為藏語分詞采用統(tǒng)計模型奠定了基礎，解決了藏語分詞資源“無米之炊”的薄弱狀況；（2）從手工切分中詳細總結和描述了藏語分詞單位切分的基本原則，該原則已經由教育部語信司作為國家標準草案正式出版；（3）經過多次實驗，提出的疑似黏寫切分方法是所有黏寫切分方法中效果最好的方法；（4）以數字為切分單位，解決了藏語中數詞和阿拉伯數詞的切分處理，有效避免了未登錄數詞的切分錯誤；（5）提出的基于字性標注的分詞和詞性預測方法進一步改善了未登錄的切分效果；（6）基于配套語料庫和一系列的切分理論開發(fā)的藏語分詞軟件，切分正確率達到 95%。已經在網絡上公布試用。

精品一区二区三区在线观看,久久精品无码区免费下载,无码不卡亚洲毛片av,久久影院AV人禽交

計算語言學（漢文部分）