計(jì)算語言學(xué)（漢文部分）

發(fā)布時(shí)間：2021-11-19 18:02:38 | 來源： | 作者： | 責(zé)任編輯：

應(yīng)用軟件開發(fā)和文本信息處理是近幾年藏語計(jì)算語言學(xué)處理的核心研究領(lǐng)域，文本處理包括文本知識(shí)自動(dòng)發(fā)現(xiàn)、自動(dòng)分類、知識(shí)抽取、校對(duì)、檢索等內(nèi)容。2014年度，涉及藏語計(jì)算語言學(xué)的研究成果比較多，有50多篇，下面按研究內(nèi)容大致分類介紹。

（一）關(guān)于信息化建設(shè)的討論以及相關(guān)數(shù)據(jù)庫的建設(shè)

相關(guān)的研究成果有：德薩的《藏文數(shù)字圖書館研究綜述》（《西藏科技》第4期），《論藏文文獻(xiàn)數(shù)據(jù)庫建設(shè)實(shí)證調(diào)查研究的必要性：兼談價(jià)值及其意義》（《西藏科技》第9期），何明華的《當(dāng)代藏文信息處理的現(xiàn)狀與展望》（《科技資訊》第23期），萬福成、李冬晨、何向真等的《面向信息檢索的藏文文本索引策略研究》（《計(jì)算機(jī)工程與應(yīng)用》第7期）等。

德薩的《藏文數(shù)字圖書館研究綜述》一文，概述了2005—2013年國內(nèi)藏文數(shù)字圖書館研究的進(jìn)展及熱點(diǎn)，從藏文數(shù)字圖書館的概念、特點(diǎn)及各種技術(shù)在藏文數(shù)字圖書館中的應(yīng)用、元數(shù)據(jù)研究成果，揭示了藏文數(shù)字圖書館的研究現(xiàn)狀、研究重點(diǎn)和研究方向。在《論藏文文獻(xiàn)數(shù)據(jù)庫建設(shè)實(shí)證調(diào)查研究的必要性：兼談價(jià)值及其意義》一文中，德薩對(duì)國內(nèi)外藏文文獻(xiàn)數(shù)據(jù)庫建設(shè)的理論與實(shí)踐研究現(xiàn)狀進(jìn)行概括性述評(píng)，闡述了藏文文獻(xiàn)數(shù)據(jù)庫建設(shè)實(shí)證調(diào)查研究的必要性及其價(jià)值與意義，以期為藏文文獻(xiàn)數(shù)據(jù)庫的建設(shè)與研究者提供參考。何明華的《當(dāng)代藏文信息處理的現(xiàn)狀與展望》一文，立足于藏文信息處理現(xiàn)狀，結(jié)合藏文發(fā)展?fàn)顩r對(duì)藏文信息處理從技術(shù)層面和文化傳承方面進(jìn)行了分析。萬福成、李冬晨、何向真等的《面向信息檢索的藏文文本索引策略研究》，認(rèn)為互聯(lián)網(wǎng)文本數(shù)量持續(xù)爆炸式增長，用戶通過互聯(lián)網(wǎng)查找信息變得更加困難，響應(yīng)時(shí)間得不到滿足。針對(duì)藏文本身的語言學(xué)特點(diǎn)，探討一種面向信息搜索的藏文文本索引建立策略，建立一種高效的藏文文本索引，以提高藏文信息檢索速度。

（二）藏語文詞性標(biāo)注、識(shí)別、分詞是藏語文信息處理的基礎(chǔ)，也是計(jì)算語言學(xué)關(guān)注的焦點(diǎn)

標(biāo)注是分詞和識(shí)別的基礎(chǔ)。涉及標(biāo)注的代表性研究有：龍從軍、康才畯、李琳等的《基于多策略的藏語語義角色標(biāo)注研究》（《中文信息學(xué)報(bào)》第5期），完么扎西的《藏語詞語兼類情況及識(shí)別規(guī)則庫》［《西藏大學(xué)學(xué)報(bào)》（自然科學(xué)版）第2期］，安見才讓、陳烈多杰的《藏語虛詞ng的詞性標(biāo)注的研究》［《信息與電腦》（理論版）第8期］，祁坤鈺的《基于依存關(guān)系的藏文語義角色標(biāo)注研究》（《西北民族大學(xué)學(xué)報(bào)》第1期），華卻才讓、劉群、趙海興的《判別式藏語文本詞性標(biāo)注研究》（《中文信息學(xué)報(bào)》第2期）等。

龍從軍、康才畯、李琳等在《基于多策略的藏語語義角色標(biāo)注研究》一文中指出，語義角色標(biāo)注研究對(duì)自然語言處理具有十分重要的意義，提出規(guī)則和統(tǒng)計(jì)相結(jié)合的、基于語義組塊的語義角色標(biāo)注策略。為了實(shí)現(xiàn)語義角色標(biāo)注，首先對(duì)藏語語義角色進(jìn)行分類，得到語義角色標(biāo)注的分類體系，然后討論標(biāo)注規(guī)則的獲得情況，包括手工編制初始規(guī)則集和采用錯(cuò)誤驅(qū)動(dòng)學(xué)習(xí)方法獲得擴(kuò)充規(guī)則集；統(tǒng)計(jì)技術(shù)上，選用了條件隨機(jī)場模型，并添加了有效的語言特征，最終語義角色標(biāo)注的結(jié)果準(zhǔn)確率、召回率和F值分別達(dá)到8278%、8571%和8391%。完么扎西在《藏語詞語兼類情況及識(shí)別規(guī)則庫》一文中指出，對(duì)兼類詞的處理是藏語詞性標(biāo)注的關(guān)鍵所在。文章利用傳統(tǒng)和現(xiàn)代藏語語法理論，在分析藏語真實(shí)文本的基礎(chǔ)上，歸納了藏語兼類詞的種類，提出了兼類詞的標(biāo)注原則。并根據(jù)詞語搭配關(guān)系和詞的組合結(jié)構(gòu)構(gòu)建了兼類詞的識(shí)別規(guī)則庫，利用該規(guī)則庫可對(duì)兼類詞的詞性進(jìn)行較準(zhǔn)確的標(biāo)注。祁坤鈺的《基于依存關(guān)系的藏文語義角色標(biāo)注研究》一文指出，語義角色標(biāo)注已成為中文信息處理研究的熱點(diǎn)問題，并廣泛應(yīng)用在問答系統(tǒng)、信息抽取、機(jī)器翻譯等領(lǐng)域。在多年來藏文分詞標(biāo)注研究和語料庫建設(shè)的基礎(chǔ)上，分析了傳統(tǒng)藏文文法中的邏輯格，以及接續(xù)特征的語義映射關(guān)系，參考FrameNet、PropBank和北大中文網(wǎng)庫等資源庫制定了藏文語義角色標(biāo)注體系，提出了建立高質(zhì)量的藏語句法樹庫TTB（Tibetan TreeBank）、語義角色標(biāo)注庫TPB（Tibetan PropBank）和藏語動(dòng)詞語義框架庫TVN（Tibetan VerbNet）等知識(shí)庫的方案；運(yùn)用依存句法分析方法建立了句法分析模型；結(jié)合藏文句法結(jié)構(gòu)特征和語言習(xí)慣，挖掘藏文句法結(jié)構(gòu)屬性，闡明了藏語語義角色標(biāo)注的理論和原理。華卻才讓、劉群、趙海興的《判別式藏語文本詞性標(biāo)注研究》一文在分析了現(xiàn)有藏文詞性標(biāo)注方法的基礎(chǔ)上，提出感知機(jī)訓(xùn)練模型的判別式藏語詞性標(biāo)注方法，重點(diǎn)研究了符合藏語詞法特性的模型訓(xùn)練特征模板、模型訓(xùn)練和詞性標(biāo)注方法。并且在人工標(biāo)注的測試集上獲得了9826%的詞性標(biāo)注精確率。

（三）各類識(shí)別、分詞

涉及各類識(shí)別研究的成果主要有：加羊吉、李亞超、宗成慶等的《最大熵和條件隨機(jī)場模型相融合的藏文人名識(shí)別》（《中文信息學(xué)報(bào)》第1期），王天航、史樹敏、龍從軍等的《基于錯(cuò)誤驅(qū)動(dòng)學(xué)習(xí)策略的藏語句法功能組塊邊界識(shí)別》（《中文信息學(xué)報(bào)》第5期），當(dāng)增卓瑪?shù)摹恫匚奈谋局懈裰~的識(shí)別研究》（《網(wǎng)絡(luò)安全技術(shù)與應(yīng)用》第1期），完么才讓、曹玉林的《藏語及物與不及物動(dòng)詞的自動(dòng)識(shí)別研究》［《西南民族大學(xué)學(xué)報(bào)》（自然科學(xué)版）第1期］，華卻才讓、姜文斌、趙海興等的《基于感知機(jī)模型藏文命名實(shí)體識(shí)別》（《計(jì)算機(jī)工程與應(yīng)用》第15期）等，康才畯、龍從軍、江荻的《基于詞位的藏文黏寫形式的切分》（《計(jì)算機(jī)工程與應(yīng)用》第11期），高定國、扎西加、趙棟材的《計(jì)算機(jī)識(shí)別藏語虛詞的方法研究》（《中文信息學(xué)報(bào)》第1期）等。

加羊吉、李亞超、宗成慶等在《最大熵和條件隨機(jī)場模型相融合的藏文人名識(shí)別》一文中，分析了藏文人名構(gòu)成規(guī)律和特點(diǎn)，提出了一種最大熵和條件隨機(jī)場相融合的藏文人名識(shí)別方法。王天航、史樹敏、龍從軍等在《基于錯(cuò)誤驅(qū)動(dòng)學(xué)習(xí)策略的藏語句法功能組塊邊界識(shí)別》一文中，指出藏語句法功能組塊分析旨在識(shí)別出藏語句子的句法成分，為后續(xù)句子級(jí)深入分析提供支持。首先基于條件隨機(jī)場（ConditionalRandomFields，CRFs）識(shí)別組塊，然后分別基于轉(zhuǎn)換規(guī)則的錯(cuò)誤驅(qū)動(dòng)學(xué)習(xí)（TransformationbasedErrordrivenLearning，TBL）及基于新特征模板的CRFs錯(cuò)誤驅(qū)動(dòng)學(xué)習(xí)進(jìn)行二次識(shí)別，并對(duì)初次結(jié)果進(jìn)行校正，F(xiàn)值分別提高了165%、836%。最后通過實(shí)驗(yàn)分析，進(jìn)一步將兩種錯(cuò)誤驅(qū)動(dòng)學(xué)習(xí)機(jī)制融合，在18073詞級(jí)的藏語語料上開展實(shí)驗(yàn)，識(shí)別性能進(jìn)一步提高，準(zhǔn)確率、召回率與F值分別達(dá)到941%、9476%與9443%。當(dāng)增卓瑪在《藏文文本中格助詞的識(shí)別研究》一文中通過研究藏文格的用法，建設(shè)藏文八格的知識(shí)庫和藏文八格的算法及識(shí)別研究。完么才讓、曹玉林在《藏語及物與不及物動(dòng)詞的自動(dòng)識(shí)別研究》一文，通過句子中的使格助詞來自動(dòng)判斷動(dòng)詞及物性的方法，這種自動(dòng)識(shí)別方法是一種理性主義的判斷方法，所以不需要大規(guī)模語料的支持。華卻才讓、姜文斌、趙海興等的《基于感知機(jī)模型藏文命名實(shí)體識(shí)別》一文，通過對(duì)命名實(shí)體構(gòu)詞規(guī)律及分詞歧義進(jìn)行分析，提出基于音節(jié)特征感知機(jī)訓(xùn)練模型的藏文命名實(shí)體識(shí)別方案?？挡女?、龍從軍、江荻的《基于詞位的藏文黏寫形式的切分》一文，根據(jù)藏文自身的特點(diǎn)，將常用的四詞位擴(kuò)充為六詞位，再利用條件隨機(jī)場模型作為標(biāo)注建模工具來進(jìn)行訓(xùn)練和測試，并根據(jù)規(guī)則對(duì)識(shí)別結(jié)果進(jìn)行后處理。卓瑪吉、安見才讓的《藏文不自由虛詞的自動(dòng)識(shí)別研究》一文，主要研究藏文文本中大量藏文不自由虛詞的識(shí)別算法，同時(shí)建立了藏文不自由虛詞的消歧規(guī)則庫，使計(jì)算機(jī)快速地識(shí)別并消除藏文句子中不自由虛詞的歧義問題，提高藏文自動(dòng)分詞的準(zhǔn)確率。高定國、扎西加、趙棟材的《計(jì)算機(jī)識(shí)別藏語虛詞的方法研究》一文，認(rèn)為藏文虛詞的研究是藏文信息處理技術(shù)中詞、句及語義研究的基礎(chǔ)，而計(jì)算機(jī)自動(dòng)識(shí)別藏文虛詞又是藏語虛詞研究的前提。該文在論述藏語虛詞在藏語文本中的作用和使用方法的基礎(chǔ)上，分析了計(jì)算機(jī)識(shí)別藏語虛詞的難度，提出了一個(gè)計(jì)算機(jī)識(shí)別藏語虛詞的方法，并用2525句典型藏文句子進(jìn)行了驗(yàn)證，虛詞識(shí)別的正確率高達(dá)970768%。

涉及分詞的研究成果主要有：孫萌、華卻才讓、才智杰等的《基于判別式分類和重排序技術(shù)的藏文分詞》（《中文信息學(xué)報(bào)》第2期），艾金勇、陳小瑩、華侃等的《面向Web的藏文文本分詞策略研究》（《圖書館學(xué)研究》第21期），完么扎西、尼瑪扎西《藏語自動(dòng)分詞中的幾個(gè)關(guān)鍵問題的研究》（《中文信息學(xué)報(bào)》第4期），黃鶴鳴、達(dá)飛鵬、韓曉旭的《基于小波變換和梯度方向的脫機(jī)手寫藏文字符特征提取方法》［《東南大學(xué)學(xué)報(bào)》（英文版）第1期］等。

孫萌、華卻才讓、才智杰等的《基于判別式分類和重排序技術(shù)的藏文分詞》一文，提出一種基于判別式模型的藏文分詞方法，重點(diǎn)研究最小構(gòu)詞粒度和分詞結(jié)果重排序?qū)Σ匚姆衷~效果的影響。在構(gòu)詞粒度方面，分別考察了以基本字丁、基本字丁—音節(jié)點(diǎn)、音節(jié)為最小構(gòu)詞粒度對(duì)分詞效果的影響，在分詞結(jié)果重排序方面，提出一種基于詞圖的最短路徑重排序策略，將判別式解碼生成的切分結(jié)果壓縮為加權(quán)有向圖，圖中節(jié)點(diǎn)表示音節(jié)間隔，而邊所覆蓋的音節(jié)作為候選切分并賦予不同權(quán)重，選擇一條最短路徑從而實(shí)現(xiàn)整句切分。艾金勇、陳小瑩、華侃等的《面向Web的藏文文本分詞策略研究》一文，對(duì)比參照其他藏文分詞系統(tǒng)的優(yōu)缺點(diǎn)并借鑒漢語分詞系統(tǒng)的一些好的方法，設(shè)計(jì)開發(fā)了一個(gè)面向藏文網(wǎng)頁的自動(dòng)分詞系統(tǒng)。項(xiàng)煒、金澎的《基于詞頻學(xué)習(xí)和動(dòng)態(tài)詞頻更新的藏文自動(dòng)分詞系統(tǒng)設(shè)計(jì)》一文，針對(duì)藏文自動(dòng)分詞中的重點(diǎn)難點(diǎn)，設(shè)計(jì)了一個(gè)新的藏文自動(dòng)分詞系統(tǒng)，該系統(tǒng)采用動(dòng)態(tài)詞頻更新和基于上下文詞頻的歧義處理和未登錄詞識(shí)別技術(shù)，在歧義字段分詞準(zhǔn)確性、未登錄詞識(shí)別率和分詞速度上，系統(tǒng)具有較優(yōu)的性能。完么扎西、尼瑪扎西的《藏語自動(dòng)分詞中的幾個(gè)關(guān)鍵問題的研究》一文，通過分析藏文構(gòu)詞規(guī)則、句法結(jié)構(gòu)、詞的前后詞性關(guān)系、后加字的添接法和格助詞的用法等重點(diǎn)研究了未登錄詞、緊縮詞和交集型歧義的識(shí)別及處理方法，并提出了“重組法”“排除—還原法”和“詞性規(guī)則法”三種方法。

（四）算法與識(shí)別

相關(guān)的研究成果主要有：康健、喬少杰、格桑多杰等的《基于群體智能的半結(jié)構(gòu)化藏文文本聚類算法》（《模式識(shí)別與人工智能》第7期），才項(xiàng)俄日、安見才讓的《藏文屬格助詞的識(shí)別算法》［《信息與電腦》（理論版）第8期］，珠杰、李天瑞、劉勝久的《藏文文本自動(dòng)校對(duì)方法及系統(tǒng)設(shè)計(jì)》［《北京大學(xué)學(xué)報(bào)》（自然科學(xué)版）第1期］，邊巴旺堆、卓嘎、陳延利等的《藏文構(gòu)件元素識(shí)別算法研究》（《中文信息學(xué)報(bào)》第3期），邊巴旺堆、卓嘎、陳延利等的《藏文構(gòu)件元素識(shí)別算法研究》（《中文信息學(xué)報(bào)》第3期），曹暉、孟祥和的《基于藏文新聞文本話題檢測的聚類算法研究》［《華中師范大學(xué)學(xué)報(bào)》（自然科學(xué)版）第1期］，珠杰、李天瑞、劉勝久的《TSRM藏文拼寫檢查算法》（《中文信息學(xué)報(bào)》第3期），徐濤、于洪志、加羊吉的《基于改進(jìn)卡方統(tǒng)計(jì)量的藏文文本表示方法》（《計(jì)算機(jī)工程》第6期），春燕的《基于藏文音節(jié)特征的模式匹配算法的研究》（《計(jì)算機(jī)光盤軟件與應(yīng)用》第15期），劉偉光、郭小丹、孔繁秀的《一種基于改進(jìn)向量空間模型的藏文主題網(wǎng)頁采集方法》（《圖書館學(xué)研究》第16期），梁會(huì)方、黃鶴鳴、楊峰的《漢文專有名詞藏文音譯的研究與實(shí)現(xiàn)》（《計(jì)算機(jī)技術(shù)與發(fā)展》第12期）等。

康健、喬少杰、格桑多杰等的《基于群體智能的半結(jié)構(gòu)化藏文文本聚類算法》一文，將群體智能技術(shù)應(yīng)用于半結(jié)構(gòu)化的藏文Web文本聚類，提出基于群體智能的半結(jié)構(gòu)化藏文Web文本聚類算法（SCAST），充分考慮群體智能技術(shù)對(duì)藏文文本聚類準(zhǔn)確性和時(shí)間效率的影響。SCAST算法首先運(yùn)用向量空間模型表示藏文文本信息，將藏文文本按其相似性聚集在一起，得到最終聚類結(jié)果。才項(xiàng)俄日、安見才讓的《藏文屬格助詞的識(shí)別算法》一文，將藏文屬格助詞作為查找目標(biāo)，結(jié)合藏文屬格助詞添接規(guī)則、屬格助詞前詞與詞庫進(jìn)行比較，提出了一種有效的屬格助詞識(shí)別算法，進(jìn)一步提高藏文信息處理技術(shù)中藏文自動(dòng)分詞的準(zhǔn)確率。珠杰、李天瑞、劉勝久的《藏文文本自動(dòng)校對(duì)方法及系統(tǒng)設(shè)計(jì)》，以藏文音節(jié)拼寫檢查、梵音轉(zhuǎn)寫藏文檢查、接續(xù)關(guān)系檢查、詞語檢查為研究內(nèi)容，提出藏文文本自動(dòng)校對(duì)框架和接續(xù)關(guān)系檢查算法。根據(jù)該框架及算法，設(shè)計(jì)并實(shí)現(xiàn)藏文自動(dòng)校對(duì)系統(tǒng)，通過實(shí)驗(yàn)證明算法和系統(tǒng)的可靠性和有效性。邊巴旺堆、卓嘎、陳延利等的《藏文構(gòu)件元素識(shí)別算法研究》一文，指出要實(shí)現(xiàn)藏文排序算法，必須解決組成藏文音節(jié)的構(gòu)件元素識(shí)別，然后由構(gòu)件元素的優(yōu)先級(jí)進(jìn)行排序。文章通過對(duì)藏文的文字結(jié)構(gòu)、書寫規(guī)律，以及文法規(guī)則的研究，設(shè)計(jì)了符合現(xiàn)代藏文的構(gòu)件元素識(shí)別算法。曹暉、孟祥和的《基于藏文新聞文本話題檢測的聚類算法研究》一文，提出一種聚類算法，首先改進(jìn)了文本順序?qū)垲惤Y(jié)果產(chǎn)生的影響，其次通過確定種子話題，來確定話題的類別。本研究的聚類算法在較小規(guī)模的語料中比改進(jìn)前源算法有一定程度的提高。珠杰、李天瑞、劉勝久的《TSRM藏文拼寫檢查算法》一文，以藏文語音特性建立的字組織法為依據(jù)，以藏文音節(jié)規(guī)則為模型，提出了藏文音節(jié)規(guī)則模型（TSRM）的藏文音節(jié)拼寫檢查算法，并通過兩組實(shí)驗(yàn)驗(yàn)證了算法的有效性。徐濤、于洪志、加羊吉的《基于改進(jìn)卡方統(tǒng)計(jì)量的藏文文本表示方法》一文，認(rèn)為傳統(tǒng)的藏文文本表示方法較少考慮特征項(xiàng)之間的關(guān)聯(lián)度，容易造成語義損失。結(jié)合向量空間模型，提取文本中詞頻統(tǒng)計(jì)TF-IDF值較高的部分詞項(xiàng)作為對(duì)比詞項(xiàng)，對(duì)藏文文本進(jìn)行斷句處理，以每個(gè)句子作為一個(gè)語境主題，利用卡方統(tǒng)計(jì)量計(jì)算文本中詞項(xiàng)與對(duì)比詞項(xiàng)的關(guān)聯(lián)程度。春燕的《基于藏文音節(jié)特征的模式匹配算法的研究》一文指出，近年來針對(duì)網(wǎng)絡(luò)中藏文輿情的研究已在相關(guān)研究機(jī)構(gòu)進(jìn)行。模式匹配問題是計(jì)算機(jī)科學(xué)中的一個(gè)基本問題，在藏文輿情、網(wǎng)絡(luò)入侵檢測等應(yīng)用中起著重要的作用。針對(duì)藏文字本身特性的字符匹配算法在相關(guān)文獻(xiàn)并沒有給出相應(yīng)的解決辦法，而是直接采用了中文或英文的模式匹配算法作為研究的基礎(chǔ)。認(rèn)為給出一個(gè)合理有效的藏文字符串的模式匹配算法，能有效地提高藏文字符的匹配效率。劉偉光、郭小丹、孔繁秀的《一種基于改進(jìn)向量空間模型的藏文主題網(wǎng)頁采集方法》一文，設(shè)計(jì)了一種基于改進(jìn)向量空間模型的藏文主題網(wǎng)頁采集算法。梁會(huì)方、黃鶴鳴、楊峰的《漢文專有名詞藏文音譯的研究與實(shí)現(xiàn)》一文，在漢藏音譯規(guī)則的制定的基礎(chǔ)上，對(duì)于存在的約定俗成譯法詞組優(yōu)先處理，以及漢文的多音字結(jié)合了統(tǒng)計(jì)的多音字語料詞組，提高音譯系統(tǒng)的性能，以及其音譯的準(zhǔn)確性。該算法實(shí)現(xiàn)簡單，準(zhǔn)確率高。

標(biāo)注、算法、識(shí)別、分類等之間是相互關(guān)聯(lián)的。不能將彼此截然分開。此外，相關(guān)的研究還有：仁青諾布、蘇亞超、孫亞東的《基于最大熵模型的藏文不良文本識(shí)別系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)》（《西藏科技》第3期）一文，該文通過實(shí)驗(yàn)實(shí)現(xiàn)了最大熵算法進(jìn)行藏文文本分類功能，用最大熵算法進(jìn)行藏文不良文本識(shí)別效果比較明顯。武強(qiáng)、邊巴旺堆的《信息檢索系統(tǒng)中藏文自動(dòng)提示的研究與實(shí)現(xiàn)》（《電腦知識(shí)與技術(shù)》第19期）一文，認(rèn)為在當(dāng)今信息社會(huì)，信息檢索已經(jīng)成為人們?nèi)粘９ぷ鞯囊徊糠?。該文主要探討了藏文的?gòu)成、編碼、分詞及藏文相關(guān)提示詞的實(shí)現(xiàn)原理及方法，對(duì)具有重要影響的藏文分詞和排序進(jìn)行了深入的分析，實(shí)現(xiàn)了在信息檢索系統(tǒng)中基于權(quán)重的藏文自動(dòng)提示功能。通過測試分析，該功能能較好地分辨藏文和依據(jù)權(quán)重對(duì)藏文進(jìn)行相關(guān)詞提示。才華的《藏文組字部件的自動(dòng)識(shí)別與字排序研究》［《西藏大學(xué)學(xué)報(bào)》（自然科學(xué)版）第2期］一文，認(rèn)為藏文字有著獨(dú)特的構(gòu)字規(guī)則，組字部件的自動(dòng)識(shí)別在藏文字、詞、句層面的信息化處理有重要的應(yīng)用。文章把現(xiàn)代藏文字按其第一個(gè)部件字符的不同分成5種結(jié)構(gòu)類型，每一種類型又按其字長分為若干個(gè)子類，在每個(gè)子類中定義各字的部件識(shí)別算法，最后在藏文組字部件識(shí)別的基礎(chǔ)上，給每個(gè)部件賦予序值，實(shí)現(xiàn)藏文字的有效排序。

（五）軟件開發(fā)與應(yīng)用

在過去的一年，涉及軟件開發(fā)與應(yīng)用的研究成果主要有：看不太、安見才讓的《藏文學(xué)術(shù)論文復(fù)制檢測技術(shù)研究》［《信息與電腦》（理論版）第8期］，柔特的《基于WordNet的藏文語義詞典半自動(dòng)構(gòu)建方法研究》［《西藏大學(xué)學(xué)報(bào)》（自然科學(xué)版）第1期］，江濤、江靜、戴玉剛等的《藏文輿情云分析系統(tǒng)平臺(tái)研究》（《信息網(wǎng)絡(luò)安全》第9期），高紅梅、拉巴頓珠、嘎瑪平措等的《基于Flash的藏文詞語學(xué)習(xí)軟件設(shè)計(jì)》（《西藏科技》第4期），陳小瑩、艾金勇、郭小丹《藏文拉丁轉(zhuǎn)寫的設(shè)計(jì)與實(shí)現(xiàn)》（《科技信息》第11期），白瑪玉珍的《幾種藏文字特征提取方法比較研究》［《信息與電腦》（理論版）第4期］，俄果措、安見才讓的《藏文單音節(jié)動(dòng)詞時(shí)式的形態(tài)變化研究》［《信息與電腦》（理論版）第9期］，高定國、郭鑫的《TSF藏文輸入法的設(shè)計(jì)與實(shí)現(xiàn)》［《西藏大學(xué)學(xué)報(bào)》（自然科學(xué)版）第2期］，白瑪拉姆、張旋的《基于物聯(lián)網(wǎng)的藏文二維碼的研究與實(shí)現(xiàn)》（《西藏科技》第2期），張繼偉的《基于Android系統(tǒng)智能終端的藏文輸入法分析與實(shí)現(xiàn)》（《信息安全與技術(shù)》第4期），張?jiān)蒲?、劉芳的《基于Unicode的藏文網(wǎng)頁搜索探討》（《科技情報(bào)開發(fā)與經(jīng)濟(jì)》第11期），項(xiàng)毛措、張有誼的《Word 2007中藏文排序的研究》（《商》第5期），扎西加、多拉的《基于FUG的藏語句法形式化描述》（《中文信息學(xué)報(bào)》第3期），達(dá)召卡什吉的《現(xiàn)代藏語常用名詞的內(nèi)部結(jié)構(gòu)特征分析》（《安多研究》第11輯，甘肅民族出版社）等。

看不太、安見才讓的《藏文學(xué)術(shù)論文復(fù)制檢測技術(shù)研究》一文，在分析藏文論文整體結(jié)構(gòu)的基礎(chǔ)上結(jié)合或改進(jìn)現(xiàn)有的復(fù)制檢測方法并提出某種符合藏文文法的新的藏文學(xué)術(shù)論文復(fù)制檢測算法，實(shí)現(xiàn)用于藏文學(xué)術(shù)論文對(duì)他人的隱式抄襲、部分抄襲和完全抄襲等抄襲現(xiàn)象的初步檢測。柔特的《基于WordNet的藏文語義詞典半自動(dòng)構(gòu)建方法研究》一文，在藏語獨(dú)特的文法理論研究基礎(chǔ)上，利用對(duì)比英文和藏文詞之間的語義關(guān)系、構(gòu)建雙語大型數(shù)據(jù)庫和制定映射過程中詞匯空缺等方法，構(gòu)建了基于半自動(dòng)匹配的藏文語義詞典，為藏文信息處理提供了重要的數(shù)據(jù)資源。江濤、江靜、戴玉剛等的《藏文輿情云分析系統(tǒng)平臺(tái)研究》一文，介紹了藏文輿情云分析平臺(tái)的系統(tǒng)框架和核心模塊，及其模塊運(yùn)行。高紅梅、拉巴頓珠、嘎瑪平措等的《基于Flash的藏文詞語學(xué)習(xí)軟件設(shè)計(jì)》一文，選用藏語詞典作素材，基于Flash設(shè)計(jì)了一款藏文詞語學(xué)習(xí)軟件，通過通關(guān)形式增強(qiáng)學(xué)習(xí)的趣味性，同時(shí)對(duì)詞組輔以圖片演示、讀音配音和講解，真正起到輔助教學(xué)的作用。陳小瑩、艾金勇、郭小丹的《藏文拉丁轉(zhuǎn)寫的設(shè)計(jì)與實(shí)現(xiàn)》一文，從藏文文本規(guī)范化、黏著語的分離與還原、基字的確定和藏文音節(jié)轉(zhuǎn)寫規(guī)則四個(gè)部分設(shè)計(jì)了藏文拉丁轉(zhuǎn)寫方案，最終實(shí)現(xiàn)藏文拉丁轉(zhuǎn)寫。該轉(zhuǎn)寫方案的設(shè)計(jì)在藏文信息處理領(lǐng)域具有非常重要的現(xiàn)實(shí)意義和應(yīng)用價(jià)值。白瑪玉珍的《幾種藏文字特征提取方法比較研究》一文，認(rèn)為藏文字識(shí)別中特征提取是一個(gè)很重要的環(huán)節(jié)。該文研究了幾種藏文字特征提取的方法，提出了各個(gè)特征提取方法的優(yōu)、缺點(diǎn)。俄果措、安見才讓的《藏文單音節(jié)動(dòng)詞時(shí)式的形態(tài)變化研究》一文，采用統(tǒng)計(jì)學(xué)的研究方法，建立藏文單音節(jié)動(dòng)詞詞庫，并對(duì)每一個(gè)動(dòng)詞形態(tài)變化類型進(jìn)行標(biāo)注。根據(jù)動(dòng)詞形態(tài)同形方式的不同，對(duì)四種、三種、兩種和無形態(tài)變化的動(dòng)詞模式進(jìn)行統(tǒng)計(jì)，從而總結(jié)了動(dòng)詞形態(tài)的規(guī)則，為藏語語音和詞匯的演變做了基礎(chǔ)性的研究。高定國、郭鑫的《TSF藏文輸入法的設(shè)計(jì)與實(shí)現(xiàn)》一文，指出TSF是微軟推出的一種新的輸入法框架，用TSF開發(fā)藏文輸入法不僅能實(shí)現(xiàn)詞組輸入的功能，還能提高藏文鍵盤的輸入速度。白瑪拉姆、張旋的《基于物聯(lián)網(wǎng)的藏文二維碼的研究與實(shí)現(xiàn)》一文，基于物聯(lián)網(wǎng)的相關(guān)技術(shù)，通過藏文二維碼軟件的設(shè)計(jì)，對(duì)二維碼的編碼結(jié)構(gòu)、編碼原理、編碼流程等問題進(jìn)行了分析，最后利用Visual Basic軟件進(jìn)行應(yīng)用和開發(fā)。張繼偉的《基于Android系統(tǒng)智能終端的藏文輸入法分析與實(shí)現(xiàn)》一文，闡述了藏文在Android系統(tǒng)下輸入法的設(shè)計(jì)思想，以及實(shí)現(xiàn)過程，介紹了該技術(shù)的設(shè)計(jì)原理以及流程。張?jiān)蒲?、劉芳的《基于Unicode的藏文網(wǎng)頁搜索探討》一文指出，藏文網(wǎng)頁搜索是藏文計(jì)算機(jī)技術(shù)和藏文網(wǎng)站發(fā)展的必然要求，藏文字的特殊結(jié)構(gòu)和藏文編碼的多樣性給網(wǎng)頁的統(tǒng)一檢索造成一定的困難，使用基于Unicode的藏文編碼來識(shí)別和存儲(chǔ)藏文有利于網(wǎng)頁搜索的實(shí)施。項(xiàng)毛措、張有誼的《Word 2007中藏文排序的研究》一文，認(rèn)為藏文文字的排序是藏文信息處理領(lǐng)域一項(xiàng)不可缺少的關(guān)鍵所在，也是一直以來有待解決的問題。目前，word成了最廣泛的應(yīng)用程序之一，如果word中實(shí)現(xiàn)符合藏文文字結(jié)構(gòu)特點(diǎn)和語法規(guī)則的藏文排序，將會(huì)為以后藏文研究工作者帶來很大方便。扎西加、多拉的《基于FUG的藏語句法形式化描述》一文，分析了用復(fù)雜特征描述藏語句子的必要性，引入了復(fù)雜特征集和合一運(yùn)算的概念，以實(shí)例舉證的方式對(duì)藏語詞匯、句法、語義的規(guī)則及句子合一運(yùn)算提出了探索性的研究思路，并且采用框式表示的方法，力求從形式化的角度為藏語自然語言處理提供便利。達(dá)召卡什吉的《現(xiàn)代藏語常用名詞的內(nèi)部結(jié)構(gòu)特征分析》一文，主要對(duì)名詞的內(nèi)部結(jié)構(gòu)特征進(jìn)行了分析研究，其目的是為藏語名詞的語義分詞服務(wù)和擴(kuò)大藏語資源建設(shè)的規(guī)模。為藏語信息處理的機(jī)器翻譯、信息檢索、信息提取、文本校對(duì)服務(wù)。

精品一区二区三区在线观看,久久精品无码区免费下载,无码不卡亚洲毛片av,久久影院AV人禽交

計(jì)算語言學(xué)（漢文部分）