精品一区二区三区在线观看,久久精品无码区免费下载,无码不卡亚洲毛片av,久久影院AV人禽交

計(jì)算語言學(xué)(漢文部分)

發(fā)布時(shí)間:2021-11-19 18:02:38 | 來源: | 作者: | 責(zé)任編輯:

應(yīng)用軟件開發(fā)和文本信息處理是近幾年藏語計(jì)算語言學(xué)處理的核心研究領(lǐng)域,文本處理包括文本知識(shí)自動(dòng)發(fā)現(xiàn)、自動(dòng)分類、知識(shí)抽取、校對(duì)、檢索等內(nèi)容。2014年度,涉及藏語計(jì)算語言學(xué)的研究成果比較多,有50多篇,下面按研究內(nèi)容大致分類介紹。

(一)關(guān)于信息化建設(shè)的討論以及相關(guān)數(shù)據(jù)庫的建設(shè)

相關(guān)的研究成果有:德薩的《藏文數(shù)字圖書館研究綜述》(《西藏科技》第4期),《論藏文文獻(xiàn)數(shù)據(jù)庫建設(shè)實(shí)證調(diào)查研究的必要性:兼談價(jià)值及其意義》(《西藏科技》第9期),何明華的《當(dāng)代藏文信息處理的現(xiàn)狀與展望》(《科技資訊》第23期),萬福成、李冬晨、何向真等的《面向信息檢索的藏文文本索引策略研究》(《計(jì)算機(jī)工程與應(yīng)用》第7期)等。

德薩的《藏文數(shù)字圖書館研究綜述》一文,概述了2005—2013年國內(nèi)藏文數(shù)字圖書館研究的進(jìn)展及熱點(diǎn),從藏文數(shù)字圖書館的概念、特點(diǎn)及各種技術(shù)在藏文數(shù)字圖書館中的應(yīng)用、元數(shù)據(jù)研究成果,揭示了藏文數(shù)字圖書館的研究現(xiàn)狀、研究重點(diǎn)和研究方向。在《論藏文文獻(xiàn)數(shù)據(jù)庫建設(shè)實(shí)證調(diào)查研究的必要性:兼談價(jià)值及其意義》一文中,德薩對(duì)國內(nèi)外藏文文獻(xiàn)數(shù)據(jù)庫建設(shè)的理論與實(shí)踐研究現(xiàn)狀進(jìn)行概括性述評(píng),闡述了藏文文獻(xiàn)數(shù)據(jù)庫建設(shè)實(shí)證調(diào)查研究的必要性及其價(jià)值與意義,以期為藏文文獻(xiàn)數(shù)據(jù)庫的建設(shè)與研究者提供參考。何明華的《當(dāng)代藏文信息處理的現(xiàn)狀與展望》一文,立足于藏文信息處理現(xiàn)狀,結(jié)合藏文發(fā)展?fàn)顩r對(duì)藏文信息處理從技術(shù)層面和文化傳承方面進(jìn)行了分析。萬福成、李冬晨、何向真等的《面向信息檢索的藏文文本索引策略研究》,認(rèn)為互聯(lián)網(wǎng)文本數(shù)量持續(xù)爆炸式增長,用戶通過互聯(lián)網(wǎng)查找信息變得更加困難,響應(yīng)時(shí)間得不到滿足。針對(duì)藏文本身的語言學(xué)特點(diǎn),探討一種面向信息搜索的藏文文本索引建立策略,建立一種高效的藏文文本索引,以提高藏文信息檢索速度。

(二)藏語文詞性標(biāo)注、識(shí)別、分詞是藏語文信息處理的基礎(chǔ),也是計(jì)算語言學(xué)關(guān)注的焦點(diǎn)

標(biāo)注是分詞和識(shí)別的基礎(chǔ)。涉及標(biāo)注的代表性研究有:龍從軍、康才畯、李琳等的《基于多策略的藏語語義角色標(biāo)注研究》(《中文信息學(xué)報(bào)》第5期),完么扎西的《藏語詞語兼類情況及識(shí)別規(guī)則庫》[《西藏大學(xué)學(xué)報(bào)》(自然科學(xué)版)第2期],安見才讓、陳烈多杰的《藏語虛詞ng的詞性標(biāo)注的研究》[《信息與電腦》(理論版)第8期],祁坤鈺的《基于依存關(guān)系的藏文語義角色標(biāo)注研究》(《西北民族大學(xué)學(xué)報(bào)》第1期),華卻才讓、劉群、趙海興的《判別式藏語文本詞性標(biāo)注研究》(《中文信息學(xué)報(bào)》第2期)等。

龍從軍、康才畯、李琳等在《基于多策略的藏語語義角色標(biāo)注研究》一文中指出,語義角色標(biāo)注研究對(duì)自然語言處理具有十分重要的意義,提出規(guī)則和統(tǒng)計(jì)相結(jié)合的、基于語義組塊的語義角色標(biāo)注策略。為了實(shí)現(xiàn)語義角色標(biāo)注,首先對(duì)藏語語義角色進(jìn)行分類,得到語義角色標(biāo)注的分類體系,然后討論標(biāo)注規(guī)則的獲得情況,包括手工編制初始規(guī)則集和采用錯(cuò)誤驅(qū)動(dòng)學(xué)習(xí)方法獲得擴(kuò)充規(guī)則集;統(tǒng)計(jì)技術(shù)上,選用了條件隨機(jī)場模型,并添加了有效的語言特征,最終語義角色標(biāo)注的結(jié)果準(zhǔn)確率、召回率和F值分別達(dá)到8278%、8571%和8391%。完么扎西在《藏語詞語兼類情況及識(shí)別規(guī)則庫》一文中指出,對(duì)兼類詞的處理是藏語詞性標(biāo)注的關(guān)鍵所在。文章利用傳統(tǒng)和現(xiàn)代藏語語法理論,在分析藏語真實(shí)文本的基礎(chǔ)上,歸納了藏語兼類詞的種類,提出了兼類詞的標(biāo)注原則。并根據(jù)詞語搭配關(guān)系和詞的組合結(jié)構(gòu)構(gòu)建了兼類詞的識(shí)別規(guī)則庫,利用該規(guī)則庫可對(duì)兼類詞的詞性進(jìn)行較準(zhǔn)確的標(biāo)注。祁坤鈺的《基于依存關(guān)系的藏文語義角色標(biāo)注研究》一文指出,語義角色標(biāo)注已成為中文信息處理研究的熱點(diǎn)問題,并廣泛應(yīng)用在問答系統(tǒng)、信息抽取、機(jī)器翻譯等領(lǐng)域。在多年來藏文分詞標(biāo)注研究和語料庫建設(shè)的基礎(chǔ)上,分析了傳統(tǒng)藏文文法中的邏輯格,以及接續(xù)特征的語義映射關(guān)系,參考FrameNet、PropBank和北大中文網(wǎng)庫等資源庫制定了藏文語義角色標(biāo)注體系,提出了建立高質(zhì)量的藏語句法樹庫TTB(Tibetan TreeBank)、語義角色標(biāo)注庫TPB(Tibetan PropBank)和藏語動(dòng)詞語義框架庫TVN(Tibetan VerbNet)等知識(shí)庫的方案;運(yùn)用依存句法分析方法建立了句法分析模型;結(jié)合藏文句法結(jié)構(gòu)特征和語言習(xí)慣,挖掘藏文句法結(jié)構(gòu)屬性,闡明了藏語語義角色標(biāo)注的理論和原理。華卻才讓、劉群、趙海興的《判別式藏語文本詞性標(biāo)注研究》一文在分析了現(xiàn)有藏文詞性標(biāo)注方法的基礎(chǔ)上,提出感知機(jī)訓(xùn)練模型的判別式藏語詞性標(biāo)注方法,重點(diǎn)研究了符合藏語詞法特性的模型訓(xùn)練特征模板、模型訓(xùn)練和詞性標(biāo)注方法。并且在人工標(biāo)注的測試集上獲得了9826%的詞性標(biāo)注精確率。

(三)各類識(shí)別、分詞

涉及各類識(shí)別研究的成果主要有:加羊吉、李亞超、宗成慶等的《最大熵和條件隨機(jī)場模型相融合的藏文人名識(shí)別》(《中文信息學(xué)報(bào)》第1期),王天航、史樹敏、龍從軍等的《基于錯(cuò)誤驅(qū)動(dòng)學(xué)習(xí)策略的藏語句法功能組塊邊界識(shí)別》(《中文信息學(xué)報(bào)》第5期),當(dāng)增卓瑪?shù)摹恫匚奈谋局懈裰~的識(shí)別研究》(《網(wǎng)絡(luò)安全技術(shù)與應(yīng)用》第1期),完么才讓、曹玉林的《藏語及物與不及物動(dòng)詞的自動(dòng)識(shí)別研究》[《西南民族大學(xué)學(xué)報(bào)》(自然科學(xué)版)第1期],華卻才讓、姜文斌、趙海興等的《基于感知機(jī)模型藏文命名實(shí)體識(shí)別》(《計(jì)算機(jī)工程與應(yīng)用》第15期)等,康才畯、龍從軍、江荻的《基于詞位的藏文黏寫形式的切分》(《計(jì)算機(jī)工程與應(yīng)用》第11期),高定國、扎西加、趙棟材的《計(jì)算機(jī)識(shí)別藏語虛詞的方法研究》(《中文信息學(xué)報(bào)》第1期)等。

加羊吉、李亞超、宗成慶等在《最大熵和條件隨機(jī)場模型相融合的藏文人名識(shí)別》一文中,分析了藏文人名構(gòu)成規(guī)律和特點(diǎn),提出了一種最大熵和條件隨機(jī)場相融合的藏文人名識(shí)別方法。王天航、史樹敏、龍從軍等在《基于錯(cuò)誤驅(qū)動(dòng)學(xué)習(xí)策略的藏語句法功能組塊邊界識(shí)別》一文中,指出藏語句法功能組塊分析旨在識(shí)別出藏語句子的句法成分,為后續(xù)句子級(jí)深入分析提供支持。首先基于條件隨機(jī)場(ConditionalRandomFields,CRFs)識(shí)別組塊,然后分別基于轉(zhuǎn)換規(guī)則的錯(cuò)誤驅(qū)動(dòng)學(xué)習(xí)(TransformationbasedErrordrivenLearning,TBL)及基于新特征模板的CRFs錯(cuò)誤驅(qū)動(dòng)學(xué)習(xí)進(jìn)行二次識(shí)別,并對(duì)初次結(jié)果進(jìn)行校正,F(xiàn)值分別提高了165%、836%。最后通過實(shí)驗(yàn)分析,進(jìn)一步將兩種錯(cuò)誤驅(qū)動(dòng)學(xué)習(xí)機(jī)制融合,在18073詞級(jí)的藏語語料上開展實(shí)驗(yàn),識(shí)別性能進(jìn)一步提高,準(zhǔn)確率、召回率與F值分別達(dá)到941%、9476%與9443%。當(dāng)增卓瑪在《藏文文本中格助詞的識(shí)別研究》一文中通過研究藏文格的用法,建設(shè)藏文八格的知識(shí)庫和藏文八格的算法及識(shí)別研究。完么才讓、曹玉林在《藏語及物與不及物動(dòng)詞的自動(dòng)識(shí)別研究》一文,通過句子中的使格助詞來自動(dòng)判斷動(dòng)詞及物性的方法,這種自動(dòng)識(shí)別方法是一種理性主義的判斷方法,所以不需要大規(guī)模語料的支持。華卻才讓、姜文斌、趙海興等的《基于感知機(jī)模型藏文命名實(shí)體識(shí)別》一文,通過對(duì)命名實(shí)體構(gòu)詞規(guī)律及分詞歧義進(jìn)行分析,提出基于音節(jié)特征感知機(jī)訓(xùn)練模型的藏文命名實(shí)體識(shí)別方案??挡女?、龍從軍、江荻的《基于詞位的藏文黏寫形式的切分》一文,根據(jù)藏文自身的特點(diǎn),將常用的四詞位擴(kuò)充為六詞位,再利用條件隨機(jī)場模型作為標(biāo)注建模工具來進(jìn)行訓(xùn)練和測試,并根據(jù)規(guī)則對(duì)識(shí)別結(jié)果進(jìn)行后處理。卓瑪吉、安見才讓的《藏文不自由虛詞的自動(dòng)識(shí)別研究》一文,主要研究藏文文本中大量藏文不自由虛詞的識(shí)別算法,同時(shí)建立了藏文不自由虛詞的消歧規(guī)則庫,使計(jì)算機(jī)快速地識(shí)別并消除藏文句子中不自由虛詞的歧義問題,提高藏文自動(dòng)分詞的準(zhǔn)確率。高定國、扎西加、趙棟材的《計(jì)算機(jī)識(shí)別藏語虛詞的方法研究》一文,認(rèn)為藏文虛詞的研究是藏文信息處理技術(shù)中詞、句及語義研究的基礎(chǔ),而計(jì)算機(jī)自動(dòng)識(shí)別藏文虛詞又是藏語虛詞研究的前提。該文在論述藏語虛詞在藏語文本中的作用和使用方法的基礎(chǔ)上,分析了計(jì)算機(jī)識(shí)別藏語虛詞的難度,提出了一個(gè)計(jì)算機(jī)識(shí)別藏語虛詞的方法,并用2525句典型藏文句子進(jìn)行了驗(yàn)證,虛詞識(shí)別的正確率高達(dá)970768%。

涉及分詞的研究成果主要有:孫萌、華卻才讓、才智杰等的《基于判別式分類和重排序技術(shù)的藏文分詞》(《中文信息學(xué)報(bào)》第2期),艾金勇、陳小瑩、華侃等的《面向Web的藏文文本分詞策略研究》(《圖書館學(xué)研究》第21期),完么扎西、尼瑪扎西《藏語自動(dòng)分詞中的幾個(gè)關(guān)鍵問題的研究》(《中文信息學(xué)報(bào)》第4期),黃鶴鳴、達(dá)飛鵬、韓曉旭的《基于小波變換和梯度方向的脫機(jī)手寫藏文字符特征提取方法》[《東南大學(xué)學(xué)報(bào)》(英文版)第1期]等。

孫萌、華卻才讓、才智杰等的《基于判別式分類和重排序技術(shù)的藏文分詞》一文,提出一種基于判別式模型的藏文分詞方法,重點(diǎn)研究最小構(gòu)詞粒度和分詞結(jié)果重排序?qū)Σ匚姆衷~效果的影響。在構(gòu)詞粒度方面,分別考察了以基本字丁、基本字丁—音節(jié)點(diǎn)、音節(jié)為最小構(gòu)詞粒度對(duì)分詞效果的影響,在分詞結(jié)果重排序方面,提出一種基于詞圖的最短路徑重排序策略,將判別式解碼生成的切分結(jié)果壓縮為加權(quán)有向圖,圖中節(jié)點(diǎn)表示音節(jié)間隔,而邊所覆蓋的音節(jié)作為候選切分并賦予不同權(quán)重,選擇一條最短路徑從而實(shí)現(xiàn)整句切分。艾金勇、陳小瑩、華侃等的《面向Web的藏文文本分詞策略研究》一文,對(duì)比參照其他藏文分詞系統(tǒng)的優(yōu)缺點(diǎn)并借鑒漢語分詞系統(tǒng)的一些好的方法,設(shè)計(jì)開發(fā)了一個(gè)面向藏文網(wǎng)頁的自動(dòng)分詞系統(tǒng)。項(xiàng)煒、金澎的《基于詞頻學(xué)習(xí)和動(dòng)態(tài)詞頻更新的藏文自動(dòng)分詞系統(tǒng)設(shè)計(jì)》一文,針對(duì)藏文自動(dòng)分詞中的重點(diǎn)難點(diǎn),設(shè)計(jì)了一個(gè)新的藏文自動(dòng)分詞系統(tǒng),該系統(tǒng)采用動(dòng)態(tài)詞頻更新和基于上下文詞頻的歧義處理和未登錄詞識(shí)別技術(shù),在歧義字段分詞準(zhǔn)確性、未登錄詞識(shí)別率和分詞速度上,系統(tǒng)具有較優(yōu)的性能。完么扎西、尼瑪扎西的《藏語自動(dòng)分詞中的幾個(gè)關(guān)鍵問題的研究》一文,通過分析藏文構(gòu)詞規(guī)則、句法結(jié)構(gòu)、詞的前后詞性關(guān)系、后加字的添接法和格助詞的用法等重點(diǎn)研究了未登錄詞、緊縮詞和交集型歧義的識(shí)別及處理方法,并提出了“重組法”“排除—還原法”和“詞性規(guī)則法”三種方法。

(四)算法與識(shí)別

相關(guān)的研究成果主要有:康健、喬少杰、格桑多杰等的《基于群體智能的半結(jié)構(gòu)化藏文文本聚類算法》(《模式識(shí)別與人工智能》第7期),才項(xiàng)俄日、安見才讓的《藏文屬格助詞的識(shí)別算法》[《信息與電腦》(理論版)第8期],珠杰、李天瑞、劉勝久的《藏文文本自動(dòng)校對(duì)方法及系統(tǒng)設(shè)計(jì)》[《北京大學(xué)學(xué)報(bào)》(自然科學(xué)版)第1期],邊巴旺堆、卓嘎、陳延利等的《藏文構(gòu)件元素識(shí)別算法研究》(《中文信息學(xué)報(bào)》第3期),邊巴旺堆、卓嘎、陳延利等的《藏文構(gòu)件元素識(shí)別算法研究》(《中文信息學(xué)報(bào)》第3期),曹暉、孟祥和的《基于藏文新聞文本話題檢測的聚類算法研究》[《華中師范大學(xué)學(xué)報(bào)》(自然科學(xué)版)第1期],珠杰、李天瑞、劉勝久的《TSRM藏文拼寫檢查算法》(《中文信息學(xué)報(bào)》第3期),徐濤、于洪志、加羊吉的《基于改進(jìn)卡方統(tǒng)計(jì)量的藏文文本表示方法》(《計(jì)算機(jī)工程》第6期),春燕的《基于藏文音節(jié)特征的模式匹配算法的研究》(《計(jì)算機(jī)光盤軟件與應(yīng)用》第15期),劉偉光、郭小丹、孔繁秀的《一種基于改進(jìn)向量空間模型的藏文主題網(wǎng)頁采集方法》(《圖書館學(xué)研究》第16期),梁會(huì)方、黃鶴鳴、楊峰的《漢文專有名詞藏文音譯的研究與實(shí)現(xiàn)》(《計(jì)算機(jī)技術(shù)與發(fā)展》第12期)等。

康健、喬少杰、格桑多杰等的《基于群體智能的半結(jié)構(gòu)化藏文文本聚類算法》一文,將群體智能技術(shù)應(yīng)用于半結(jié)構(gòu)化的藏文Web文本聚類,提出基于群體智能的半結(jié)構(gòu)化藏文Web文本聚類算法(SCAST),充分考慮群體智能技術(shù)對(duì)藏文文本聚類準(zhǔn)確性和時(shí)間效率的影響。SCAST算法首先運(yùn)用向量空間模型表示藏文文本信息,將藏文文本按其相似性聚集在一起,得到最終聚類結(jié)果。才項(xiàng)俄日、安見才讓的《藏文屬格助詞的識(shí)別算法》一文,將藏文屬格助詞作為查找目標(biāo),結(jié)合藏文屬格助詞添接規(guī)則、屬格助詞前詞與詞庫進(jìn)行比較,提出了一種有效的屬格助詞識(shí)別算法,進(jìn)一步提高藏文信息處理技術(shù)中藏文自動(dòng)分詞的準(zhǔn)確率。珠杰、李天瑞、劉勝久的《藏文文本自動(dòng)校對(duì)方法及系統(tǒng)設(shè)計(jì)》,以藏文音節(jié)拼寫檢查、梵音轉(zhuǎn)寫藏文檢查、接續(xù)關(guān)系檢查、詞語檢查為研究內(nèi)容,提出藏文文本自動(dòng)校對(duì)框架和接續(xù)關(guān)系檢查算法。根據(jù)該框架及算法,設(shè)計(jì)并實(shí)現(xiàn)藏文自動(dòng)校對(duì)系統(tǒng),通過實(shí)驗(yàn)證明算法和系統(tǒng)的可靠性和有效性。邊巴旺堆、卓嘎、陳延利等的《藏文構(gòu)件元素識(shí)別算法研究》一文,指出要實(shí)現(xiàn)藏文排序算法,必須解決組成藏文音節(jié)的構(gòu)件元素識(shí)別,然后由構(gòu)件元素的優(yōu)先級(jí)進(jìn)行排序。文章通過對(duì)藏文的文字結(jié)構(gòu)、書寫規(guī)律,以及文法規(guī)則的研究,設(shè)計(jì)了符合現(xiàn)代藏文的構(gòu)件元素識(shí)別算法。曹暉、孟祥和的《基于藏文新聞文本話題檢測的聚類算法研究》一文,提出一種聚類算法,首先改進(jìn)了文本順序?qū)垲惤Y(jié)果產(chǎn)生的影響,其次通過確定種子話題,來確定話題的類別。本研究的聚類算法在較小規(guī)模的語料中比改進(jìn)前源算法有一定程度的提高。珠杰、李天瑞、劉勝久的《TSRM藏文拼寫檢查算法》一文,以藏文語音特性建立的字組織法為依據(jù),以藏文音節(jié)規(guī)則為模型,提出了藏文音節(jié)規(guī)則模型(TSRM)的藏文音節(jié)拼寫檢查算法,并通過兩組實(shí)驗(yàn)驗(yàn)證了算法的有效性。徐濤、于洪志、加羊吉的《基于改進(jìn)卡方統(tǒng)計(jì)量的藏文文本表示方法》一文,認(rèn)為傳統(tǒng)的藏文文本表示方法較少考慮特征項(xiàng)之間的關(guān)聯(lián)度,容易造成語義損失。結(jié)合向量空間模型,提取文本中詞頻統(tǒng)計(jì)TF-IDF值較高的部分詞項(xiàng)作為對(duì)比詞項(xiàng),對(duì)藏文文本進(jìn)行斷句處理,以每個(gè)句子作為一個(gè)語境主題,利用卡方統(tǒng)計(jì)量計(jì)算文本中詞項(xiàng)與對(duì)比詞項(xiàng)的關(guān)聯(lián)程度。春燕的《基于藏文音節(jié)特征的模式匹配算法的研究》一文指出,近年來針對(duì)網(wǎng)絡(luò)中藏文輿情的研究已在相關(guān)研究機(jī)構(gòu)進(jìn)行。模式匹配問題是計(jì)算機(jī)科學(xué)中的一個(gè)基本問題,在藏文輿情、網(wǎng)絡(luò)入侵檢測等應(yīng)用中起著重要的作用。針對(duì)藏文字本身特性的字符匹配算法在相關(guān)文獻(xiàn)并沒有給出相應(yīng)的解決辦法,而是直接采用了中文或英文的模式匹配算法作為研究的基礎(chǔ)。認(rèn)為給出一個(gè)合理有效的藏文字符串的模式匹配算法,能有效地提高藏文字符的匹配效率。劉偉光、郭小丹、孔繁秀的《一種基于改進(jìn)向量空間模型的藏文主題網(wǎng)頁采集方法》一文,設(shè)計(jì)了一種基于改進(jìn)向量空間模型的藏文主題網(wǎng)頁采集算法。梁會(huì)方、黃鶴鳴、楊峰的《漢文專有名詞藏文音譯的研究與實(shí)現(xiàn)》一文,在漢藏音譯規(guī)則的制定的基礎(chǔ)上,對(duì)于存在的約定俗成譯法詞組優(yōu)先處理,以及漢文的多音字結(jié)合了統(tǒng)計(jì)的多音字語料詞組,提高音譯系統(tǒng)的性能,以及其音譯的準(zhǔn)確性。該算法實(shí)現(xiàn)簡單,準(zhǔn)確率高。

標(biāo)注、算法、識(shí)別、分類等之間是相互關(guān)聯(lián)的。不能將彼此截然分開。此外,相關(guān)的研究還有:仁青諾布、蘇亞超、孫亞東的《基于最大熵模型的藏文不良文本識(shí)別系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)》(《西藏科技》第3期)一文,該文通過實(shí)驗(yàn)實(shí)現(xiàn)了最大熵算法進(jìn)行藏文文本分類功能,用最大熵算法進(jìn)行藏文不良文本識(shí)別效果比較明顯。武強(qiáng)、邊巴旺堆的《信息檢索系統(tǒng)中藏文自動(dòng)提示的研究與實(shí)現(xiàn)》(《電腦知識(shí)與技術(shù)》第19期)一文,認(rèn)為在當(dāng)今信息社會(huì),信息檢索已經(jīng)成為人們?nèi)粘9ぷ鞯囊徊糠?。該文主要探討了藏文的?gòu)成、編碼、分詞及藏文相關(guān)提示詞的實(shí)現(xiàn)原理及方法,對(duì)具有重要影響的藏文分詞和排序進(jìn)行了深入的分析,實(shí)現(xiàn)了在信息檢索系統(tǒng)中基于權(quán)重的藏文自動(dòng)提示功能。通過測試分析,該功能能較好地分辨藏文和依據(jù)權(quán)重對(duì)藏文進(jìn)行相關(guān)詞提示。才華的《藏文組字部件的自動(dòng)識(shí)別與字排序研究》[《西藏大學(xué)學(xué)報(bào)》(自然科學(xué)版)第2期]一文,認(rèn)為藏文字有著獨(dú)特的構(gòu)字規(guī)則,組字部件的自動(dòng)識(shí)別在藏文字、詞、句層面的信息化處理有重要的應(yīng)用。文章把現(xiàn)代藏文字按其第一個(gè)部件字符的不同分成5種結(jié)構(gòu)類型,每一種類型又按其字長分為若干個(gè)子類,在每個(gè)子類中定義各字的部件識(shí)別算法,最后在藏文組字部件識(shí)別的基礎(chǔ)上,給每個(gè)部件賦予序值,實(shí)現(xiàn)藏文字的有效排序。

(五)軟件開發(fā)與應(yīng)用

在過去的一年,涉及軟件開發(fā)與應(yīng)用的研究成果主要有:看不太、安見才讓的《藏文學(xué)術(shù)論文復(fù)制檢測技術(shù)研究》[《信息與電腦》(理論版)第8期],柔特的《基于WordNet的藏文語義詞典半自動(dòng)構(gòu)建方法研究》[《西藏大學(xué)學(xué)報(bào)》(自然科學(xué)版)第1期],江濤、江靜、戴玉剛等的《藏文輿情云分析系統(tǒng)平臺(tái)研究》(《信息網(wǎng)絡(luò)安全》第9期),高紅梅、拉巴頓珠、嘎瑪平措等的《基于Flash的藏文詞語學(xué)習(xí)軟件設(shè)計(jì)》(《西藏科技》第4期),陳小瑩、艾金勇、郭小丹《藏文拉丁轉(zhuǎn)寫的設(shè)計(jì)與實(shí)現(xiàn)》(《科技信息》第11期),白瑪玉珍的《幾種藏文字特征提取方法比較研究》[《信息與電腦》(理論版)第4期],俄果措、安見才讓的《藏文單音節(jié)動(dòng)詞時(shí)式的形態(tài)變化研究》[《信息與電腦》(理論版)第9期],高定國、郭鑫的《TSF藏文輸入法的設(shè)計(jì)與實(shí)現(xiàn)》[《西藏大學(xué)學(xué)報(bào)》(自然科學(xué)版)第2期],白瑪拉姆、張旋的《基于物聯(lián)網(wǎng)的藏文二維碼的研究與實(shí)現(xiàn)》(《西藏科技》第2期),張繼偉的《基于Android系統(tǒng)智能終端的藏文輸入法分析與實(shí)現(xiàn)》(《信息安全與技術(shù)》第4期),張?jiān)蒲?、劉芳的《基于Unicode的藏文網(wǎng)頁搜索探討》(《科技情報(bào)開發(fā)與經(jīng)濟(jì)》第11期),項(xiàng)毛措、張有誼的《Word 2007中藏文排序的研究》(《商》第5期),扎西加、多拉的《基于FUG的藏語句法形式化描述》(《中文信息學(xué)報(bào)》第3期),達(dá)召卡什吉的《現(xiàn)代藏語常用名詞的內(nèi)部結(jié)構(gòu)特征分析》(《安多研究》第11輯,甘肅民族出版社)等。

看不太、安見才讓的《藏文學(xué)術(shù)論文復(fù)制檢測技術(shù)研究》一文,在分析藏文論文整體結(jié)構(gòu)的基礎(chǔ)上結(jié)合或改進(jìn)現(xiàn)有的復(fù)制檢測方法并提出某種符合藏文文法的新的藏文學(xué)術(shù)論文復(fù)制檢測算法,實(shí)現(xiàn)用于藏文學(xué)術(shù)論文對(duì)他人的隱式抄襲、部分抄襲和完全抄襲等抄襲現(xiàn)象的初步檢測。柔特的《基于WordNet的藏文語義詞典半自動(dòng)構(gòu)建方法研究》一文,在藏語獨(dú)特的文法理論研究基礎(chǔ)上,利用對(duì)比英文和藏文詞之間的語義關(guān)系、構(gòu)建雙語大型數(shù)據(jù)庫和制定映射過程中詞匯空缺等方法,構(gòu)建了基于半自動(dòng)匹配的藏文語義詞典,為藏文信息處理提供了重要的數(shù)據(jù)資源。江濤、江靜、戴玉剛等的《藏文輿情云分析系統(tǒng)平臺(tái)研究》一文,介紹了藏文輿情云分析平臺(tái)的系統(tǒng)框架和核心模塊,及其模塊運(yùn)行。高紅梅、拉巴頓珠、嘎瑪平措等的《基于Flash的藏文詞語學(xué)習(xí)軟件設(shè)計(jì)》一文,選用藏語詞典作素材,基于Flash設(shè)計(jì)了一款藏文詞語學(xué)習(xí)軟件,通過通關(guān)形式增強(qiáng)學(xué)習(xí)的趣味性,同時(shí)對(duì)詞組輔以圖片演示、讀音配音和講解,真正起到輔助教學(xué)的作用。陳小瑩、艾金勇、郭小丹的《藏文拉丁轉(zhuǎn)寫的設(shè)計(jì)與實(shí)現(xiàn)》一文,從藏文文本規(guī)范化、黏著語的分離與還原、基字的確定和藏文音節(jié)轉(zhuǎn)寫規(guī)則四個(gè)部分設(shè)計(jì)了藏文拉丁轉(zhuǎn)寫方案,最終實(shí)現(xiàn)藏文拉丁轉(zhuǎn)寫。該轉(zhuǎn)寫方案的設(shè)計(jì)在藏文信息處理領(lǐng)域具有非常重要的現(xiàn)實(shí)意義和應(yīng)用價(jià)值。白瑪玉珍的《幾種藏文字特征提取方法比較研究》一文,認(rèn)為藏文字識(shí)別中特征提取是一個(gè)很重要的環(huán)節(jié)。該文研究了幾種藏文字特征提取的方法,提出了各個(gè)特征提取方法的優(yōu)、缺點(diǎn)。俄果措、安見才讓的《藏文單音節(jié)動(dòng)詞時(shí)式的形態(tài)變化研究》一文,采用統(tǒng)計(jì)學(xué)的研究方法,建立藏文單音節(jié)動(dòng)詞詞庫,并對(duì)每一個(gè)動(dòng)詞形態(tài)變化類型進(jìn)行標(biāo)注。根據(jù)動(dòng)詞形態(tài)同形方式的不同,對(duì)四種、三種、兩種和無形態(tài)變化的動(dòng)詞模式進(jìn)行統(tǒng)計(jì),從而總結(jié)了動(dòng)詞形態(tài)的規(guī)則,為藏語語音和詞匯的演變做了基礎(chǔ)性的研究。高定國、郭鑫的《TSF藏文輸入法的設(shè)計(jì)與實(shí)現(xiàn)》一文,指出TSF是微軟推出的一種新的輸入法框架,用TSF開發(fā)藏文輸入法不僅能實(shí)現(xiàn)詞組輸入的功能,還能提高藏文鍵盤的輸入速度。白瑪拉姆、張旋的《基于物聯(lián)網(wǎng)的藏文二維碼的研究與實(shí)現(xiàn)》一文,基于物聯(lián)網(wǎng)的相關(guān)技術(shù),通過藏文二維碼軟件的設(shè)計(jì),對(duì)二維碼的編碼結(jié)構(gòu)、編碼原理、編碼流程等問題進(jìn)行了分析,最后利用Visual Basic軟件進(jìn)行應(yīng)用和開發(fā)。張繼偉的《基于Android系統(tǒng)智能終端的藏文輸入法分析與實(shí)現(xiàn)》一文,闡述了藏文在Android系統(tǒng)下輸入法的設(shè)計(jì)思想,以及實(shí)現(xiàn)過程,介紹了該技術(shù)的設(shè)計(jì)原理以及流程。張?jiān)蒲?、劉芳的《基于Unicode的藏文網(wǎng)頁搜索探討》一文指出,藏文網(wǎng)頁搜索是藏文計(jì)算機(jī)技術(shù)和藏文網(wǎng)站發(fā)展的必然要求,藏文字的特殊結(jié)構(gòu)和藏文編碼的多樣性給網(wǎng)頁的統(tǒng)一檢索造成一定的困難,使用基于Unicode的藏文編碼來識(shí)別和存儲(chǔ)藏文有利于網(wǎng)頁搜索的實(shí)施。項(xiàng)毛措、張有誼的《Word 2007中藏文排序的研究》一文,認(rèn)為藏文文字的排序是藏文信息處理領(lǐng)域一項(xiàng)不可缺少的關(guān)鍵所在,也是一直以來有待解決的問題。目前,word成了最廣泛的應(yīng)用程序之一,如果word中實(shí)現(xiàn)符合藏文文字結(jié)構(gòu)特點(diǎn)和語法規(guī)則的藏文排序,將會(huì)為以后藏文研究工作者帶來很大方便。扎西加、多拉的《基于FUG的藏語句法形式化描述》一文,分析了用復(fù)雜特征描述藏語句子的必要性,引入了復(fù)雜特征集和合一運(yùn)算的概念,以實(shí)例舉證的方式對(duì)藏語詞匯、句法、語義的規(guī)則及句子合一運(yùn)算提出了探索性的研究思路,并且采用框式表示的方法,力求從形式化的角度為藏語自然語言處理提供便利。達(dá)召卡什吉的《現(xiàn)代藏語常用名詞的內(nèi)部結(jié)構(gòu)特征分析》一文,主要對(duì)名詞的內(nèi)部結(jié)構(gòu)特征進(jìn)行了分析研究,其目的是為藏語名詞的語義分詞服務(wù)和擴(kuò)大藏語資源建設(shè)的規(guī)模。為藏語信息處理的機(jī)器翻譯、信息檢索、信息提取、文本校對(duì)服務(wù)。

版權(quán)所有 中國藏學(xué)研究中心。 保留所有權(quán)利。 京ICP備06045333號(hào)-1

京公網(wǎng)安備 11010502035580號(hào)

<sup id="wwww8"><cite id="wwww8"></cite></sup>
  • <nav id="wwww8"></nav>
    <ul id="wwww8"></ul>
    <sup id="wwww8"></sup>
  • <nav id="wwww8"></nav>
    <sup id="wwww8"><delect id="wwww8"></delect></sup>
  • <sup id="wwww8"><ul id="wwww8"></ul></sup>
  • <tfoot id="wwww8"><dd id="wwww8"></dd></tfoot>
  • <noscript id="wwww8"></noscript><small id="wwww8"></small>