現在位置：范文先生網>文史論文>文字學論文>潛伏語義分析的理論及其應用

潛伏語義分析的理論及其應用

時間：2023-02-21 19:54:05 文字學論文我要投稿

相關推薦

潛伏語義分析的理論及其應用

1.柏拉圖問題談起
　　從古希臘哲人柏拉圖(Plato)開始，人們就為一個關于認知的神秘問題所困惑：人們為什么能夠在他們所得到的稀少信息基礎上獲得那么多的知識？這個問題有時被稱為柏拉圖問題（注：在柏拉圖對話錄里，有幾處接觸到知識來源問題。他在Meno里指出，靈魂是不滅的，已經學習了所有的事物，所以真正的學習無非是回憶內在的、忘記了的事物；在Phaedo里，他又把內在論和形式理論聯系起來，例如“平等”的形式不可能來自實際的觀察，而是與生俱來的；在Cratylus里則認為，詞語是天生(physis)，不是約定俗成(nomos)的。），有時被稱為“刺激的貧乏”、“缺乏負面證據”或語言習得的邏輯問題。這個問題引起了哲學家、心理學家、語言學家、計算機科學家的廣泛興趣，各自提出不同的解釋。Chomsky派（注：Chomsky(1965,1986,2000)在不同場合都以兒童詞匯習得為例反復說明這個問題，因為“負面的證據”已成為他的語言共項論的主要支柱：Pinker(1994)從進化、歷史、解剖、生理和兒童發育的不同角度觀察了語言的起源，認為語言習得一定是建筑在一個強有力的和特殊的內在機制，并稱之為“語言天性”。）秉承了柏拉圖和笛卡兒的觀點提出了“天賦論”或“內在論”，對這個問題作出了一種回答。但是心理語言學家MacWhinney（注：Brian  Mac  Whinney最近在廣東外語外貿大學召開的心理語言學與外語教學討論會上談到，在他所提出的競爭模型里沒有負面的證據，只有正面的證據。）、自然語言處理家Sampson（注：Geoffrer  Sampson(1997)寫了一本關于語言天性爭論的專著Educating  Eve，認為負面證據之說是自我矛盾的。在Empirical  Linguistics(2001)里，更進一步指出，負面證據是內省法臆想出來的。我們沒有負面證據也能歸納出萬有引力定律，為什么要編一本故意把of  of  the  of（負面證據）排除在外的語法？）卻對此提出質疑。哲學家Quine對這個問題做出另一種回答，他舉了一個所謂"Gavagai"的有趣的例子：一個到外國訪問的人看到一只兔子，偶然聽到他的資料提供人說gavagai。在這種證據貧乏的情況下，gavagai可以指“兔子”（一個完整的事物），“有皮毛的”（事物的未分離部分），或“天氣不錯，是嗎？”（事物發生的時間段），他認為純粹以經驗為基礎的客觀真理和意義根本不存在，這簡直是“歸納法的恥辱”(scandal  of  induction)。對田野作業的語言學家來說，分析和綜合的區別并不存在。進化心理學家Shepard(1987)卻認為柏拉圖問題是心理學的核心問題，關于概括和相似性的普遍理論對心理學就等于牛頓定律對物理學那樣重要。
　　盡管大多數人都承認語言能力的遺傳性，但是這種生物機制的存在并沒有解決Shepard所提出的概括（在母語習得里，更成為“過度概括”）和相似性的問題。這個歸納性難題經常被看成是范疇化的問題，那就是說我們必須找出的這樣一個機制，足以把一系列刺激、語詞或概念（例如獵豹和老虎）看成是一類的（相似的）事物。但是相似性以什么為基礎卻眾說紛紜，有特征論、原型論，范式論、心理本質論、心理語境論，等等，不一而足（桂詩春2000）。這些理論模型都旨在提出一些制約，以縮小歸納（也就是說學習）所要解決的問題空間。就兒童詞匯習得而言，一些心理語言學家假設存在一些對詞語賦予意義的制約，兒童在早期習得詞匯時都假定：多數詞語在感知上都是對應物體的名稱；兩個詞通常都有兩個不同的意義；享有共同聲音的詞語通常都是意義上相關的；一個不熟悉的言語聲音可能指一些兒童還未能掌握其對應詞的東西。但是這也不是沒有問題，Landauer與Dumais(1997)指出，一個問題是我們不知道某一個制約是否真正存在；少年兒童雖然假定相同的物體只有一個名稱，但是他們所接觸的語言是否也是這樣呢？又如某一種制約的產生是逐步進化的，還是通過認知而起作用的一種普遍性制約？還有一個問題是，某些制約的存在和產生出于邏輯的需要，但這又是不夠的，可以從3方面看：1)某一套制約是否邏輯上和語用上充分，也就是說使用了它們以后是否就能解決問題？例如兒童認為沒有同義詞，這在多大程度上能幫助他們學習詞匯？2)和方法論有關，怎樣才能獲得前一個問題的答案？怎樣知道某一些特定制約的組合應用到自然環境的輸入時才能解決問題？3)怎樣決定一個提出來的模型是否具有心理現實性？Landauer認為要解決這些問題必須使用模擬的模型。而他和其他幾個研究人員Foltz、Dumais、Deerwester、Furnas等人(Deerwester  et.al.1990)所提出的，而又得到著名語篇研究者Kintsch支持的模型就是潛伏語義分析(Latent  Semantic  Analysis,LSA)。這是一個多維數的線性組合模型，“這個模型只是一個普遍的學習機制，本身并不體現人類知識，但是它通過分析一個很大的自然語言文本語料庫來生成一個足以體現詞語和文本片段的相似性的表征。”
　　　　2.LSA的理據
　　從潛伏性語義分析的角度看來，歸納就是減少維數(reduction  of  dimensionality)。Landauer舉了一個形象的例子，一個人站在高原上打電話告訴他的朋友三間房子的位置，A和B、A和C的距離都是5個單位，而B和C的距離則是8個單位。在他的朋友腦海里就形成一個兩個維數的三角形。如果他繼續補充說，這三間房子是在一條直線上，他的朋友就會說，他一定是看錯了這三個房子的距離。A和B、C的距離應該是4.5個單位，而B和C的距離應該是9個單位。因為在一個兩維數的三角形里，其底邊應該是其他兩個邊的和。這說明，減少維數可改善估算。在研究工作中，研究人員往往通過減少維數來降低計算的復雜性，即把數據作平滑化處理：簡化數據并填補所缺的節點。在東京召開的聯合國大學主持的混沌對科學和社會的沖擊學術會議上，兩個著名的混沌學專家Feigenbaun和Aihara就一致認為，人腦由100億個神經元組成，而我們要對它的相互作用進行觀察只能選取一個極低的維數。（注：這次大會的文集我國已由楊立、劉巨彬等譯，劉式達、杜先之等校，湖南科學技術出版社出版，題為《混沌：對科學和社會的沖擊》，兩人的對話見該書394-395頁。）在統計學中，這種減少維數的方法，例如因子分析、多維數量表也經常被采用，Osgood(1971)在70年代所做的語義微分分析就用過因子分析。同樣地，我們也可以把兩個詞的語義相似性表示為距離：距離越近，相似性就越強。假定兩個詞在一個語篇單位（短語、句子或段落）中出現的頻率和它們的語義距離成反比例（頻率越多，距離越近），那它們就和語義相似性直接相關。我們可以通過觀察兩個

詞在同一單位中出現的相對頻率來估算出其語義相似性。因為人們進行交際時，都會使用一些基本成分（如詞），使兩個詞語中存在某種相對的相似性。發送者會選擇同一語義空間彼此相近的詞，它們就會有不同的語義距離；而接收者則會按照它們在同一上下文中的相對頻率來估算這些距離。但是自然語言中的詞語數量極為龐大，而接收到的詞語卻數量極少，例如兩個詞的頻率都是百萬分之一，它們雖然有相關的意義，也不大可能會一起發生。可是如果我們的接收機制按照統計知識把接受到的詞語表示為相似的語義空間，即同一個維數的各個節點，情況就會大大改善。
　　附圖
　　基于上述的假設，潛伏性語義分析可以用來比較不同語篇的語義相似性。研究語篇理解的首要目標是：了解有哪些足以影響讀者從文本材料中抽取和保存信息的能力的因素，例如讓受試寫一篇文本材料的摘要，然后再看他們從文本中獲取了什么信息。這意味著把讀者的文本表征（認知模型）和原來的文本表征加以比較，即把摘要中每一個句子的信息和文本中的句子信息加以比較。但是要對信息進行比較并非易事，它要求掃描原文，找出信息的所在。而且受試所寫的摘要往往并不全都采用原文中的詞語。所以光比較詞語也不成。研究人員要比較的是摘要和原來文本的語義內容。Kintsch(1988,1998)所提出的構建整合模型(construction-integration  model)就是一個觀察讀者對文本表征的認知模型，它把讀者摘要的語義信息表示為一些語義成分組合，稱之為命題(prepositions)。文本中的每一個子句是一個命題（如the  red  rose和the  rose  is  red，都屬于一個命題）。這些命題根據各種范疇連接起來，例如看它們是否共享中項(arguments)和指稱(referents)。一個文本的所有命題組合起來就成為文本結構。不少實驗都證明命題是人們的心理處理單位（如Graesser1981）。對文本和受試對它回述進行命題分析可以對一系列語義基本元素加以比較，其好處是這種比較并非表層結構的比較。但問題是，目前還沒有生成命題的自動化程序，因為計算機必須對文本進行正確的語法分析，并且了解詞語的正確意義。于是可以利用計算機來對語義相似性進行比較的潛伏性語義分析就應運而生了。
　　LSA原來是建筑在以語義內容的基礎上以改善信息提取的一種設計，稱為潛伏性語義索引(Latent  Semantic  Indexing,LSI)。在現實生活里，往往同一個語義概念表示為不同的詞語，如果以原詞作為檢索單位，就費時失事。例如“電子計算機”往往又可以簡稱為“計算機”或“電腦”，甚至“服務器”和“機器”。如果在檢索中只鍵入任何一種說法就能查出“電子計算機”，不是方便得多嗎？這種方法還可以避免同義性的問題。LSA的基本假設是不同文件（文件可大可小，可以是詞語所出現的整個語境，也可以是某些文本、段落和句子）的詞語使用型式存在著某種“潛伏的”結構，而使用一些統計的方法可以估量出這種潛伏性結構。這些方法通過分析詞語和文件之間的聯系，產生一個在相同語境中使用的詞語將會在語義上更為密切聯系的表征。例如：
　　(1)The  U.S.S.Nashville  arrived  in  Colon  harbor  with  42  marines
　　(2)With  the  warship  in  Colon  harbor,the  Colombian  troops  withdrew.
　　"warship"所出現的語境（LSA稱之為“向量”，vector）和"Nashville"所出現的語境相似，兩者的上下文都有"Colon"和"harbor"。LSA所使用的技巧可以自動找出這些更深層的聯系的結構。
　　又如我們讀到下面的句子：
　　(3)John  is  Bob's  brother  and  Mary  is  Anne's  mother.
　　(4)Mary  is  Bob's  mother.
　　這兩句話里并沒有出現表示親屬關系的sister,daughter,father,son等詞語，但第(4)句使我們意識到Bob和Ann是兄弟姐妹，Anne是John的女兒，John是Ann的父親，Bob是Mary的兒子。當然LSA所推斷出的詞際關系往往并非完全符合邏輯，它所揭示的僅是相似性關系。這些關系相互牽連和制約，可以產生出一些模糊的間接推斷，關系上可強可弱，邏輯上可對可錯。
　　3.怎樣做LSA？
　　LSA以大規模的語料庫為基礎，使用了一種完全自動化的數學／統計技巧來抽取和推斷詞際關系，這種技巧就是線性代數中的奇異值分解(Singular  Value  Decomposition,SVD)。從概念上說，LSA模型可以理解為一個具有三層的神經網絡系統。在SVD里，一個m×n的長方形矩陣｛A｝（m是行，n是列，m＞n），被分解為三個矩陣：一個是m×n的成分矩陣｛U｝，把原來的列的實體表示為派生的正交因子值的向量；另一個矩陣｛w｝用同樣的方法表示原來列N×N的實體；第三個矩陣｛V｝的轉置(transpose)是一個包括有標度值的直角矩陣(N×N)。
｛A｝=｛U｝｛w｝｛V｝[T]

　　
　　這三個矩陣相乘就可以恢復原來矩陣。如果我們在恢復時減少維數，就可以取得壓縮語義空間的效果。
　　附圖
　　下面是一個常被引用的例子：現有9條技術備忘錄的題目，其中5條是關于人和計算機交互作用的，4條是關于數學圖論的。這些題目在概念上不大相關，它們構成一個9列12行的矩陣，每一行是在這些題目中出現起碼兩次的實義詞（均標為斜體），整理為表1。
　　c1:Human machine interface for ABC computer applications
　　c2:A survey of user opinio

n  of  computer  system  response  time
　　c3:The  EPS  user  interface  management  system
　　c4:System  and  human  system  engineering  testing  of  EPS
　　c5:Relation  of  user  perceived  response  time  to  error  measurement
　　m1:The  generation  of  random,  binary,ordered  trees
　　m2:The  intersection  graph  of  paths  in  trees
　　m3:Graph  minors  IV:Widths  of  trees  and  well-quasi-ordering
　　m4:  Graph  minors:A  survey
　　表1
　　附圖
　　使用SVD技術，就得到下列的3個矩陣，如表2：
　　表2
　　附圖
　　然后我們取這三個矩陣的頭兩列（即取其兩個維數）來加以還原，便得到下面的矩陣（表3）：
　　表3
　　附圖
　　我們可以首先看m4列的survey和trees。trees這個詞在m4題目里并沒有出現，但是m4里有Graph  minors，而m3里也有Graph  minors，且出現了trees，所以在原來矩陣里為0的值被變為0.66，它表示在有graph和minors的題目的無限樣本中，trees可能出現0.66倍。相反地，survey在原來矩陣中的m4中為1，但是卻變為0.42，反映了它在這樣的上下文里并非人們所期望的，不足以表示這個題目的特征。我們還可以比較human和user，human和minors在原來矩陣和后來矩陣的相關系數：前者原為-.38，后者原為-.29，現分別提高到.94和-.83。而在原來的矩陣里，human并沒有和user或minors一起出現。減少了維數后顯示human和user是更為相似，而human和minors則相反，更為不相似。
　　LSA可以用來揭示一些隱含的內部關系。讓我們再看另一個例子。中國學生英語語料庫（桂詩春、楊惠中，2002）是一個有100萬詞的作文語料庫，對5種不同水平——中學生(st2)、大學英語4級(st3)、大學英語6級(st4)、專業英語低年級(st5)、專業英語高年級(st6)——的寫作失誤進行了標注（共有61種）。最常見的失誤有21種，占全部失誤的87%。根據Landauer等人的意見，在進行SVD之前，必須對這些數據作預處理：1)把每個頻數+1，然后轉換成對數；2)把每一列的數值計算為-plog  p，然后除以每列的平均信息量（即熵，entropy）。其公式(Maletic  et  al.1999)為：
　　附圖
　　這樣做的目的是通過估算每一個詞項在每一個語篇的重要性（即該詞項與它所出現的語篇所提供的信息量的程度成反比例），對它的出現率加權。在信息提取中經常使用這種轉換，可獲顯著效果。限于篇幅，我們略去了計算的中間數據和經SVD處理后（包括將維數減為2個）結果（注：我們使用的工具是Excel的“數據分析”和國際牲畜研究院Greg  Hood所編制的，可在Excel上運轉的Poptools2.4版。），只報告幾個有意義的變化，這些變化說明，由于減少了維數，幾種學習者的言語失誤的關系都有所微調，趨于更為合理。例如第一種失誤是拼寫失誤(Fml)。轉換值并沒有改變原來的次序，大學英語4級和6級學習者的拼寫失誤比中學學習者略多，因為它們的語源來自CET考試的命題寫作，而中學生則是自由作文的居多。命題寫作有特定的用詞要求，往往成為拼寫失誤的來源（如要求學習者用pollution)。現在的分析并沒有把特定用詞要求考慮在里面，而僅就失誤的頻數和其他失誤的關系而言，經過SVD處理后，這種失誤的發生率呈現為逐步略有降低的趨勢，較符合中國英語學習者的實際。和寫作用詞有很大聯系的是用錯了詞(wd3)，經過SVD處理后的變化如下：
　Fm1　　　St2　　　St3　　　St4　　　St5　　　St6
原始頻數　1929　　　2877　　2113　　　1827　　1687
轉換值　　3.30　　　3.47　　3.34　　　3.27　　3.24
處理后值　3.52　　　3.46　　3.36　　　3.25　　3.00

　　
　Wd3　　　St2　　　St3　　　St4　　　St5　　　St6
原始頻數　1102　　　1635　　1815　　　757　　　360
轉換值　　3.27　　　3.45　　3.50　　　3.09　　2.75
處理后值　3.30　　　3.49　　3.44　　　2.99　　2.84

　　
　　經處理后，St3仍然是最高的，但St4的絕對頻數雖然是最高的，處理后則比St3略低。St6的絕對頻數比St5的少一半，但處理后的值為2.84并沒有比2.99少一半，僅低0.15倍，這說明用錯詞在St6中仍然是一個常犯的失誤。句法結構(Sn8)的失誤也是中國學習者常見的失誤，下面是另一個SVD處理后的變化：
　Sn8　　　St2　　　St3　　　St4　　　St5　　　St6
原始頻數　1104　　　446　　　862　　　493　　　232
轉換值　　3.27　　　2.85　　3.16　　　2.90　　2.55
處理后值　3.14　　　3.06　　2.97　　　2.90　　2.68

　　
　　從絕對頻數來看，St3似乎比St2和St4、St5都少，處理后則顯得較為合理，趨于逐步降低。
　　一般來說，在SVD處理后還可以比較處理前后的余弦cosine(θ)（注：余弦Cosine(θ)為兩個向量的夾角，比相關系數更能表示相似性的程度。其公式為：），有時亦用相關系數來表示。經過計算，相關系數從處理前的0.604增至0.728。拼寫失誤是中國學習者最容易犯的失誤，和各種失誤都有密切的關系。經處理后，它的平均相關系數從0.614提高到0.817。
　　　　4.LSA的應用
　　LSA以矩陣代數的SVD為依托，而SVD在信息處理，如圖象壓縮、噪音過濾、開發軟件的源代碼等方面都得到較廣泛的使用。LSA在語篇處理和語義的分析和提取方面均有廣闊應用前景。
　　第一、我們要看LSA模型是怎樣回答我們柏拉圖問題。需要證明的是通過大量接觸自然文本，人們能否獲得語義相似性的知識？Landauer等人先對一個有代表性的英語語料庫（包括美聯社的新聞、給學生看的Grolier's美國大百科詞典和有代表性的兒童讀物）做SVD分析，然后用這個模型來做一次TOEFL同義詞測試（共80個項目）。為了模擬人的行為，他們把題目中的測試詞和每個選項的余弦都計算出來，然后讓LSA模型來選擇意義最接近的詞。LSA的答對率為65%，相當于在美國的來自非英語國家的考生的平均答對率。但是要進一步回答兒童怎樣在“負面的證據”的情況下習得詞匯，還要考慮效率問題。Landauer等人認為，歸納方法取決于重建一個處于高維數空間的多重相似性系統，這樣出現在局部上下文的事件也就可以反映高層次語義空間的相似性。因為四分之三的詞語知識都是來自間接歸納，即接觸一些那些詞語并不在其中出現的文本。他們進一步完善其語料庫的選詞辦法，并對照Carroll等人的Word  Frequency  Book(1971)所提供的數據，推斷出每一段文本后的詞匯增長率為0.20。如果一般學生每天平均讀50段文字，就可每天增長10個新詞。
　　第二、在信息提取方面，出現了LSI技術，以取代一般的主題詞檢索。早在80年代，Dumais等人(1982)對一個包括有1033個醫學文獻的摘要和題目的數據庫，自動檢索到出現兩次以上的詞語5823個，經過SVD處理取得100個因子，然后對數據庫提出30個問題，LSI比原來的主題詞檢索改善了13%。后來技術有所提高，據Berry等人(1994)對幾個系統的檢驗，LSI的改善程度已達30%。Deerwester等人(1990)認為，LSI的優點是，它可以解決同義性、多義性和詞語依賴性(term  dependency)三方面的問題。LSI的研究還在發展，一些令人興奮的進展是信息過濾、增加檢索問題的長度（TREC系統可以提出長達50個詞的問題來進行檢索）和進行跨語種檢索(Rosario  2000)。
　　第三、文本相似性研究。在語篇理解方面，Foltz,Kintsch和Landauer(1993)等人用LSA來自動化處理語篇連貫（以心臟科學文獻為試驗樣本），把一個句子或片段和接著的句子或片段的連貫性來分析比較，其相關系數高達.90。在他們所建立的網站http://LSA.colorado.edu上面提供了一些已經根據心理學、百科全書、文學成語、心臟科學的語料庫給讀者進行網上比較文本相似性研究。例如我們隨機從一本認知心理學教科書里找了兩段在詞語上沒有多大聯系的話：
　　"These  findings  indicate  a  considerable  degree  of  functional  equivalence  of
perception
and  imagery.However,it  is  possible  that  subjects  in  the  imagery  condition  merely
made
  plausible  guesses  about  the  fields  of  resolution,and  did  not  actually  rely  on
imagery
at  a11."
　　"While  it  is  very  straightforward  to  see  that  previous  learning  can  facilitate
problem
  solving  by  supplying  well-practiced  skills  and  strategies,it  is  perhaps  less  obvious  that  knowledge  acquired
in  the  past  can  sometimes  disrupt,and  interfere  with,subsequent  attempts  to  solve
problems."
　　這兩段話在用詞方面沒有太多相同之處，但是和心理學語料庫的維數比較以后，它們的相關是.82。
　　第四、使用LSA來進

行寫作質量評估。Landauer,Laham和Foltz(1998)試驗使用5種不同的方法來應用LSA對作文題目的答案進行評分，如讓評分員對一些作文樣本進行評分，然后計算出評了分的作文和未評分的作文的余弦，再根據相似性權重把最相似的作文分數的平均分賦予未評分的作文，等等。這5種方法所評出的分數的相關程度接近于它們和專家評分的相關程度。在另一項研究中，他們還用這方法來評估8個考試，題目從心臟解剖和生理學到心理學概念，美國歷史，當前社會問題和市場問題。通過元分析發現LSA和專業評分員（來自教育考試服務公司或其他專業機構或課程導師）的相關高于專業評分員之間的相關。LSA評分的可靠性說明一個篇章的全面的語義表征主要決定于詞的選擇，而對句法使用則要求不高。
　　第五、使用LSA來模擬心理語言學試驗。語義啟動是一種常用的試驗，Landauer用LSA方法來模擬Till等人(1988)的判斷多義詞的試驗，結果完全一致。這些結果顯示在語篇理解中，忽略了詞序、句子結構、非線性的詞與詞的相互作用的詞義關系也能夠預測人類的行為。Kintsch等人(1999)還通過LSA所獲得的信息提出長時工作記憶(Long-term  Working  Memory,LTWM)的理論。他認為人類的記憶系統包括了感知特征、語言特征、命題結構、宏結構、語境模型、控制結構、目標、詞匯知識、框架、一般知識、情節記憶等等成分。它們對理解語篇至為重要，遠遠超過短時記憶。LTWM認為在某些條件下工作記憶可以大大延伸，LSA在某種程度模擬了這種機制，實際上也模擬了人類的知識系統。大部分人類知識都體現為語言，而LSA通過減少維數來篩選它所處理的信息，從而保留了它所處理的文本的主要語義關系。例如在LSA處理的文件中，mountain和mountains的相關系數可能很低，但是通過減少維數后，它們的相關卻是.81。它的推斷是這兩個詞在語義上有密切聯系。同樣地，圍繞mountain還可以找到peaks,rugged,ridges和climber，而圍繞mountains又可以找到peaks,rugged,plateaus和foothills。我們所需要的正是這些信息，以認識人們在理解過程中是怎樣通過LTWM來激活知識的。又如"The  band  played  a  waltz."（樂隊奏了一曲華爾茲）和"Mary  loved  to  dance."  （瑪麗喜歡跳舞）這兩句話雖然無甚直接聯系，但它們都分別激活了一些第三方的互有聯系的語詞，故其余弦為.45。
　　第六、在LSA的基礎上，Kintsch等(2000)及Steinhart(2001)又開發了訓練學生寫作的軟件。這個軟件是一個在線的輔導學生寫摘要的軟件，叫做Summary  Street。Steinhart認為，寫摘要是一種比較難的技能，低年級學生（如初中生）往往依靠“抄和減”的策略來寫摘要，而高年級的學生（如高中生）則使用較復雜的壓縮規則，如重建和歸納。寫摘要訓練不僅僅是一種寫作技巧的訓練，它可以提高學生的閱讀理解、獲取知識和思維能力。這個軟件首先讓學生看一些文章如能源科學、古代文明、血液循環系統等，然后提出寫摘要的一些要求，如找出主題句、找出支持主題句的兩三個重要思想和細節，把它們組成一句話，用一個概括性的詞語來代替具體的項目和事件，避免煩瑣的信息和細節，避免重復信息等等。學生根據這些要求把閱讀的文章寫成摘要，在網上輸入到Summary  Street系統里，系統就能分析摘要，告訴學生摘要在多大程度上反映原文，長度是否合乎要求，等等。學生可以通過系統提供的反饋信息（包括指出拼寫錯誤和用詞不當，信息覆蓋面是否足夠等），不斷改寫摘要。他在Boulder縣中學試驗的結果說明，運用Summary  Street訓練學生所寫出的摘要比使用傳統的文字處理器寫出的摘要要好，特別是處理難度比較大的文章更是如此。
　　　　5.啟發和問題
　　LSA直逼哲學上的認識論問題，卻又開拓了廣闊的應用前景，惹人深思。一是人們認識世界從意義開始，語篇里隱含著許多錯綜復雜的語義關系，是了解語義的鑰匙。二是現代科學技術為建立、儲存和提取包括了大量語篇的語料庫創造了條件，也為人們認識這些錯綜復雜的語義關系創造了條件，使我們有可能解決許多與文本有關的問題。三是認識問題的一個有效途徑是減少維數，提高概括力。和維數匹配的歸納可以大大改善知識的提取和表征。四是LSA要解決的語篇中的語義關系，它既依賴于計算機技術，又利用了奇異值分解的線性代數模型，充分體現了文理互相滲透的特點。
　　但是LSA也留下了一些有待我們繼續探索的問題。最主要的是它只考慮語詞，而不考慮句法信息，甚至不考慮詞序的信息。而且它完全依賴于數學模型，所得到的結果有時不好解釋。
【參考文獻】
　　1　Berry,M.,S.Dumais,&  G.O'Brien[M].1994.Using  linear  algebra  for  Intelligent  Information  Retrieval  [M].Boston:
Houghton
Mifflin  Company.
　　2　Carroll,J.,et  al.1971.Word  Frequency  Book.Houghton  Mifflin  Company  &  American
Heritage
Publishing  Co.,Inc.
　　3　Chomsky,N.1965.Aspects  of  the  Theory  of  Syntax  [M].Cambridge,MA:
MIT  Press.
　　4　Chomsky,N.1986.Knowledge  of  language:Its  nature,origin,and  use  [M].
Westport:
Greenwood
Publishing

;Group.
　　5　Chomsky,N.2000.New  horizons  in  the  study  of  language  and  mind[M].Cambridge:Cambridge  University  Press.
　　6　Deerwester,S,S.Dumais,G.Fumas,T.Landuauer,&  R.Harshman.1990.Indexing  by  latent
semantic  analysis  [J]
.Journal  of  the  American  Society  for  Information  Science  41:391-407.
　　7　Dumais,S.et  al.1982.Using  semantic  analysis  to  improve  access  to  textual
information  [J].Machine  Studies  17:87-107.
　　8　Foltz,P.W.,W.Kintsch  &  T.K.Landauer.1993  (Jan).  An  analysis  of  textual  coherence
using  Latent  Semantic  Indexing  [A].Paper  presented  at  the  meeting  of  the  Society
for  Text  and  Discourse,Jackson,WY.
　　9　Geoffrey  sampson.2001.Empirical  Linguistics  [M].London:Continuum.
　　10　Graesser,A.1981.Prose  Comprehension  beyond  the  word  [M].New  York:Springer.
　　11　Kintsch,W.,D.Steinhart,G.Stahl  &  LSA  Research  Group.2000.  Developing  summarization
skills  through  the  use  of  LSA-Based  Feedback  [J].Interactive  learning  environments  8  (2):87-109.
　　12　Kintsch,W.1988.The  role  of  knowledge  in  discourse  comprehension:A  construction-integration  model  [J].Psychological  Review  95:163-182.
　　13　Kintsch,W.1998.Comprehension  [M].Cambridge  University  Press:86-91.
　　14　Kintsch,W.,L.Vimla,K.Patel  &  A.Ericsson.1999.The  role  of  long-term  working  memory  in  text  comprehension  [J].Psychologia  42:186-198.
　　15　Landauer,T.&  S.Dumais.1997.A  solution  to  Plato's  problem:The  Latent  Semantic
Analysis  theory  of  the  acquisition,induction,and  representation  of  knowledge
[J].Psychological  Review &nbs

p;104:211-240.
　　16　Landauer,T.K.,D.Laham  &  P.W.Foltz.1998.Computer-based  grading  of  the  conceptual  content  of  essays.Unpublished  manuscript.
　　17　Landauer,T.,P.W.Foltz  &  D.Lanham.1998  An  introduction  to  latent  semantic
analysis  [J].  Discourse  Processes  25:259-284.
　　18　Maletic,J.et  al.1999.14[th]IEEE  ASE'99  [A].Cocoa  Beach  FL.12-15[th][C].pp.251-254.
　　19　Osgood,C  1971.Exploration  in  semantic  space:A  personal  diary  [J].Journal  of  Social
Issues  27:5-64.
　　20　Pinker.1994.The  Language  Instinct.[M].New  York:William
Morrow  Company,Inc.
　　21　Rosario,B.2000.Latent  Semantic  Indexing:An  overview
[A].INFOSYS
240  Spring  2000.
　　22　Shepard,R.1987.Towards  a  universal  law  of  generalization
for  psychological
science  [J].Science  237:1317-1323.
　　23　Steinhart,D.2001.Summary  Street:an  intelligent  tutoring  system
for  improving  student  writing  through
the  use  of  latent  semantic  analysis  [D].Unpublished  doctoral
dissertation,Institute  of  Cognitive
Science,University  of  Colorado,Boulder.
　　24　Till,R,E.Mross  &  W.Kintsch.1988.Time  course  of  priming  for
associate  and  inference
words  in  discourse
  context  [J].Memory  and  Cognition  16:283-299.
　　25　van  Dijk,T.,&  W.Kintsch.1983.Strategies  of  discourse
comprehension
[M].New  York:Academic  Press.
　　26　桂詩春，2000，《新編心理語言學》[M]。上海：上海外語教育出版社，308-329。

【潛伏語義分析的理論及其應用】相關文章：

透鏡及其應用教材分析08-17

實物期權理論及其應用前景研究08-07

基于應用寫作語言失當現象的語義學分析08-16

產業組織理論及其研究范式的演化分析08-05

現代漢語語義場分析初探08-07

護理勝任力本位教育的應用現狀的理論分析08-05

透鏡及其應用08-17

膠體的性質及其應用08-17

電解原理及其應用08-17