編隊高等學校

什麼是語料庫語言學?

就在幾十年前,以自動化的語言學研究,科學家們只能夢想。 這項工作是由手工完成的,它吸引了大量的學生,有實質性的可能性“不小心”的錯誤,以及最重要的 - 這一切都花了很長很長的時間。

隨著計算機技術的發展,已成為可能量級上進行研究速度更快,而今天在語言研究中最有前途的方向之一是語料庫語言學。 它的主要特點是使用大量的文本信息,信息到一個單一的數據庫,以特殊的方式,並呼籲標記的身體。

到目前為止,有來自數百萬跨越到上百億詞彙單元的各種語言材料的基礎上,不同的目的創造了許多建築物。 這個方向被認為是有前途的,並表明對應用和研究目的顯著進展。 專家介紹,這種或那種方式處理自然語言,建議得到至少在一個基本水平與文本的身體熟悉。

語料庫語言學史

這一趨勢的形成是由於在布朗的身體在上世紀60年代初,獨立實體的創造美的。 該系列包括的單詞形式全部為1萬元的文本,而今天這種規模的機構將完全非競爭性。 這主要是由於計算機技術的發展步伐,以及對新的研究資源不斷增長的需求。

在上世紀90年代語料庫語言學出現成完全獨立的學科,準備文本集合和標示為幾十種語言。 在此期間,它的創建,例如,英國國家語料庫億令牌。

有了這方面的語言學的發展,文卷變得越來越(並達到數十億詞典單位),並且佈局日趨多樣化。 迄今為止,互聯網空間,可以發現屍體的書面和口頭語言,多語種和學習型藝術或學術文獻,以及許多其他物種。

什麼是住房

在身體語言學體類型可以提供有幾個原因。 直觀地說,在分類的基礎可以是文本語言(俄語,德語),訪問模式(開源的,封閉的,商業),源材料(小說,紀實,學術,新聞)的流派。

有趣的方式產生口語的材料。 由於此類言論的刻意記錄為受訪者創造一個人工的環境,並將得到的材料不能被稱為“自發的”,現代語料庫語言學已經其他方式。 志願者配備有麥克風和白天產生的所有的談話,在其參與的記錄。 周圍的人,當然,可能不知道,在日常交談的過程中有利於科學的發展。

後來收到存儲在數據庫中的記錄和打印文本轉型伴隨。 這樣,就創建一個口服每日講話住房需要的可能出現的標記。

應用

只要有可能使用的語言,也許是使用的建築物文本。 方法應用語言學船體可能是:

  • 創建程序確定鍵,被廣泛應用於政治和商業分別跟踪的選民和客戶的積極和消極的反應。
  • 連接信息系統詞典和翻譯,以提高其性能。
  • 各種有助於語言單位,在不久的將來改變它的發展和預測的歷史認識問題的研究任務。
  • 根據形態,句法,語義等特徵的信息檢索系統的開發。
  • 不同的語言系統和其他的優化。

建築物的用途

與典型的搜索引擎類似的資源的界面,並提示用戶輸入要搜索的信息庫單詞的詞或組合。 除了形成準確的查詢可以使用增強版,它允許找到幾乎任何語言的標準文本信息。

搜索鹼可以是:

  • 語音的部分的特定組的成員資格;
  • 語法特徵;
  • 語義;
  • 風格和感情色彩。

您也可以將搜索條件的字序列,例如,尋找動詞出現的所有的現在時態,第一人稱單數,其中談到“在”介詞和賓格的名詞之後。 這樣一個簡單的任務的解決方案允許用戶只需幾秒鐘,僅需要在指定的字段幾鼠標點擊。

創建的過程

搜索本身可以在所有subcorpus進行,一個特別選擇,取決於在實現特定目標的需要:

  1. 所述第一步驟是定義文本,其形成用於的情況下的基礎。 出於實用的目的,它是經常使用的新聞,新聞報導,網上評論。 該研究項目是採用多種封裝類型,但文字應根據一些共同點來選擇。
  2. 得到的進行預處理文本的收集,有糾正錯誤,如果有的話,由文本的書目和額外的語言描述準備。
  3. 消除所有的非文本信息:清除圖形,圖片,表格。
  4. 是令牌,這是典型的語音,以用於進一步處理的分配。
  5. 最後,進行形態學,句法和其他標記得到的多個元件。

由句法結構具有分佈在其中的多個元件,其中的每一個被識別的語音,語法的一部分,並且,在某些情況下,語義屬性的所有交易的結果。

在創造建築的困難

理解是不夠的,放在一起一組單詞或句子的對身體是很重要的。 在一方面,文字的集合,應該是平衡的,也就是代表不同類型的一定比例的文本。 另一方面 - 外殼的內容應該以一種特殊的方式間隔開。

第一個問題是通過協議解決:例如,集合中包括文學文本的60%,紀錄片的20%,按一定比例給予口頭語言,法律,科學作品等今天完美的配方平衡體內不存在的書面申述...

第二個問題,涉及該內容的佈局,解決具有挑戰性的。 有特殊的程序和用於自動標記文本的算法,但他們不給一個完美的結果,可能會導致混亂,需要手動返工。 機遇與挑戰在處理這一問題進行了詳細的論文V. P. Zaharova語料庫語言學的描述。

文本標記在幾個級別上,我們在下面列出來實現。

形態標記

從學校,我們記得在俄羅斯語言,有詞性不同,他們每個人都有自己的特點。 例如,動詞具有傾斜的類別和時間在其中沒有名詞。 毫不猶豫的母語下降名詞和動詞結合,但以紀念100萬元的身體。令牌體力勞動將無法正常工作。 所有必要的操作可以執行的計算機,但是,對於這一點,需要被教導。

形態標記,該計算機必須“理解”每個字為具有某些語法特徵的語音的特定部分。 由於俄羅斯(以及任何其他語言)經營多項規則的規則,就可以建立一個自動程序的形態分析,在汽車投資於一些算法。 不過,也有例外的規則,以及各種複雜因素。 其結果是,今天的淨計算機分析是很不理想,甚至4%的誤差產生的4萬的值。上億。單位的主體詞,需要手動返工。

詳細書中描述的問題Zaharova V. P.“語料庫語言學”。

語法標註

解析或解析 - 確定單詞在句子中的關係的過程。 使用一套算法能夠確定主語,謂語,添加,講話多圈的文本。 找出哪些詞是主要的序列,以及 - 依賴,我們可以有效地從文本中提取信息,並教機響應搜索請求只發出的信息有趣我們。

順便說一句,現代搜索引擎使用這給出具體的數字,而不是冗長的文字對相關的查詢,如“多少卡路里蘋果”或“從莫斯科到聖彼得堡的距離。” 然而,要了解所需要諮詢“介紹語料庫語言學”或其他基礎教程中介紹的過程中,即使基礎。

語義標記

這個詞的語義 - 是,簡單來說,意義。 廣泛適用的方法來一個字屬性標籤的語義分析,體現出他屬於一組語義類別和子類別。 這種信息對於優化算法分析文字音,自動摘要和語料庫語言學的其他任務的方法是有價值的。

有許多樹的“根”,代表具有非常寬的語義抽象的單詞。 作為形成在樹節點的一個分支,含有更多和更具體的詞彙元素。 例如,單詞“生物”可以與這樣的概念“人”和“動物”相關聯。 第一個字將繼續拓展到不同的職業,親屬稱謂,國籍,第二個 - 對類和類型的動物。

利用信息檢索系統

用語料庫語言學的領域涵蓋活動的不同領域。 殼被用於字典的製備和校正,創建自動翻譯系統,標註,檢索事實,確定音色及其他的文本處理。

此外,這種資源在世界語言和一般語言的運作機制的研究都在積極使用。 訪問大量的預先準備好的信息有助於開發語言的趨勢迅速和全面的研究,並形成穩定的新詞語速變化值詞彙單元等。

由於有如此大量的數據的工作需要自動化,今天有計算機和語料庫語言學之間的密切互動。

俄羅斯國家語料庫

該機構(以縮寫形式,NKRYA)包括多個subcorpus的,從而允許各種各樣的任務的使用資源。

在數據庫中的材料被分成NKRYA:

  • 在媒體上世紀90年代和21世紀初,國內和國外的出版物;
  • 錄音講話;
  • aktsentologicheski標記文本(即,應力的標記);
  • 方言講話;
  • 詩歌;
  • 材料與句法和其他標記。

該信息系統還包括Subcorpus與俄羅斯作品的並行翻譯成英語,德語,法語等多國語言(反之亦然)。

另外,在數據庫中有歷史文獻的一部分,代表在其發展的不同時期在俄羅斯的書面講話。 還有一個培訓機構,這對於外國公民有用掌握俄語。

俄羅斯國家語料庫包括4億詞彙單元,並在未來歐洲機構的語言的顯著部分的許多方面。

前途

事實上有利於認識到這一趨勢的是看好在俄羅斯大學實驗室語料庫語言學,以及國外的可用性。 隨著使用和研究的信息和搜索資源的框架需要在高新技術,答疑系統領域某些地區的發展,但如上所述。

語料庫語言學的進一步發展的各級預測,從技術和執行,以優化搜索和處理信息,賦予計算機的過程中新的算法,更多的RAM的條款,對消費者,因為用戶在日常使用這種類型的資源越來越多的方式生活和工作。

總之

在2017年的最後一個世紀中葉似乎遙遠的未來,在飛船穿越宇宙和機器人做的所有的人的工作。 事實上,科學是充滿了“白點”,使拼命試圖回答人類幾個世紀干擾問題。 問題語言的功能在這裡佔據一席之地的榮譽,內閣和計算語言學可以幫助我們回答這些問題。

大型數據集處理可檢測模式,以前無法進入的,預測的特定語言功能的開發跟踪幾乎實時的話的形成。

在實踐層面上,全球的機箱可以看到,例如,以評估公眾情緒的潛在工具 - 互聯網是真正的用戶創建了一個不斷更新每天各種文本:這和您的評論和文章,以及許多其他形式的言論。

此外,與機構合作有助於在相同的硬件,這涉及信息檢索的發展,我們所熟悉的服務“谷歌”或“Yandex的”,機器翻譯,電子詞典。

我們可以自信地斷言,語料庫語言學使得只有第一步驟,在不久的將來將蓬勃發展。

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 zhtw.birmiss.com. Theme powered by WordPress.