一些NLP面對的問題實例:
同時,在天然說話處置懲罰中,"理解"的界說也釀成一個主要的問題。
由於理解(understanding)天然說話,需要關於外活著界的普遍常識和運用操作這些常識的能力,天然語言認知,同時也被視為一小我工聰明完備(AI-complete)的問題。
[1] 第一,傳統的基於句法-語義規則的理性主義方法遭到質疑,跟著語料庫建設和語料庫說話學的崛起,大範圍真實文本的處理成為天然說話處理的首要戰略目的。
統計天然說話處置應用了推斷學、機率、統計的方式來解決上述,特別是針對輕易高度恍惚的長串句子,當套用現實文法進行分析產生出成千上萬筆可能性時所激發之難題。處置這些高度模糊句子所採用消歧的方式通常應用到語料庫以及馬可夫模子(Markov models)。
統計自然說話處置的手藝首要由一樣自人工聰明下與進修行為相幹的子領域:機器學習及資料採掘所演進而成。
天然說話處置懲罰(英語:Natural Language Processing,簡稱NLP)是人工聰明和說話學範疇的分支學科翻譯在這此領域中切磋如何處理及應用天然說話;天然說話認知則是指讓電腦「懂」人類的說話。
第三,淺層處置懲罰與深層處置懲罰並重,統計與劃定規矩方式並重,構成夾雜式的系統。 第四,天然說話處置懲罰中愈來愈正視辭彙的感化,泛起了強烈的「辭彙主義」的偏向翻譯詞彙知識庫的建造成為了遍及存眷的問題翻譯 理論上,NLP是一種很吸惹人的人機交互體例。目次
現實問題[編纂]
有瑕疵的或不規範的輸入[編輯]
- 例如語音處置時碰到外國口音或處所口音,或者在文本的處理中處置懲罰拼寫,語法或者光學字元辨認(OCR)的毛病。
當前天然說話處置懲罰研究的成長趨向[編纂]
可是代詞「它們」在第一句中指的是「猴子」,在第二句中指的是「香蕉」翻譯若是不領會山公和香蕉的屬性,沒法辨別翻譯(英文的it沒有辨別,但在中文裡「牠」和「它」是有區別的,只是代詞在中文裡經常被省略,是以需區別屬性而且標示出來)
天然語言處置懲罰的首要範疇[編纂]
- 文本朗誦(Text to speech)/語音合成(Speech synthesis)
- 語音辨認(Speech recognition)
- 中文主動分詞(Chinese word segmentation)
- 詞性標註(Part-of-speech tagging)
- 句法闡明(Parsing)
- 自然語言生成(Natural language generation)
- 文天職類(Text categorization)
- 信息檢索(Information retrieval)
- 信息抽取(Information extraction)
- 文字校訂(Text-proofing)
- 問答系統(Question answering)
- 給一句人類說話的問定,決意其答案。
語言行為與打算[編輯]
- 句子經常並不只是字面上的意思;例如,「翻譯公司能把鹽遞過來嗎」,一個好的回覆該當是下手把鹽遞曩昔;在大多數上下文環境中,「能」將是糟的回覆,雖然說回覆「不」或者「太遠了我拿不到」也是可以接管的翻譯再者,如果一門課程客歲沒開設,對於發問「這門課程去年有多少學生沒經由過程?」回覆「客歲沒開這門課」要比回答「沒人沒通過」好。 典型問題有特定謎底 (像是加拿大的首都叫什麼?),但也考慮些開放式問句(像是人生的意義是是甚麼?)
- 將某種人類說話自動翻譯至另一種說話
- 產生一段文字的大意,平常用於提供已知範疇的文章摘要,例如產生報紙上某篇文章之摘要
自然說話處理研究的難點[編纂]
單詞的邊界界定[編纂]
- 在口語中,詞與詞之間通常是聯貫的,而界定字詞鴻溝平常利用的辦法是取用能讓給定的上下文最為通順且在文法上無誤的一種最好組合。在書寫上,漢語也沒有詞與詞之間的邊界翻譯
詞義的消歧[編纂]
- 許多字詞不單只有一個意思,因此我們必須選出使句意最為通順的诠釋翻譯
句法的恍惚性[編纂]
- 天然說話的文法平日是模稜兩可的,針對一個句子通常可能會剖析(Parse)出多棵解析樹(Parse Tree),而我們必需要仰賴語意及前後文的資訊才能在此中選擇一棵最為合適的理會樹。
自然說話生成系統把較量爭論機數據轉化為自然說話。
天然語言理解系統把自然說話轉化為計較機法式更易於處理的情勢。相關實例[編輯]
- GATE: a Java Library for Text Engineering
- LTP:說話手藝平台(簡體中文)
- MARF
- Python編程說話的天然說話處置懲罰東西包教程
- FudanNLP開源中文天然語言處理東西包
拜見[編纂]
延伸浏覽[編纂]
- Bates翻譯社 M. Models of natural language understanding. Proceedings of the National Academy of Sciences of the United States of America. 1995, 92 (22): 9977–9982. doi:10.1073/pnas.92.22.9977.
- Steven Bird, Ewan Klein, and Edward Loper (2009). Natural Language Processing with Python. O'Reilly Media. ISBN 978-0-596-51649-9.
- Daniel Jurafsky and James H. Martin (2008). Speech and Language Processing, 2nd edition. Pearson Prentice Hall. ISBN 978-0-13-187321-6.
- Christopher D. Manning翻譯社 Prabhakar Raghavan, and Hinrich Schütze (2008). Introduction to Information Retrieval. Cambridge University Press. ISBN 978-0-521-86571-5. Official html and pdf versions available without charge.
- Christopher D. Manning and Hinrich Schütze (1999). Foundations of Statistical Natural Language Processing. The MIT Press. ISBN 978-0-262-13360-9.
- David M. W. Powers and Christopher C. R. Turk (1989). Machine Learning of Natural Language. Springer-Verlag. ISBN 978-0-387-19557-5.
外部保持[編纂]
- 人類說話手藝當前發展情形概覽
- 哥倫比亞大學天然語言處置懲罰研究組
- 卡內基梅隆大學說話手藝研究院
- 斯坦福大學天然說話處置懲罰研究小組
- 中文天然說話處理開放平臺
- ACL(美國電腦語言學協會)供給的相幹雜誌和鑽研會的論文
電腦科學數學基礎 較量爭論理論 算法和資料結構 程式語言和編譯器 並發、並行和分布式系統 軟體工程 系統架構 電腦系統架構 · 微處置器系統構造 · 功課系統電信與收集 資料庫 人工聰明 較量爭論機圖形學 人機互動 科學較量爭論 註:計算機科學範疇也可根據ACM-2012分類系統進行分類。權勢巨子控制 - NDL: 00562347
使命和限制[編輯]
統計天然說話處置[編輯]
第二,統計數學方法愈來愈遭到重視,天然語言處置懲罰中愈來愈多地利用機械主動進修的方式來獲得說話知識。
以下內文出自: https://zh.wikipedia.org/wiki/%E8%87%AA%E7%84%B6%E8%AA%9E%E8%A8%80%E8%99%95%E7%90%86有關翻譯的問題歡迎諮詢天成翻譯社