第2168章 如何翻譯外星文
因此需要調整圖片特徵,儘可能把圖片和文字的吻合度拉到最高,用多張圖片交叉說明一個詞彙,類似於AI學習的過程,但為了溝通的便捷性,又不能讓每個字詞對應的圖片太多,否則會嚴重拉長語言學習翻譯的時間。
第二代星際語言翻譯器,意識到外星生命可能並沒有眼睛,壓根看不見屏幕,因此增加了多種可見光之外的信息傳達方式,整個翻譯器的體積也急劇上升,從一塊小屏幕,變成了冰箱大小。
但失去了圖片,信息表述變得更加困難,神童們到這個版本開始研究,生命感知世界的方式總共可以有多少種?並嘗試理解不同感官在腦海中形成的世界是什麼樣子,再進一步推導可能的語言形式。
研究結果比較樂觀,大部分生物大概率會有視覺,因為光是感知世界最及時的媒介,用其他方式感知世界,在各類場景下往往會丟失大量信息,繼而在生存進化中落入下風,很難成為星際文明。
第三代星際語言翻譯器,添加了更多「達成共識」的初次接觸信息。
譬如加入了中性氫原子的躍遷圖像,氫原子在可觀測宇宙中隨處可見,無論在哪個星球誕生的文明都會熟悉氫原子,而躍遷長度21.106厘米以及躍遷時間0.704納秒是固定的,就可以在長度單位和時間單位上取得一致。
各類物理化學知識都被加入初次接觸信息中,畢竟整個世界是物理化學的世界,只要在物理化學層面達成一致,就可以一點點描述萬事萬物,雖然可能非常麻煩,但至少可以把翻譯誤解降到最低。
第四代星際語言翻譯器,引入了更多資訊理論的成果。
譬如著名的齊普夫定律,也叫省力法則,拿足夠長的一大段人類文字,將其中的高頻字詞統計出來,大概率會出現高頻詞次數和次序排序的反比關係,也就是說第二高頻詞出現的次數會是第一高頻詞的二分之一,第三高頻詞出現的次數會是第一高頻詞的三分之一,往後四分之一、五分之一等等。
最初齊普夫定律是從人類文本里總結出來的,但後來生物學家們發現,海豚座頭鯨之類可以互相交流的生物,聲音變化分布竟然也符合齊普夫定律。
此外這一版本的翻譯器嘗試額外引入了多種人類語言模型,用來應對不同信息熵的外星文明語言。
信息熵也叫香農熵,由資訊理論祖師爺香農提出了最初公式,歷經一個多世紀的學術研究,結合馬爾科夫鏈等理論,被反覆升級優化。
簡單來說,符號種類數量越小,信息熵越低,符號種類數量越大,信息熵越大。
信息熵越低的語言,文字理解學習起來更容易,但相同長度的文本能表達的信息量也越少,可以理解為更費口舌更費筆墨但不費腦子,溝通效率更低。
例如英文的一階信息熵大約是4比特,漢字一階信息熵大約是9.6比特,不同文本樣本和不同建模得出的計算值會略有誤差,但差距之大顯而易見。
實際生活中最直觀的例子,就是同樣內容的文本,例如產品說明書或者聯合國文件,就會出現漢字篇幅更短的情況。
第五代星際語言翻譯器,在之前幾代升級的模塊上進行全面加強和改錯。
傳遞信號的模塊換上了最頂尖的,精度強度都上了一個台階,造價上了十個台階,好在這種和外星人溝通的東西也不用考慮量產成本,價格完全無所謂。
又加入了更多的初次接觸信息種類,更靈敏的AI模型。
同時神童們在做第五代版本時,再度深入研究了語言信息熵,之前研究的語言只是現有使用的國際主流語言,這次神童們研究了歷史上的古語言演變過程,並嘗試自創信息熵更高或更低的新語言。
宋河看神童們的研究手冊時,震驚於研究的細緻深入程度。
有據可查的二百多種不同歷史時期的語言,神童們分工合作都吃透了,得出大量數據詳實的結論,這幫智商逼近二百的孩子,為了一個當時毫無實用價值的課堂小任務,業餘時間自學成才變成了一堆古語言專家。
全球曾經出現過的主流語言裡,信息熵的冠亞軍分別是繁體漢語文言和東瀛候文,其中文言文不同歷史時期的熵變化也做了排序,《尚書》時代的信息熵和《史記》時代的信息熵差別已經很大了。
最初神童們認為,很大概率外星文明的語言也會出現類似的變化,隨著歷史時期改變,出現信息熵減弱,從信息熵更高的《尚書》減小為《史記》,從信息熵更高的繁體減小為簡體。
包括東瀛候文,是從漢語文言先演變成變體漢文,最後才演變成東瀛候文,整個演變過程也是信息熵不斷減小的過程。
研究到這一步,神童們覺得外星文明的語言信息熵可能也會較低,畢竟星際文明的歷史大概率會比人類歷史更長。
但這一結論只存在了一個周末就被推翻了,神童們立馬又得出了完全不一樣的結論。
推翻老結論的原因主要有三點。
第一,為什麼漢語演變時間比其他國際常用語言長的多,信息熵卻是最高的,而不是隨著時間降到所有語言的最低?
第二,經過多種算法做文本壓縮實驗,現代漢語幾乎已經達到了信息熵界限。
為了驗證壓縮實驗的成果,神童們特意在外星動物園挑選了一些智商接近普通人上限的、沒怎麼學過語言的小猩猩,教授人類各種語言,以及幾種神童們自創發明的更高信息熵的新語言。
最後測試結果是,漢語幾乎是普通人類智商上限能掌握的最高信息熵的語言,像一個守門員或者界限,一旦某種語言的信息熵高過了現代漢語,就對使用者的智商有極高要求,註定了人群中只有一小撮人能理解。
這也從側面證明了為什麼當初要廢除文言文推廣白話文,因為至少半數人的智力水平很難熟練掌握文言文,沿用文言文勢必造成大規模人群的閱讀困難,這一點從每年高考時學生們在文言文題目上瞎編亂寫就看出來了,而白話文恰好夠用,能有效減少文盲數量。
第三,神童群體們的內部黑話。
天才院神童們長期待在一起學習科研,幾乎每一屆都形成了固定的交流黑話,類似於將現代漢語精煉為文言文的過程,信息熵更高。
和普通人溝通,神童們需要說五分鐘的內容,如果和其他神童溝通,可能兩分鐘不到就搞定了。
形成這種高信息熵的黑話之後,所有神童們一直很穩定的用,有時候需要和比較笨的外界同行合作,沒法說內部黑話,所有神童都會感覺溝通麻煩費時。
綜合以上三點,神童們得出的最終結論是:
【1.語言信息熵的大小,和使用語言群體的平均智商高度相關,平均智商越高越喜歡用高信息熵語言,因為溝通起來省時省力,寥寥幾句話可以傳達大量信息,平均智商越低越喜歡用低信息熵語言,因為更高的信息熵難以理解,會產生大量誤會以及過度燒腦】
【2.語言信息熵的大小,和演變時間相關,會經歷一個由最初偏離平均智商到最終回歸平均智商的過程】
這兩條結論相當重要,第二條結論先排除了誤差,發展成星際文明的語言大概率已經經過時間足夠漫長的演變,難度誤差消除了,會高度貼合外星生命的平均智力。
第一條結論更重要,能夠建立星際文明的生物,大概率平均智力會很高,因此外星生物的語言信息熵很可能也在超高水平,和之前初步結論得出的外星語言可能信息熵低截然相反!
於是神童們特意自創了三套新語言,信息熵分別為12、17和22,其中17信息熵的語言和神童們平時用的黑話差不多,22已完全達到神童們能夠理解的上限,再往上就徹底變成天書了。
只能祈禱外星文明的語言,信息熵在22以下,或者他們能夠主動將自己的語言信息熵先翻譯擴充到22以下,否則雙方交流將會極度困難,對牛彈琴。
第六代、第七代和第八代翻譯器,改動幅度都不算太大,主要工作量是融合了大量密碼學的翻譯系統,以及反覆調試AI自動翻譯,確保翻譯器能在第一時間理解外星語言。
畢竟追求準確的同時,時間也不能拖太久,說個「你吃了嗎」花半個月才破譯出來,麻煩就大了。
此刻,齊風小組正在測試檢查多款不同型號的星際語言翻譯器,目前部隊裝備的翻譯器同時有第六代、第七代和第八代,之所以裝備三代,主要是避免升級過猛反而帶來一些意料之外的不可靠漏洞,最先進的要有,比較老式的也得有。
半夜一點鐘,齊風終於長舒一口氣,起身看向宋河相曉桐。
「院長,翻譯器都沒問題!」
「好!」宋河點頭。
「然後我們幹什麼?」齊風又問。
「等!」宋河說。
第二代星際語言翻譯器,意識到外星生命可能並沒有眼睛,壓根看不見屏幕,因此增加了多種可見光之外的信息傳達方式,整個翻譯器的體積也急劇上升,從一塊小屏幕,變成了冰箱大小。
但失去了圖片,信息表述變得更加困難,神童們到這個版本開始研究,生命感知世界的方式總共可以有多少種?並嘗試理解不同感官在腦海中形成的世界是什麼樣子,再進一步推導可能的語言形式。
研究結果比較樂觀,大部分生物大概率會有視覺,因為光是感知世界最及時的媒介,用其他方式感知世界,在各類場景下往往會丟失大量信息,繼而在生存進化中落入下風,很難成為星際文明。
第三代星際語言翻譯器,添加了更多「達成共識」的初次接觸信息。
譬如加入了中性氫原子的躍遷圖像,氫原子在可觀測宇宙中隨處可見,無論在哪個星球誕生的文明都會熟悉氫原子,而躍遷長度21.106厘米以及躍遷時間0.704納秒是固定的,就可以在長度單位和時間單位上取得一致。
各類物理化學知識都被加入初次接觸信息中,畢竟整個世界是物理化學的世界,只要在物理化學層面達成一致,就可以一點點描述萬事萬物,雖然可能非常麻煩,但至少可以把翻譯誤解降到最低。
第四代星際語言翻譯器,引入了更多資訊理論的成果。
譬如著名的齊普夫定律,也叫省力法則,拿足夠長的一大段人類文字,將其中的高頻字詞統計出來,大概率會出現高頻詞次數和次序排序的反比關係,也就是說第二高頻詞出現的次數會是第一高頻詞的二分之一,第三高頻詞出現的次數會是第一高頻詞的三分之一,往後四分之一、五分之一等等。
最初齊普夫定律是從人類文本里總結出來的,但後來生物學家們發現,海豚座頭鯨之類可以互相交流的生物,聲音變化分布竟然也符合齊普夫定律。
此外這一版本的翻譯器嘗試額外引入了多種人類語言模型,用來應對不同信息熵的外星文明語言。
信息熵也叫香農熵,由資訊理論祖師爺香農提出了最初公式,歷經一個多世紀的學術研究,結合馬爾科夫鏈等理論,被反覆升級優化。
簡單來說,符號種類數量越小,信息熵越低,符號種類數量越大,信息熵越大。
信息熵越低的語言,文字理解學習起來更容易,但相同長度的文本能表達的信息量也越少,可以理解為更費口舌更費筆墨但不費腦子,溝通效率更低。
例如英文的一階信息熵大約是4比特,漢字一階信息熵大約是9.6比特,不同文本樣本和不同建模得出的計算值會略有誤差,但差距之大顯而易見。
實際生活中最直觀的例子,就是同樣內容的文本,例如產品說明書或者聯合國文件,就會出現漢字篇幅更短的情況。
第五代星際語言翻譯器,在之前幾代升級的模塊上進行全面加強和改錯。
傳遞信號的模塊換上了最頂尖的,精度強度都上了一個台階,造價上了十個台階,好在這種和外星人溝通的東西也不用考慮量產成本,價格完全無所謂。
又加入了更多的初次接觸信息種類,更靈敏的AI模型。
同時神童們在做第五代版本時,再度深入研究了語言信息熵,之前研究的語言只是現有使用的國際主流語言,這次神童們研究了歷史上的古語言演變過程,並嘗試自創信息熵更高或更低的新語言。
宋河看神童們的研究手冊時,震驚於研究的細緻深入程度。
有據可查的二百多種不同歷史時期的語言,神童們分工合作都吃透了,得出大量數據詳實的結論,這幫智商逼近二百的孩子,為了一個當時毫無實用價值的課堂小任務,業餘時間自學成才變成了一堆古語言專家。
全球曾經出現過的主流語言裡,信息熵的冠亞軍分別是繁體漢語文言和東瀛候文,其中文言文不同歷史時期的熵變化也做了排序,《尚書》時代的信息熵和《史記》時代的信息熵差別已經很大了。
最初神童們認為,很大概率外星文明的語言也會出現類似的變化,隨著歷史時期改變,出現信息熵減弱,從信息熵更高的《尚書》減小為《史記》,從信息熵更高的繁體減小為簡體。
包括東瀛候文,是從漢語文言先演變成變體漢文,最後才演變成東瀛候文,整個演變過程也是信息熵不斷減小的過程。
研究到這一步,神童們覺得外星文明的語言信息熵可能也會較低,畢竟星際文明的歷史大概率會比人類歷史更長。
但這一結論只存在了一個周末就被推翻了,神童們立馬又得出了完全不一樣的結論。
推翻老結論的原因主要有三點。
第一,為什麼漢語演變時間比其他國際常用語言長的多,信息熵卻是最高的,而不是隨著時間降到所有語言的最低?
第二,經過多種算法做文本壓縮實驗,現代漢語幾乎已經達到了信息熵界限。
為了驗證壓縮實驗的成果,神童們特意在外星動物園挑選了一些智商接近普通人上限的、沒怎麼學過語言的小猩猩,教授人類各種語言,以及幾種神童們自創發明的更高信息熵的新語言。
最後測試結果是,漢語幾乎是普通人類智商上限能掌握的最高信息熵的語言,像一個守門員或者界限,一旦某種語言的信息熵高過了現代漢語,就對使用者的智商有極高要求,註定了人群中只有一小撮人能理解。
這也從側面證明了為什麼當初要廢除文言文推廣白話文,因為至少半數人的智力水平很難熟練掌握文言文,沿用文言文勢必造成大規模人群的閱讀困難,這一點從每年高考時學生們在文言文題目上瞎編亂寫就看出來了,而白話文恰好夠用,能有效減少文盲數量。
第三,神童群體們的內部黑話。
天才院神童們長期待在一起學習科研,幾乎每一屆都形成了固定的交流黑話,類似於將現代漢語精煉為文言文的過程,信息熵更高。
和普通人溝通,神童們需要說五分鐘的內容,如果和其他神童溝通,可能兩分鐘不到就搞定了。
形成這種高信息熵的黑話之後,所有神童們一直很穩定的用,有時候需要和比較笨的外界同行合作,沒法說內部黑話,所有神童都會感覺溝通麻煩費時。
綜合以上三點,神童們得出的最終結論是:
【1.語言信息熵的大小,和使用語言群體的平均智商高度相關,平均智商越高越喜歡用高信息熵語言,因為溝通起來省時省力,寥寥幾句話可以傳達大量信息,平均智商越低越喜歡用低信息熵語言,因為更高的信息熵難以理解,會產生大量誤會以及過度燒腦】
【2.語言信息熵的大小,和演變時間相關,會經歷一個由最初偏離平均智商到最終回歸平均智商的過程】
這兩條結論相當重要,第二條結論先排除了誤差,發展成星際文明的語言大概率已經經過時間足夠漫長的演變,難度誤差消除了,會高度貼合外星生命的平均智力。
第一條結論更重要,能夠建立星際文明的生物,大概率平均智力會很高,因此外星生物的語言信息熵很可能也在超高水平,和之前初步結論得出的外星語言可能信息熵低截然相反!
於是神童們特意自創了三套新語言,信息熵分別為12、17和22,其中17信息熵的語言和神童們平時用的黑話差不多,22已完全達到神童們能夠理解的上限,再往上就徹底變成天書了。
只能祈禱外星文明的語言,信息熵在22以下,或者他們能夠主動將自己的語言信息熵先翻譯擴充到22以下,否則雙方交流將會極度困難,對牛彈琴。
第六代、第七代和第八代翻譯器,改動幅度都不算太大,主要工作量是融合了大量密碼學的翻譯系統,以及反覆調試AI自動翻譯,確保翻譯器能在第一時間理解外星語言。
畢竟追求準確的同時,時間也不能拖太久,說個「你吃了嗎」花半個月才破譯出來,麻煩就大了。
此刻,齊風小組正在測試檢查多款不同型號的星際語言翻譯器,目前部隊裝備的翻譯器同時有第六代、第七代和第八代,之所以裝備三代,主要是避免升級過猛反而帶來一些意料之外的不可靠漏洞,最先進的要有,比較老式的也得有。
半夜一點鐘,齊風終於長舒一口氣,起身看向宋河相曉桐。
「院長,翻譯器都沒問題!」
「好!」宋河點頭。
「然後我們幹什麼?」齊風又問。
「等!」宋河說。