現代自然語言處理技術揭示神秘的 Voynich 手稿中的語言結構特徵

BigGo Editorial Team
現代自然語言處理技術揭示神秘的 Voynich 手稿中的語言結構特徵

神秘的15世紀文獻 Voynich 手稿充滿了無法破譯的文字和奇怪的插圖,幾個世紀以來一直令研究人員感到困惑。最近使用現代自然語言處理(NLP)技術進行的計算分析揭示了該手稿結構的一些引人入勝的見解,表明它包含的模式與實際語言相一致,而非隨機的胡言亂語。

結構化分析揭示語言特徵模式

該分析採用了多種NLP技術,包括使用多語言 SBERT(Sentence-BERT)對去除字尾的詞根進行聚類、識別類似功能詞與內容詞的聚類,以及馬爾可夫式轉換建模。透過去除單詞中重複出現的類似字尾(如aiin、dy和chy),研究人員能夠分離出似乎是帶有變體的重複詞根形式。這種預處理決策顯著改善了聚類行為,使相似詞幹分組更加緊密,轉換矩陣也顯示出更清晰的結構模式。

研究發現,某些聚類表現出自然語言的典型特徵。例如,聚類8顯示出高頻率、低多樣性,並經常出現在行首——這與已知語言中的功能詞行為一致。同時,聚類3表現出高多樣性和靈活的定位,表明它可能代表內容詞。也許最能說明問題的是,轉換矩陣顯示出強烈的內部結構,遠非隨機,並且聚類使用模式在手稿不同部分(如生物部分與植物部分)之間有明顯差異。

叢集轉換機率的熱圖,展示了在 Voynich 手稿中識別出的語言模式
叢集轉換機率的熱圖,展示了在 Voynich 手稿中識別出的語言模式

社群建議替代性降維技術

雖然原始分析使用主成分分析(PCA)進行降維,但社群成員建議了可能揭示更深層結構的更先進替代方法。一些評論者推薦了更新的演算法,如 UMAP(Uniform Manifold Approximation and Projection)、t-SNE、PaCMAP或LocalMAP,認為這些可能是更有效的工具。

「當我用PCA獲得良好的分離效果時,我個人傾向於避免使用UMAP,因為所有點之間的相對距離更容易解釋。我儘量避免使用t-SNE,因為這些圖中的距離基本上是沒有意義的。」

這一討論強調了嵌入視覺化中的一個重要方法學考慮因素:雖然較新的技術可能揭示更復雜的模式,但它們有時會犧牲點之間相對距離的可解釋性。降維技術的選擇可能會顯著影響研究人員觀察到的模式以及他們對這些模式的解釋方式。

過時的嵌入模型和預處理問題

社群提出的另一個重要觀點是,分析中使用的嵌入模型——paraphrase-multilingual-MiniLM-L12-v2——已有約四年曆史,在快速發展的NLP領域中被認為是過時的。評論者建議,現代文字嵌入模型,即使那些沒有明確訓練用於多語言支援的模型,在處理像 Voynich 手稿這樣的未知語言時可能表現更好。

此外,一些人質疑像去除字尾這樣的傳統NLP技術是否實際上會透過移除相關的上下文資料而損害嵌入質量。原始研究人員承認了這一侷限性,指出字尾去除是一個強有力的預處理決策,可能已經移除了實際的形態資訊或掩蓋了有意義的屈折變體。

分析中使用的關鍵自然語言處理技術

  • 使用多語言 SBERT 對去除詞綴的詞根進行聚類
  • 識別功能詞與內容詞聚類
  • 對聚類序列進行馬爾可夫式轉換建模
  • 基於頁面的句法結構對映
  • 生成資料驅動的詞典假設

社群建議的改進

  • 用較新的降維演算法(UMAP、t-SNE、PaCMAP、LocalMAP)替代 PCA
  • 使用比 4 年前的 paraphrase-multilingual-MiniLM-L12-v2 更新的文字嵌入模型
  • 考慮保留後綴以儲存形態學資訊
  • 使用構造的假語言作為對照組進行測試
  • 與已知語言進行結構相似性比較

關於騙局與語言的爭論繼續

社群對 Voynich 手稿是代表一種實際語言還是一個精心設計的騙局仍然存在分歧。雖然一些人認為該手稿是無法破譯的胡言亂語,但統計分析一直髮現一些模式,這些模式不太可能從隨機文字中出現。正如一位評論者所指出的,要創造這樣的模式,某人必須在構建一種完整的人造語言方面走了相當長的一段路——這本身就是一項令人印象深刻的壯舉。

其他人指出,人類在生成真正的隨機性方面出了名的不擅長,而15世紀試圖創造一種假語言的人可能會無意中產生具有類似語言統計特性的文字。這場辯論仍在繼續,一些研究人員認為該手稿可能使用音節填充和位置重複來編碼一種結構化的構造語言或助記語言。

將現代計算技術應用於這個有數百年曆史的謎題,展示了技術如何能夠為歷史難題帶來新的見解。雖然我們可能尚未破解 Voynich 手稿的密碼,但這些分析正在幫助我們理解其結構,並縮小它可能代表什麼的可能性範圍。

參考:Voynich 手稿結構分析