Categories
All 杂文

這是 2020s,沒有 Traditional Chinese

為大廠做 Traditional Chinese 翻譯約莫快一年了,愈發能感覺到,Traditional Chinese,是何其尷尬的一個事物。

歸根結底,Traditional Chinese 本身要怎麽翻譯都能打上不少的口水戰,最常見自然是繁體中文,有很多人説該是正體中文,五年前我曾寫過一篇《繁體字使用的考究》,曾稚嫩地談及過此事。避繞紛爭,不知何時起,我開始直接稱呼其為傳統中文。

一個互聯網產品,要做傳統中文的 localization,其實連目標客群都很不清楚,只是莫名其妙地就默認了傳統中文是做給台灣用戶使用的,團隊其他人也都是台灣人。畢竟當今世界,傳統中文具有官方地位的國家地區只有三個:台灣、香港、澳門。

體量上,台灣人口遠高於港澳總和,第一考慮台灣人無可厚非。加上港澳口語實則為粵語,與官話有所區別,存在諸多特殊用例,傳統中文的目標客群,一般都不會針對港澳用戶。如果是特別重視港澳市場的產品,則會再專門做出 zh-HK,zh-MO 甚至 zh-yue 的語言分支。最原始的 zh-Hant,則成了實質的 zh-TW。

回過頭來,像我們這樣沒有細分區域,團隊又比較國際化,傳統中文的翻譯工作是滿尷尬的,我總是有些自己的想法,但不可能脫離一些已有的台灣譯法框架去實現。況且我深諳台灣社群,近年來支語警察盛行,導致有些詞和文法幾乎是刻意地去改動得跟簡體中文不同。

但是我也説過,團隊即使是以台灣用法主導,沒有一份最底層的指引,明確説這就是為台灣用戶設計。所以一些台灣人也在尋求建立 zh-TW 的版本,即是説他們也對現有的版本存在某些不滿吧。

跳脫工作之外,傳統中文究竟是什麽東西呢?它廣泛使用於中國大陸以外的所有華人群體中,變種太多。走進北美的華人街,當地居民還是熱衷於使用傳統中文,只是仍會把「乾炒牛河」錯寫成「幹炒牛河」,附庸風雅的大陸移民吧,真實原因不明。

在語言學愛好者社群中,有很多像我這樣雖然背景是共產中國出生,但使用傳統中文的人士。由於我們有一定知識基礎,反而用字嚴謹,老實説,有些字詞或文法,台灣人或者港澳人都不一定知道他們用錯了,但我們知道。這也是前文我提到,為何「我總是有些自己的想法」的原因,但終究寡不敵衆,這是一項團體工作。例如我最近想盡量避免西式中文的出現,尤其是濫用被字句,這種趨勢從我最近的文章中也可以觀察出來,但是想把此原則應用於工作就太難了。西式中文滲透得太深,説白了,這是 1949 年前就幾乎滲透完成的東西,沒有兩岸差異。以至於,西式中文並不能稱之為錯誤,只是一個私人的原則,於是要推廣到工作上就顯得舉步維艱。

我是共產中國出生,但使用傳統中文的人,力避共產中文或是「支語」,幾近演化成一種自我審查的行為。所以,也需求得更為純粹的語言環境。熟悉我的人應該知道,我都是用注音鍵入的傳統中文,若是用拼音輸入法的一鍵簡繁轉換,未免太滑稽。班上有個小時候就移民加拿大的台裔同學,就對我會用注音感到不可思議,也許在她看來,注音就是一項台灣專利。可注音明明是浙江人章太炎先生編創的「紐文」、「韻文」為藍本,最終由中華民國教育部制定、發佈的拼讀系統。哪怕是當今共產中國,具有官方地位的《新華字典》,即使從沒有一位老師教過那堆符號究竟是什麽,每個字旁也是有注音的。下圖是我攝於重慶三峽博物館的《注音符號講義》,出版者為四川注音符號促進會。四川?注音符號?原來這兩個詞還能放在一起,大概又反現代人的常識了吧。

無獨有偶,在我把玩 ChatGPT 時,也出現過極其類似的事件,於是我在 TG 頻道上寫過這麽一段感想:剛才讓 ChatGPT 用重慶話回答問題,既沒説對重慶話,又突然無端將我們一直持續交流的傳統中文文本變成了簡體字,可以想象在它的模型訓練中,即使收集了浩瀚網路的無數資訊,也從未出現一個以傳統中文為載體的重慶話數據集。不由得讓我想起兩年前給萌典提 issue 的事,手工部分唐鳳以 ROC 視角把詞條編纂得很好,但是英文部分偷了個懶用了其他 API,就離譜地變成了 PRC 視角。互聯網成型以來的幾十年,中國人(即簡中使用者)已經把大多數内容都洗了一遍了,全民煉丹,也不外乎拿這些「新鮮」數據煉罷了。於是乎,有了上述兩個故事,似乎重慶話和傳統中文,就是衝突的一對反義詞。但我仍然幸災樂禍,人類社會最複雜的東西就是政治,而我看到 AI 在其門外跌倒的醜樣,獨一無二的還是我嘛。

「四川」和「注音符號」放在一起反常識,「重慶話」和「傳統中文」亦是,甚至把不可一世的 AI 也能玩崩潰,不得苦笑一番遭到取代的日子可以推遲了,現階段的 AI 只是大量吞噬訓練集的模型,開創不了別樹一幟的行為。

意識形態的戰爭下,中文本就已遭簡體中文騎劫,在不為人知的角落裡,落下一些矛盾與衝突。一個外國人說要學中文,不可能拿得到傳統中文的教材,國際漢語教育,就是簡體中文騎劫的一個簡單例子。這些簡體教材,還無時無刻不輸出著 CCP 的意識形態。於是在為數不多還能提到 Traditional Chinese 的場景中,它指代的就是台灣中文。殊不知,夾縫中還存在我們這一批有獨特追求的人,卻是無力回天。

Traditional Chinese,到底是什麽呢?現在已經是 2023 年,有中國人,有台灣人,有怪胎,有老古董,但我確信唯獨沒有傳統。

Categories
All 渣考究

繁體字使用的考究

想起我以前在高中時偶爾也會用繁體字做筆記,不過那都是囿於陌生領域的不成熟之舉。算起來到澳門之後真正將繁體字運用到日常,也有將近一年了。前幾日就繁體的使用和幾位重藍老哥討論過一二,遂起興記錄一下這一年的學習心得。
首先聲明立場,本人的Wiki個人頁有以下兩個用戶框:

正體字的反義詞應該是異體字,而簡體字的反義詞才對應繁體字。Wiki 的「正體字」詞條正式名稱為「國字標準字體」,姑且理解爲中華民國當局使用「正」字作爲該字體的名稱,確實摻雜了不少意識形態的因素在裏面,故全文均使用「繁體字」這一用法。誠如第二個用戶框所言,繁簡中文都擁有其固定的使用人群,沒必要爭論孰高孰低,二者應該共存共榮。我本人僅出於個人情感而學習使用繁體字,雖然談「探究」,但本人亦才疏學淺,文章中仍有諸多疏漏之處,還望讀者指教。
在某些話題下面看見關於繁體字的討論,和我差不多的同齡人們,可能小時候接觸過用繁體字印成的游戲王盜版卡片,抑或是看過許多帶有繁體字字幕的外來影片的原因,均達成這樣一個共識:能看懂不能寫。當然看懂也不是指代每一個字,「臺灣憂鬱烏龜蕩鞦韆」這個梗似乎也被有些人用來嘲諷過這種説法,此處先不深究這個問題。我們在學習英語的過程中也會碰到這樣的問題,做 Reading 的時候完全沒問題,但 Writing 的時候就有可能拼寫錯誤,這樣想來繁體字就是一門外語了(如果發音按照廣東話來可能真的是了),所以其實有些字可能是經過無數積纍記在心裏了,而另一些字無非是根據上下文腦補出來的,單獨拿出來根本看不懂。在這樣半吊子的情況下,還不會書寫,我認爲這並不算會繁體字。
那麽就從我碰到一些情況開始隨性講起,本文不探究「網路」和「網絡」這樣的用法習慣的差異,而是具體落實到每一個字的本身。
不嚴謹的是我並沒有翻閲過這邊的國語教材,不知道有關這些字是如何學習。但我從 Google 的一些檢索結果可以窺見一些細節,在 Yahoo 上也有從小使用繁體的用戶提出了兩者有何差異的問題,結合之前看到的一則新聞,除了官方文件中使用「臺灣」以外,民間很多時候也直接開始使用「台灣」,於是我姑且妄自推斷即使在臺灣,不是語言專業的人也沒有很規範地使用正確的字形。
張老闆提出有些大陸人使用繁體是在强行繁體,非常令人討厭。在不知情的情況下混用,確實有四不像的感覺,包括諸多國產輸入法(典型例子就是搜狗,在發文前我已經因用戶隱私問題的考量卸載了該軟體)直接啓用「繁體輸入」功能,最後輸出的結果都是這樣,此時我就舉出了「綫」和「線」的例子。包括我正在使用的 Microsoft 自帶的輸入法,在鍵入 qu’xian 後的第一個結果是「曲綫」,點入「曲綫」wiki 詞條後,又是加粗的「曲線」二字。(有趣的是,域名欄裏還寫著簡體的「曲线」)不知道是不是我系統 region 選擇了澳門的緣故,才會得到「曲綫」這個結果,因爲對於港澳本地人來説,他們使用倉頡輸入法是直接拼出字形,可以略過發音這個環節。爲了驗證這一結果,我使用了我的 Xperia 手機自帶的注音輸入法,鍵入ㄑㄩ ㄒㄧㄢ,得到的結果是「曲線」。可見許多輸入法確實是「强行繁體」,打一大段字之後就暴露原型了。(還沒驗證地區這個原因,否則我也要把 Microsoft 劃入這個劣質輸入法的範圍了……)
當然并不是說「綫」就是一個錯別字,上面提到了地區原因,我們知道wiki把繁體分成了港澳臺三個派別,但無論選擇哪一個派別,最後顯示的都是「曲線」。并不排除人工編輯的Wiki也有出錯的可能性(畢竟我也是維基人之一,找個階梯下233),「綫」這個字出現在哪裏呢?在中華民國教育部重編國語辭典修訂本中,僅僅寫了「綫」為「線」的異體字這麽一行解釋。而中華人民共和國方面,在《第一批异体字整理表》中,确定以「綫」为正体,以「線」为异体。將「綫」簡化爲了「线」,而「線」是作爲異體字刪除,并沒有簡化,也就是說這並不是簡體字同音合并造成的(而後簡化的「缐」字可用於人名,取得了合法地位)。兩岸定正異的情況恰恰相反,實在有意思。
港澳情況又如何呢?我已經提到 wiki 在三個地區的最終顯示結果都爲「線」,回憶起乘坐港鐵的時候,每一條地鐵線路的命名也都是使用「線」,隨後查閲香港特區教育局的相關文檔,發現香港亦以「線」為正,「綫」根本不是網上所述是港澳與臺灣的用法差異。既然如此,「綫」這麽一個少見的字,爲什麽會出現在諸多輸入法的第一選擇中呢?可能這是一個電腦錄入字體時技術上的原因,在我瞭解到一個叫做開放中文轉換 Open Chinese Convert (OpenCC) 的系統之後,猜想可能與這個問題有關。但我此刻也沒辦法深究這類技術問題,這是能讓諸位理解爲什麽使用這些輸入法會成爲四不像。
此時想到一點上次彩虹室内合唱團來重慶演出時,有幸看了博士的頻道(現在想來沒去開飯挺後悔的),就覺得博士的用字非常準確。比如 group 作「羣」,又如「考古」作「攷古」,四庫全書本中即有「攷古編」一文,實際上只是一個新舊演變的區別,倒不如説是慣用更舊的用法。從上文中的系統問題衍生出來另外想提的一點便是「澳」字,在所有官方使用中,就如我們學校的校門來講,「澳」字中間都是「釆」而不是「米」,但單獨的「奧」字顯然是正確的字形,無論用何種輸入法鍵入均只能得到這個結果,值得一提的是鍵入谷歌后會修正為正確寫法,寫到此覺得有關技術的問題還蠻多,待我下次有所涉獵後填點本職專業的坑。(以上兩點是我開完飯偶然想到,學識不深,不知如何融入文章邏輯,就列了一段出來)
除此之外還常見的幾個問題。第一,像「甚麼」 與 「什麼」,「衹」和「只」這樣和臺灣台北相似的直接簡繁混用的情況。補充一點,敬辭「台端」中只能使用「台」,簡化字必然有一點的依據,憑空生造字就顯得太愚蠢了。這個問題同樣也適用於一些讀音的變化,比如某些字在做姓氏時不能簡化并且讀音有差別,如「於」。第二,真正的同音合并的情況,仍然吐槽一下 Microsoft Pinyin,單獨鍵入 hou 時第一選擇是「后」,而只有組詞時才會出現「後」字,而這兩個字在簡體中就是被同音合并了。「后」只能專門用作君王丶諸侯丶君王的嫡妻之意。第三,就是真正的港澳臺流派的問題了。各字之間本意上互通,但又是在各方正體異體的規定中打不到一片的問題。如「裏」同「裡」,「麪」同「麵」等等,這個例子很多,不再纍述。有趣的是,即使是這些舉例字的規範中,也在過去的幾十年裏有數次變動。(不排除歷史上有將錯就錯的變動原因)
説了這麽多,大家也該知道爲什麽有像我這樣的一群人主張簡繁共存共榮了。有些簡體字,可能確實丟了一些文化的底蘊,但也有些確實簡化的非常不錯。據我看日劇的那一點膚淺瞭解,好多字甚至是日本最先推行簡化的,日本的「學」都是作「学」,這樣的簡體字在提高書寫效率等方面未嘗沒有優點。大陸曾推行過一套叫做二簡字的東西,那可能是真正的殘體字,大概最後大陸自己都看不下去,廢除了這一套方案。同樣的,繁體字并不就意味著全部保留了文化底蘊,她可能意味著諸多異體,太繁瑣太冗雜,甚至複雜到當時的先進知識分子要喊出「漢字不滅,中國必亡」的地步。所以簡繁共榮著實是件好事,倘如有朝一日不再有複雜的政治原因,官方再出一版融合各方優點的堪稱完美的「正體字」,可謂皆大歡喜。
這終究是一個孰正孰異的定義問題,官方說是哪一個,那所有公共場合的規範跟著官方使用罷了,根本不影響民衆如何去使用。也難怪是在信息時代錄入電腦的字少了,魯迅先生筆下有一句經典語錄「茴香豆的茴字有幾種寫法?」,比較起那個年代,異體字更多,再往前推,小篆大篆甲骨文,學問無窮盡也。學習漢字,即是在做歷史的索引。

p.s. 破案了,似乎就是Microsoft地區語言問題,港鐵官網中使用的「綫」。

p.p.s 又有「香港無線電視」這樣的機構名,其實他們也是在混用。