FAQ

Chinese Classic Text OCR Challenge 2022 | 2022 中國古籍文字自動識別挑戰

FAQ 常見問題

以下是有關本競賽的相關問題 (會不斷更新):

問.我不太清楚2022中國古籍文字自動識別挑戰的規則。
答.關於「2022中國古籍文字自動識別挑戰」,顧名思義就是以電腦編程為中文古籍圖案進行文字識別;參賽者或隊伍需以自己設計及編程電腦程式進行自動中文文字識別,並提供平台介面予主辦單位上傳圖檔及下載輸出文字檔;十個測試將為每日一個共十個工作天進行。我們將會為參賽者進行簡介會,到時會有更詳細的解釋及指示。
問.是否需要將OCR程式開放出來呢?
答.請儘量詳細解說但不是必須開放。
問.競賽單位會提供訓練資料 (training data)嗎?或僅提供待辨識的資料?
答.我們會於截止報名後提供約 20個圖檔及文字檔予參賽隊伍作測試資料 (Testing materials)。
問.競賽的影像,是否包含橫式文字?是否為中文繁體字?有無包含簡體字及其他語系的文字呢?
答.我們提供的競賽源都是中文古籍,並沒有橫式文字或其他語系的文字,但有機會含有中文異體字及簡寫。
問.是否參賽者須要有一個線上介面讓主辦單位上傳圖像? 並可下載 OCR 的文字檔呢?
答.參賽者需提供線上介面讓主辦單位上傳圖像及下載文字檔  (輸出文字檔範例會於簡介會解說,亦會連測試圖檔等一併於截止報名後提供)。
問.是否有限定上傳圖檔後,後多少時間內軟體需產出文字檔?
答.OCR處理時間需為上傳後50分鐘內完成,否則當日不予評分。
問.請問本次競賽主要挑戰內容是什麼?它是否更傾向於處理具有大量噪點的圖像或識別字體的中文字(例如,隸書,楷書,篆書)?
答.對於每一天的挑戰內容,我們將從明、清朝時期的印刻本書籍中選取40-50頁圖像 (TIFF檔),除楷書外亦可能包括其他字體甚至手抄的古籍圖檔以增加難度。參賽隊伍必須提供平台,利用應用程式識別中文字符並輸出文本文件檔。
問.競賽使用的文字圖檔是印刷及標準格式的書籍,還是只隨機選取包含古代文字的照片?
答.每個TIFF圖像都是珍本書籍的一頁。它們基本上是帶標準格式的印刷書籍,但會有少量手抄本。
問.您將如何防止作弊和不公平競爭?例如,實際上,參與者可以簡單地手動閱讀文本並鍵入文本。或者,參與者可以獲取文本的位置,並將位置信息“硬編碼”到代碼中的文本檢測部分中。在這種情況下,結果將更加精確,但無法偵測出來。)
答.大會要求參賽者提供線上介面,以便我們上載圖像並直接從中生成識別中文結果,防止人工打字或校對。識別結果 (文本文件檔) 會要求在限時內完成及下載,逾時輸出結果將不會被計算入競賽成績;競賽期間亦會隨機再上載抽驗結果。
問.測試時遇上了標注結果與對應字符不同的情況,造成結果被判定錯誤。請問之後的測試集中會出現這樣的問題嗎?是否可以避免。
答.我們會儘量避免原始文字檔因手動識別而發生改正異體字的情況。 每日自動評分後, 我們會覆核每隊錯字,如發現多隊有相同錯誤,會再作調整。
問.測試時遇上一行兩列時,你們的標準答案為一列合併輸出,如分成兩行會判定錯誤。請問在這裡的評分標準會有彈性處理嗎?
答.以公平性起見,每隊均接受相同難度挑戰,我們是以同一標準計分,不需要彈性處理。
問.競賽圖檔文字遇上不少異體字,會作怎樣的處理?
答.我們會包含「TSVCC 對應表規範」所有異體字 (簡體字除外) 在評分程式,到時亦會提供予參賽隊伍應用。
問.每天競賽輸出的文字檔是不是每個圖檔要分開出來?
答.輸出的文字檔只需要一個,包含當天所有圖檔識別出來的文字及檔案名稱。
問.有關競賽處理時間。
答.所有挑戰列出的相關時間 (包括報名、簡介會、競賽時間) 均以香港時間 (UTM/GMT+8) 為準,而競賽期間上傳/下載會於香港的辦公時間內進行。
問.我們不知道傳送速度如何。
答.有需要的話主辦方會於測試期間安排測試上傳及下載檔案,但參賽隊伍需自行保證傳輸速度。
問.Does it mean that we will have to transcribe variants (異體字) if there is any?
答.Yes, if the character is in variant, you will have to transcribe as its variant code.  Only those variants that do not have the corresponding codes can have the Unicode of its common characters.
問.How could you count the 50 minutes of processing time?
答.That’s why we will need you to have a Run/Start button.  We will count after we click your Run/Start button automatically.
問.We have our own platform for OCR processing, but you said you will have the platform template for the Challenge.  Does it mean that we have to make another platform to meet your requirement?
答.You only need to use the platform interface template (html) in facilitating our Challenges.  You can use any language/programme for your OCR processing.
問.Can we make our programme during your Challenge time? Is the time fixed for every Challenge day?
答.We will be processing the Challenge at your platform within the office hours in Hong Kong.  You may have your backend processing before 9:00a.m. (GMT+8) and after we send you the daily results.

如有其他查詢,請電郵至 dslab@lib.cuhk.edu.hk