FAQ – Digital Scholarship Projects, CUHK Library

2021 Chinese Classic Text OCR Challenge 中國古籍文字自動識別挑戰 2021

FAQ 常見問題

以下是有關本競賽的相關問題：

問.	我不太清楚中國古籍文字自動識別挑戰 2021的玩法。
答.	關於「中國古籍文字自動識別挑戰 2021」，顧名思義就是以電腦編程為中文古籍圖案進行文字識別；參賽者或隊伍需以自己設計及編程電腦程式進行自動中文文字識別，並提供平台介面予主辦單位上傳圖檔及下載輸出文字檔；十個測試將為每日一個共十天進行。我們將會在3月4日為參賽者進行簡介會，到時會有更詳細的解釋及指示。
問.	是否需要將OCR程式開放出來呢？
答.	我們會鼓勵但不是必須開放
問.	競賽單位會提供訓練資料 (training data)嗎？或僅提供待辨識的資料？
答.	我們會於簡介會後提供約20 個圖檔作訓練資料
問.	競賽的影像，是否包含橫式文字？是否為中文繁體字？有無包含簡體字及其他語系的文字呢？
答.	我們提供的競賽源都是中文古籍，並沒有橫式文字、簡體字或其他語系的文字，但不保證是否包含中文異體字
問.	是否參賽者須要有一個線上介面讓主辦單位上傳圖像？並可下載 OCR 的文字檔呢？
答.	是, 參賽者需提供介面讓主辦單位上傳圖像及下載文字檔（輸出文字檔範例會於簡介會提供）
問.	是否有限定上傳 image 後，後多少時間內軟體需產出文字檔？
答.	我們會參考OCR處理時間作其中一頂評分 (評分比重會在簡介會報告)
問.	What is the main challenge of this competition? Is it more tilted to processing images with a large amount of noise or recognizing characters in different styles (e.g., 隶书，楷书，篆书)? (中譯: 請問本次競賽主要挑戰內容是什麼？它是否更傾向於處理具有大量噪點的圖像或識別字體的中文字（例如，隸書，楷書，篆書）？
答.	For each day of the Challenge, we will select 40-50 page images (TIFF) from Qing Dynasty period printed books (楷书清刻本). Participants will have to develop application to recognize the characters and output the text file; We will provide some samples as learning data set in the upcoming briefing. (中譯:對於每一天的挑戰內容，我們將從清朝時期的印刻本書籍（楷書清刻本）中選取40-50頁圖像（TIFF檔）。參與者必須開發及利用應用程序以識別中文字符並輸出文本文件檔；我們將在即將來臨的簡報會中提供一些樣本作為學習數據集。)
問.	How do the images for the challenge look like? Are they mostly printed books with standardized templates or just random photos of ancient texts? (中譯:挑戰中選取圖像看起來如何？他們是印刷及標準格式的書籍，還是只隨機選取包含古代文字的照片?)
答.	Each image in TIFF is one page of the rare books. They are printed books with standardized templates. (中譯:每個TIFF圖像都是珍本書籍的一頁。它們是帶標準格式的印刷書籍。)
問.	How will you prevent cheating and unfair competition? For example, practically a participant could simply read the texts manually and type down the texts. Or, a participant could get the locations of texts and “hardcode” the location information into the parts of text detection within the codes. In this case, the results will be more precise but unable to generalize. (中譯:您將如何防止作弊和不公平競爭？例如，實際上，參與者可以簡單地手動閱讀文本並鍵入文本。或者，參與者可以獲取文本的位置，並將位置信息“硬編碼”到代碼中的文本檢測部分中。在這種情況下，結果將更加精確，但無法偵測出來。)
答.	Participants are required to provide online interface for us to upload images and generate the result directly from it to avoid manual typing or proof-reading. The result (Text file) should be generated within reasonable time frame. We will also consider processing time as part of grading criteria. (中譯:大會要求參賽者提供線上界面，以便我方上載圖像並直接從中生成識別中文結果，以避免人工打字或校對。識別結果（文本文件檔）應在合理的時間內生成。我們還將視處理時間為評分標準的一部分。)
問.	由於開源OCR的限制，可否將原始圖檔設置成4MB 或以下的大小?
答.	是次競賽乃根據實際情況的要求而制定有關參賽規則，因此主辦單位並不會改變原始圖檔，而由參賽者提出解決辦法，如自行編程處理降低圖檔大小、格式等，以符合識別系統要求及不影響識別準確度。為確保競賽公平，我們不會對個別參賽者修改有關規則。
問.	測試時遇上了標注結果與對應字符不同的情況，造成結果被判定錯誤。請問之後的測試集中會出現這樣的問題嗎？是否可以避免。
答.	我們會儘量避免原始文字檔因手動識別而發生改正異體字的情況。每日自動評分後，我們會覆核每隊錯字，如發現多隊有相同錯誤，會再作調整。
問.	測試時遇上一行兩列時，你們的標準答案為一列合併輸出，如分成兩行會判定錯誤。請問在這裡的評分標準會有彈性處理嗎?
答.	以公平性起見，每隊均接受相同難度挑戰，我們是以同一標準計分，並不能彈性處理。

評分標準：我們在競賽開始前把評分程式作更新，亦已放在分享資料夾中供參賽隊伍參考。

如有其他查詢，請電郵至 dslab@lib.cuhk.edu.hk。