#OCR #光學辨識技術 #聯合知識庫 #長達69年的報紙資料庫 #報紙數位化
#報時光是怎麼練成的
【報紙數位化】
以前做一則剪報或找一則「舊聞」,
經常要費盡千辛萬苦,也不一定能找到。
而現今只要上去知識庫就能輕鬆找到,資料查找相當方便
分享2001年聯合知識庫開站的說明,
來了解一張張歲月裡泛黃的紙本報紙,
當年是怎麼變成數位內容的。
圖說:五二○事件街頭衝突過後,警方坐於街邊看報紙
日期:1988/5/21
來源:聯合報
攝影:聯合報攝影組
#報時光UDNtime
歷史新聞
【2001-02-19/聯合報/11版/話題】
製作過程
每篇文章 錯誤不到一個字
【記者李彥甫╱專題報導 】如何把已經泛黃的數十年舊報紙,轉換為資訊時代可用的知識?如何把每天產生數十萬字報紙新聞有效地分類整理?即使資訊科技發展至今,仍沒有一項技術可以滿足上述需求。今天(十九日)正式上線的聯合知識庫,事實上是整合國內外多項技術,克服各項技術障礙,自行開闢了一條新途徑,才能造就最大的華文新聞資料庫。
聯合知識庫以光學辨識技術(OCR)進行報紙的整版掃描,再用圖文切割方式,將報紙版面上的內容分區切塊辨識儲存,然後再以新開發的系統進行「自動為主、人工為輔」的兩套循環校對除錯,最後在使用上輔以人工智慧資料加值與搜尋引擎技術。
在這條報紙數位化的生產線上,先透過大尺寸的數位掃描器將報紙影像掃入電腦中,後端的影像處理伺服器進行去除影像雜訊,接著切割報紙標題與內文區塊,校對版面,並逐版把切割完成的報紙影像登入資料庫中。文字條稿影像登入資料庫後,接著將依照定做的文字辨識核心進行辨識,此階段的正確率可以達到百分之九十八以上。
不過,新聞內文的部分可以直接登入資料庫,但標題的部分卻需要人工輸入。這是因為報紙標題的欄位、字體、字形非常多元化,電腦畢竟不夠聰明到可以辨識如此複雜的變化,利用人工輸入反而快速而省事。下一步則是困難度甚高的「校對」,全景軟體公司提供了「集字校對工具」,將辨識出的相同文字排列,進行電腦自動比對,約可過濾出百分之二辨識上有疑問的文字及符號,然後進行人工確認,此階段的正確率約百分之九十八點八八。接著再使用切字及難字校對,完成後的正確率約為百分之九十九點六二。但是這樣還不夠,必須進行下一個程序的校對─「逐字校對」 (整篇校對 ),但所謂「逐字」,並非重新校對所有的字,而是校對電腦挑選出來的可疑字。
經過兩套循環的校對除錯,聯合知識庫內容與原報紙內容相比,正確率已可達到百分之九十九點九一。一般而言,見報文章平均字數約七百字,也就是說,聯合知識庫的內容基本上已可做到「每篇文章錯不到一個字」的精準度。
Search
報時光是怎麼練成的 在 報時光UDNtime - 【第一部以籃球為主題的偶像劇】#你追過嗎... 的推薦與評價
2020年4月13日 — 三立去年以美女牌打響首部自製偶像劇「薰衣草」,今夏則力推主打「帥哥牌」的「MVP情人」,因為同樣是球員出身,四個大男生聚在一起特別有話聊,183公分高 ... ... <看更多>