編輯點評:hsk詞匯大綱
HSK詞匯是一款專業(yè)的詞匯app,用戶可以通過這款A(yù)PP來更好的學(xué)習(xí)自己的漢語水平,實時了解漢字、拼音和發(fā)音等內(nèi)容的學(xué)習(xí),幫助用戶學(xué)習(xí),讓漢語考試更加輕松。感興趣的就快來下載吧
HSK詞匯大綱簡介
【快快查系列】產(chǎn)品,包含了HSK一級到六級的所有詞匯學(xué)習(xí),是HSK漢語水平考試的必備產(chǎn)品。
HSK是一項國際漢語能力標(biāo)準(zhǔn)化考試,重點考查漢語非母語的考生在生活、學(xué)習(xí)和工作中運(yùn)用漢語進(jìn)行交際的能力。HSK包括HSK一級、HSK二級、
HSK三級、HSK四級、HSK五級和HSK六級。有紙筆考試和網(wǎng)絡(luò)考試兩種考試形式。
軟件亮點
1、詞語詳細(xì)說明,每一個漢字的歷史演化、出處和釋意、詞組都能獲得;
2、自定方案,每一個人能夠自身設(shè)置每日學(xué)習(xí)和備考的詞匯總數(shù);
3、文件目錄展示,挑選一個詞本得話就可以一覽這個詞本的所有單詞文件目錄;
軟件特色
海量字庫:每個漢字提供海量內(nèi)容,如注解、詳解等;
詞匯解釋:提供英文翻譯,例句,語法解析,多角度學(xué)習(xí)詞語;
引證解釋:結(jié)合古今經(jīng)典著作,闡述詞語起源,用法;
漢字解析:每個漢字都包含了詳細(xì)的解釋,如拼音、五筆、筆劃、部首、結(jié)構(gòu)等;
軟件功能
1. 規(guī)范閱讀,漢字、字音對應(yīng)規(guī)范;
2. 詳細(xì)顯示漢字,可顯示漢字的部首、筆畫、結(jié)構(gòu)、五筆等;
3. 可以得到每個漢字的詳細(xì)說明,包括其歷史沿革、來源、解釋和舉例說明;
4. 自主制定計劃,每個人都可以設(shè)定自己每天學(xué)習(xí)和復(fù)習(xí)的詞匯量;
5. 在顯示內(nèi)容的表格中,選擇一個單詞本子可以看到該單詞本子中所有新單詞的列表;
6. 這里我們收集了HSK 1 - 6級的真實詞匯。
如何利用Python篩選HSK核心詞匯
背景說明
由于班上有一批學(xué)生需要參加HSK5的考試,但是在實際授課中發(fā)現(xiàn)他們對于該級別的詞幾乎不怎么認(rèn)識,甚至于HSK4的詞都有很多沒掌握的。所以為了短期突擊,需要制作HSK4和5的核心詞表。
制作思路如下:
1. 建立HSK標(biāo)準(zhǔn)詞表,包括
漢字
拼音
英文
詞性
級別
2. 建立基于標(biāo)準(zhǔn)詞表的詞頻表
3. 按照詞頻篩選核心詞匯(除名詞/動詞/形容詞之外的詞類)
4. 按照字族篩選核心詞匯(名詞/動詞/形容詞)
之所以要補(bǔ)上按照字族篩選核心詞匯,是因為漢字的字族(也就是語素教學(xué)法中的語素)能有效降低學(xué)生的學(xué)習(xí)成本和記憶成本。比較適合名詞/動詞/形容詞這三類數(shù)量比較多的詞類。
具體步驟如下:
一,建立HSK標(biāo)準(zhǔn)詞表(1-6級)
網(wǎng)上有現(xiàn)成舊詞表下載,需要人工審核的是以下幾個部分
1. 詞表更新:根據(jù)HSK官方考綱2015版,有近12%的詞匯是增補(bǔ)的,要替換進(jìn)舊詞表
2. 拼音審核:特別是多音字,大小寫,還有谷歌翻譯的莫名拼寫(比如法國的拼音是Fàguó你敢信?)
3. 義項審核:有些多義詞,是需要根據(jù)官方考綱的詞性標(biāo)注,進(jìn)行修正的(比如長zhǎng和長cháng)
二,添加詞性分類
在這里詞性分類有兩個方法
1)直接用手機(jī)拍照然后用OCR識別官方考綱上的詞性標(biāo)注,與標(biāo)準(zhǔn)詞表進(jìn)行一一對應(yīng)
2)用Python調(diào)用jieba插件,進(jìn)行詞性標(biāo)注
我用的是第二種方法,代碼如下
#!usr/bin/env Python# coding = utf-8import jieba.posseg as posimport xlrdimport xlwtinput_excel = xlrd.open_workbook('/Users/Arthur/learnPython/vocabulary/HSK5.xlsx')input_sheet = input_excel.sheets()[0]output_workbook = xlwt.Workbook(encoding="utf-8")output_worksheet = output_workbook.add_sheet("new", cell_overwrite_ok=True)row1 = 1col1 = 1#存在詞典查不到的詞,需要優(yōu)化for word_num in range(2144): item1 = input_sheet.cell(row1,col1).value part_of_speech = pos.cut(item1) for word, flag in part_of_speech: output_worksheet.write(row1-1, col1-1, word) output_worksheet.write(row1-1, col1, flag) row1=row1+1output_workbook.save('/Users/Arthur/learnPython/vocabulary/HSK5-2.xls')
標(biāo)準(zhǔn)好的詞性分類如下
這里有一個問題就是jieba插件的詞性分類是按照與ictclas 兼容的標(biāo)記法進(jìn)行標(biāo)記的,很多標(biāo)記與我們熟知的英語不一致,舉例如下:
詞性標(biāo)記與傳統(tǒng)的英語語法不一致
解決方法是復(fù)制到excel之后,進(jìn)行批量替換即可。
三,建立詞頻表
因為沒有HSK范圍內(nèi)的語料庫支持,所以從網(wǎng)上找了一個八千多詞頻表作為基準(zhǔn)。總體而言,針對HSK考試的有效性是不足的,但在時間有限的情況下,也沒有更好的辦法了。
將HSK標(biāo)準(zhǔn)詞表與八千詞頻表進(jìn)行比對(用excel的函數(shù)vlookup),自動填充HSK詞匯的詞頻。
這里有一個問題就是有些詞在詞頻表里沒有出現(xiàn),采取的處理方法就是:詞頻作為0處理。不過根據(jù)詞類排序之后,大部分的虛詞還是一眼就能看出來的,影響不大。
建立好的詞頻表如下:
增加了詞頻,可以看到有的詞頻是N/A
四,篩選核心詞匯
篩選核心詞匯我采用了兩種方法
1)按照詞頻分
將副詞/連詞/介詞/助詞等數(shù)量較少的詞類,在excel中按照詞頻排序。
實際情況是,詞頻基本沒啥用,因為這些詞類本身數(shù)量就比較少,所以基本都入選了核心詞匯。
2)按照詞頻+字族分
前面已經(jīng)介紹過,采用這種方法的原因是
1. 字族能有效降低學(xué)習(xí)成本和記憶成本,適合考試的時候猜測詞義
2. 名動形這三個詞類的詞匯數(shù)量比較多,用字族就能打破一個一個記憶的障礙,以少馭多。
3. 當(dāng)篩選出n個字族時,再用字族里所有詞匯的權(quán)重之和去給字族排序,所以
字族的詞越多,排名越前
不同字族的詞一樣多,詞匯相加的權(quán)重之和多高,該字族排名越前
排序之后再人工篩選一遍
熱門評論
最新評論