ord: アスキーコードを取得
>>> ord("a")
97
ユニコードオブジェクトの場合は、ユニコードを整数で返す。(python2)
>>> ord(u"あ")
12354
>>> hex(ord(u"あ"))
0x3042
>>> u"\u3042" == u"あ"
True
python3の場合は、文字列がはじめからユニコード文字列なので、uを付けなくてもよい。
>>> ord("あ")
12354
chr: アスキーコードから文字へ
>>> chr(97)
'a'
ユニコードはunichr(python2)
>>> unichr(12354)
u"\u3042"
python3でははじめから文字列がユニコードなのでunichr関数は存在せずに、chr関数で文字コードから文字を得られる。(出力結果はpython2と違うが同値)
>>> chr(12354)
"あ"
ピンバック: BERTにおけるテキストクレンジングを紹介[BERT] – user's Blog!
ピンバック: BERTにおけるテキストクレンジングを紹介[BERT] – CV・NLP TIPS