string-distance
長い前置き
センター試験が終わると受験生に向けて各大学のA判定~E判定までのラインが示される。大手業者はB社とK塾であるが、判定ラインは2社で微妙に異なっている。
受験生にとってはある大学学部学科の判定が2社でどう違うのかを比較したい、という状況に遭遇するのですが、整理番号にあたる大学学部学科コードが2社で違っているのと、学部学科名称の表記(略称)が2社で異なっているため、一覧資料を作ろうにも突き合わせが難しいという問題があった訳です。
職場では例年この突き合せ作業を人力で行い、2社の大学コードの対応テーブルを作成していたのです。国公立大学前後期だけで3500個程ある学科を対応させる作業は地道で気の毒だなあと常々感じていましたが、ある年自分がその作業を担う立場となった。
そうした作業は得てして後回しとなる。そしていよいよ時間的に追い詰められつつあったある日、藁にすがる思いで知人に相談すると、事も無げに「string distance(文字列がどの程度似ているかを判断する技術らしい。)」を使えばよい。という返答が返ってきた。
つまり、2社の略称を比較して、最も似ているものに同じ番号を振ればよい、という提案であった。
本記録は、その「お告げ」に基づいてあれこれ試作し、最終的にはお告げの主に完全に依存しながら作成した成果物を、1年たってほとんど忘れてしまった頃に記録しつつ思い出そうという備忘録である。
試み1 エクセルのマクロでbigram 河合塾―ベネッセ大学コードの対応①
試み2 ベネッセと河合塾の大学コードを対応させる② PythonでN-gram
試み3(おまけ)試み1より 要録所見の検索入力
公開日:
最終更新日:2020/03/01