外字苗字数推定 初版;2024/10/1 追記:24/10/19 改版25/1/6
本ホームページは、外字苗字について調査・検討して、記載しております。
1 全国の苗字数の推定 (2025/1/1・時点)
(1)一般的によく言われている苗字30万種は、読みでの数です。
( 苗字大辞典(芳文館:丹羽基二) 291,531(読み)、漢字推定: 172,878 )
全国の苗字数を推定すると、12万7千種(漢字)程度と考えます。
( 当HPの苗字数実績:漢字で124,594種 読みで182,000種掲載。 <実績値:2025/1/1現在> )
( 正字112,568種 外字12,026種 )
(2)外字苗字について
@ 外字苗字がいくつかで、全体の苗字数が推定できそうです <=これを、検討してみました(24/10/1)
=>外字苗字は20,000(漢字)と推定(今後+8千種)します ・・・・・<詳細は2-6)項参照>
( 外字苗字が、+8,000種あれば、苗字全体での推定値は132,000種になります)
( この外字推定は、多すぎるように思われます)
A MJ文字情報一覧表 Ver.006.02の分析から推定 <4項参照> (24/10/19追記)
=> 外字苗字は17,500(漢字)と推定(今後+5500種)します
(外字苗字が、+5,500種あれば、苗字全体での推定値は129,500種になります)
B MJ文字情報の外字「MJ明朝フォント」58,712文字について (24/10/19追記)
「MJ明朝フォント」を分析した結果、外字形は2,756文字でした
( UTFコード、X0213(JIS2004字形)も含んでおり、現在は正字扱いで表示できる字形がほとんどでした)
現状の苗字・調査方法で、(外字が多数でないため)外字苗字を含めた苗字検出ができることがわかりました
2 外字苗字の調査経過
1)当HPの外字苗字は、字形を作成して、記載してきました。 <2003年10月以降>
2)法務省の戸籍統一文字{55,266文字(漢字数)}を参考に、HPの記載をするようにしてきました。<2014年6月以降>
戸籍手続オンラインシステム:法務省(法務局>)から市区町村へ発出された通達" 通達あり
3)総務省:「MJ文字情報一覧表 Ver.006.01」(MJ字形58,712)として、 2019.5.31一般公開された<2022.1.31入手>
当ホームページは、IPAが認めている字形をベースに、収集・登録をしております。 <2022年9月以降>
( IPAmj明朝フォントが一般公開され、使用が可能になりました(2019.5.31一般公開) )
IPA::独立行政法人情報処理推進機構
4)当HPの外字登録状況
外字HPは、11,941種の外字苗字を登録しております(2024年9月30日現在)
掲載苗字 |
苗字数 |
苗字種類 |
苗字/種類 |
説明 |
今後発見 |
推定値 |
MJ字形 |
4,055 |
530 |
7.7倍 |
MJフォント全体の1%程度 (2022年9月以降使用) |
4,100 |
8,155 |
UTF・他 |
4,323 |
712 |
6.1倍 |
|
- |
4,323 |
異体字・外字 |
3,563 |
1,222 |
2.9倍 |
約50%の外字は字形作成が必要 |
3,600 |
7,163 |
合計 |
11,941 |
2,464 |
|
|
|
19,641 |
@MJ字形の苗字は、530種で、1%程度(530種/58,712種)です <「MJ明朝フォント」は、58,712文字がある>
A異体字・外字は、字形作成数:1,222種で外字の約50% (MJ文字がない字形)
これらの字形は、MJフォントにないが、公文書(官報、省庁発行文書)で使用されています
B外字推定(今後外字が発見できる推定数・最大値) :現在の発見数と同じ数があると仮定
4100(MJ字形)+3600(異体字・外字)=7,700種 <UTF他は、ほとんど検出できていると思われます>
C外字の推定値は、11,941+7,700≒19,700種(最大)と推定します
5)当HPの正字苗字からの分析(外字苗字推定)
正字 |
種類 |
MJ |
ひらがな
カタカナ |
JIS1 |
JIS2 |
JIS3 |
JIS4 |
JIS1〜4計 |
MJ系 |
MJ系(2) |
苗字数(正字) |
合計 |
3,819 |
174 |
73 |
2,405 |
1,047 |
78 |
42 |
3,572 |
5,693 |
3,741 |
112,502 |
各JIS水準値 |
10,050 |
|
|
2,965 |
3,390 |
1,259 |
2,436 |
|
|
|
|
正字苗字は、3,819種の文字構成で、112,502の苗字数が作られている。
( 2文字苗字の単純計算:√(112,502)=335 335文字の組み合で、112,502の苗字ができる)
( 2文字苗字:3,819種×30種≒112,502種 )
外字苗字も、これらの字形の類似字形(デザイン差、類似文字)で、苗字は作られていると推定されます
( MJフォントを個々に見ると、見たことがない字形が多数続きます =>一般的でないようです )
MJ系は、正字3,819種を、「MJ文字情報一覧表 Ver.006.02」で検索するとHitする文字数(5,693種)です
MJ系(2)は、「MJ文字情報一覧表 Ver.006.02」でHitしたものをグループ化した数(3,741種)です
MJフォントが、氏名(苗字と名前)で使用されているとすると、苗字10%(=5693/58712)、名前90%となりますね
@外字苗字推定
MJフォントの苗字数推定: 5,693×(1〜3.1)倍=5,700〜17,650数 <(1〜3.1)倍は、異体字・外字の倍率>
: 3,741×(1〜3.1)倍=3,700〜11,600 数
外字追加予想(10年)・苗字数 : 508×10年=5,080 (508=過去10年の平均値)
=>(今後外字発見を加算推定・最大値) 11,941+5,080〜11,941+11,600=17,800〜23,500数と推定
6)外字苗字推定
19,700数「4)C参照」、17,800〜23,500数「5)@参照」 これらから外字苗字は20,000と推定します
3 総務省の外字情報収集結果の分析:
外字の情報を得た1386市町村(回答率79.6%)で使用している1,166,536文字の字形を収集した。<2011年3月(H23年)>
<日本の市町村数:1741。重複字形の数の記述なし>
1)外字情報収集結果の内容をベースに、文字情報基盤漢字(58,712種類)を整備した
種類:文字をグループ分けした数、 包摂(ほうせつ):同じ文字とする
包摂(ほうせつ)基準は、「字形」レベルで同定し包摂することを目的とした
「文字包摂」とは、「異なる字形を区別せず、それらを同じ文字として捉えること」
「文字同定」とは、「異なる字形同士が同じ文字かどうかを判断すること」
2)外字の実態調査結果の引用・検討(須ア記載)
1,166,536文字の外字があるならば、多数の外字苗字があると予想されます。
@苗字・名前、市町村でのダブリ(50%仮定)、苗字(50%)+名前(50%)として、外字苗字を推定すると、
291,634種もあると考えていました。 <1%と仮定しても、11,665種もあることになります>
A外字苗字は、20年間の調査結果で、MJ字形は、「530」種しか検出されておりません。 (58,712種の0.9%)
この疑問を考え続けておりました。正字苗字の使用されている「3819」種と比較しても(58,712種と)大差があります。
名前を考慮すると、1億2千万人の116万と考えると1%程度になります。
<これならば1%程度のデザイン差、類似文字等の外字があっても納得>
<5人家族で考えれば、1苗字に5名前がありますね。この数値は苗字よりも名前の集計と考えると納得できます>
Bデザイン差、類似文字・・・・・包摂することは、あまり意味がないと思われます
これらを包摂することをしておりますが、公文書で「1,222」種の外字苗字を当HPでは、検出し掲載しております。
( 個人の苗字は、字形や画数にこだわりがあるので、外字が出来上がります =>包摂は難しい )
( デジタル庁が、2023年度から、外字の文字情報整備を始めました )
包摂するだけでは、外字・字形は減少しません。(管理を徹底すべきと思います)
CMJ文字情報一覧表 Ver.006.02の分析で、外字は6,255字形と分かりました。 <2024年10月12日追記>
ここでは、外字の実態調査と記述しておりますが、<2011年3月>時点で、Windows7(2009年9月リリーズ)使用で、
UTFコードにて、ほとんどの文字・字形(52,607字形・約90%)が、PCで表示できておりました。
(外字でなく、正字表示ができていた)
3)MJ文字情報等
年月日 |
IPA・Ver |
備考 |
2011年10月26日 |
Ver.001.01 |
|
2019年5月 |
MJ文字情報一覧表 Ver.006.01 |
2019.5.31一般公開された 2022.1.31入手
2022.9.1 当HP使用開始 |
2024年1月 |
MJ文字情報一覧表 Ver.006.02 |
2024.9.12入手 (Ver.006.01誤り修正等の追記)
字形は、Ver006.01と同じでした |
文字種類 | 種類 | 種類 | 省庁 | URL |
戸籍統一文字 |
55,266 |
|
法務省 |
https://houmukyoku.moj.go.jp/KOSEKIMOJIDB/M01.html |
〃 (住基ネット統一文字以外) |
|
39,280 |
|
|
住基ネット統一文字 |
19,432 |
19,432 |
総務省 |
|
文字情報基盤漢字
MJ文字 |
|
58,712 |
経済産業省委託事業
(IPA) |
https://www.moji.or.jp/mojikibansearch/detail |
注)住基文字は,地方自治情報センターが2001年2月26日に「検討版」を配布,2002年5月8日に「確定版」21,039字となり,
2002年8月5日に住基ネットとともに運用開始された文字コードである。
4 MJ文字情報一覧表 Ver.006.02の分析 <2024/10/18追記>
当HPの外字の検出数(530)とMJ文字情報(58,712)で、約100倍の相違があるので分析してみました
MJ文字情報は、UTF字形が52,607字形(現在のPCでは正字・表示が可能)で、外字字形は6,255字形でした
・これならば、MJ文字外字の検出数(530)と 、MJ文字・外字字形6,255字形ならば、納得できる倍率になります
|
数 |
実装したUCS |
戸籍統一 |
住基ネット |
常用漢字
人名漢字 |
X0213 |
X0212 |
備考
|
公表値 |
58712 |
|
55266 |
19432 |
2999 |
11233 |
5801 |
|
字形データ |
58,862 |
|
55270 |
19563 |
2999 |
13707 |
5801 |
<=公表値より多いデータ数です |
UCSあり |
|
52,607 |
|
|
|
|
|
UTF字形 |
UCSナシ |
|
6,255 |
|
|
|
|
|
外字字形 |
58,862-52,607=6,255 (UCSナシの数です) UCS=UTFコード
この外字6,255字形を、更に分析しました.。 (この字形には、X0213(JIS2004字形)が含まれていました)
<外字対象は、2,756字形となり、更に外字数が減少しました>
|
字形数 |
確認
対象 |
追加字形
確認 |
当HP掲載
種類 |
今後追加
種類推定(30%) |
当HP 掲載
外字苗字数 |
今後追加
外字苗字推定数 |
全体
外字苗字数 |
戸籍あり |
2116 |
2,116 |
1788 |
530 |
536 |
4055 |
1608 |
6029 |
住基あり |
610 |
610 |
405 |
122 |
366 |
X0213 |
3,483 |
|
|
|
|
|
|
|
戸籍・住基ナシ |
30 |
30 |
|
1222 |
(1200) |
3563 |
3600 |
7163 |
Font実装ナシ |
16 |
|
|
- |
|
|
|
|
(UTF) |
|
|
|
712 |
- |
4323 |
- |
4323 |
合計 |
6,255 |
2,756 |
2193 |
2464 |
658 |
11941 |
5,574
|
17515 |
(1)このUCSナシ・外字は、X0213字形(3483数)が含まれているので、これ除いた字形を外字としました
<X0213:JIS2004字形です 現在は正字で表示可能です>
(2)追加字形確認:字形を目視チェックして苗字字形を確認しました。(登録済みは減算しました)
(3)今後追加種類推定(30%と推定)
苗字種類 1788×0.3=536 405×0.3=122
(4)今後追加苗字推定値 (ここの字形は、特殊字形が多いので、6〜7倍でなく3倍としました)
外字苗字数 536×3=1608、122×3=366
(5)戸籍・住基ナシ
・ 「1,222」種は、公文書での外字苗字を当HPでは、検出し掲載しております
・ 外字種類=1200推定 今後追加苗字推定値=1200×3=3600(今後の追加最大値)
・この部分が、デジタル庁の戸籍システム・整備作業として(MJ+)として、追加されると思われます
(6) (UTF):外字でなく正字系でカウント可能なので、ここでの推定の対象外としました
(7) これらの分析から、追加外字数推定は5,500(5,574)程度で、外字苗字数=17,500(17,515)と推定します
したがって、外字苗字は、通常の苗字調査方法で、問題なく検出が可能と考えます。
5 デジタル庁(内閣の一部)
文字要件に係る今後の検討の方針(令和4年12月共通機能等技術要件検討会資料) <2022年12月>
文字数は、約163万=>重複を除くと約70万 <総務省の外字情報収集は、116万でした>
約55万は、MJ・約6万(58,712種)に同定
約15万は、絞込みして約1万(9198文字)を、MJ+でセットする
<同定できなかった文字を、今後MJ+として数年後に運用する予定>
地方公共団体情報システムにおける文字要件の運用に関する検討会報告書 (digital.go.jp) <=ここをクリックで詳細が見えます
1)文字情報整備作業
最近の資料では、約1万は(9198文字)です。
2)文字要件ロードマップ
2023年 |
MJ+整備期間 |
○MJ+1.0 版の公開
・同定支援ツール
・代替マップ |
MJ+ への同定準備完了 |
2024-2025
|
MJ+同定期間
|
○自治体による MJ+ への同定○1フォントファイルの作成
|
MJ+ への同定完了
|
2026
|
経過措置期間
|
○氏名等の標準準拠シ
ス テ ム
間 の 連
携 は、MJ+(データ要件)
|
→戸籍・附票以外のシ ス テ
ム に お
け るDB が MJ+に
|
・・20xx
|
経過措置満了
|
○戸籍等以外の経過
措置期間完了
〇暫定措置 PUP の使 用完了 |
→全ての標準準拠シ
ステムにおける DB・ 連携が MJ+に
|
この情報は、適宜・監視してゆきたいと思います。
MJ+が運用されても、戸籍の外字は、あまり解決しないと思われます。
( 戸籍の外字は、本来は戸籍文字登録しないと使用がダメですが、未登録で使用しているようですね)
6 当HPの苗字数(実績)・・・・・参考用
1)最近は、年間約1,200種の苗字を追加しております。外字の追加が増えております(約 66%)
2)戸籍外字が、多数あることが分かりました (戸籍上に登録されている字形は無数(最大116万)あるようです)
当HPで使用している外字は、2,500種(≒2,464)程度です <MJフォントは(58,712種)もあります>
<調査した結果・MJフォントの外字は、2,756種以下でした (ほとんどがUTFフォントが使用でき正字表示が可能でした)>
3)当HPの苗字数(実績)詳細
年数 |
実績 |
月日 |
経過日数 |
苗字数 |
年間追加数 |
正字追加 |
外字追加 |
外字苗字 |
- |
− |
2000/1/1 |
0 |
0 |
|
|
|
|
1 |
6k実績 |
2000/1/23 |
22 |
6,000 |
|
|
|
|
3 |
90k実績 |
2002/8/8 |
950 |
89,954 |
|
|
|
|
4 |
98k実績 |
2003/6/22 |
1,268 |
98,201 |
|
|
|
|
5 |
100k実績 |
2004/12/30 |
1,825 |
100,100 |
|
|
|
|
6 |
101k実績 |
2005/12/31 |
2,191 |
100,913 |
813 |
|
|
|
7 |
102k実績 |
2006/12/31 |
2,556 |
102,255 |
1,342 |
|
|
|
8 |
104k実績 |
2007/12/31 |
2,921 |
103,945 |
1,690 |
|
|
|
9 |
105k実績 |
2008/12/31 |
3,287 |
104,806 |
861 |
|
|
|
10 |
107k実績 |
2009/12/31 |
3,652 |
107,442 |
2,636 |
|
|
|
11 |
109k実績 |
2010/12/31 |
4,017 |
109,440 |
1,998 |
|
|
|
12 |
111k実績 |
2011/12/31 |
4,382 |
111,046 |
1,606 |
|
|
4,972 |
13 |
113k実績 |
2012/12/31 |
4,748 |
113,238 |
2,192 |
1,215 |
977 |
5,949 |
14 |
115k実績 |
2013/12/31 |
5,113 |
115,148 |
1,910 |
1,248 |
662 |
6,611 |
15 |
116k実績 |
2014/12/31 |
5,478 |
116,115 |
967 |
605 |
362 |
6,973 |
16 |
116k実績(2) |
2015/12/31 |
5,843 |
116,834 |
719 |
375 |
344 |
7,317 |
17 |
117k実績 |
2016/12/31 |
6,209 |
117,614 |
780 |
378 |
402 |
7,719 |
18 |
118k実績 |
2017/12/31 |
6,574 |
118,209 |
595 |
258 |
337 |
8,056 |
19 |
118k実績(2) |
2018/12/31 |
6,939 |
118,816 |
607 |
235 |
372 |
8,428 |
20 |
119k実績 |
2019/12/31 |
7,304 |
119,470 |
654 |
335 |
319 |
8,747 |
21 |
120k実績 |
2020/12/31 |
7,670 |
120,206 |
736 |
364 |
372 |
9,119 |
22 |
121k実績 |
2021/12/31 |
8,035 |
121,421 |
1,215 |
247 |
968 |
10,087 |
23 |
122k実績 |
2022/12/31 |
8,400 |
122,628 |
1,207 |
382 |
825 |
10,912 |
24 |
123k実績 |
2023/12/31 |
8,765 |
123,807 |
1,179 |
397 |
782 |
11,694 |
- |
推定値 |
2025/12/31 |
9,496 |
126,207 |
2,400 |
|
|
|
年数 |
実績 |
月日 |
経過日数 |
苗字数 |
年間追加数 |
正字追加 |
外字追加 |
外字苗字 |
4) IPAの情報 詳細
年月日 |
IPA・Ver |
備考 |
2011/10/26 |
Ver.001.01 |
|
|
MJ文字情報一覧表 Ver.002.01 |
|
|
MJ文字情報一覧表 Ver.002.02 |
|
2013年11月 |
MJ文字情報一覧表 Ver.003.01 |
|
2014年9月 |
MJ文字情報一覧表 Ver.004.01 |
|
2015年3月 |
MJ文字情報一覧表 Ver.004.02 |
|
2015年9月 |
MJ文字情報一覧表 Ver.004.03 |
|
2016年7月 |
MJ文字情報一覧表 Ver.005.01 |
|
2018年1月 |
MJ文字情報一覧表 Ver.005.02 |
|
2019年5月 |
MJ文字情報一覧表 Ver.006.01 |
一般公開された |
2024年1月 |
MJ文字情報一覧表 Ver.006.02 |
|
|