苗字の由来 苗字数 外字苗字数 苗字大辞典 苗字大辞典・追補 苗字はおもしろい 地名と苗字 改版記録

外字苗字数推定                         初版;2024/10/1 追記:24/10/19 改版25/1/6
    本ホームページは、外字苗字について調査・検討して、記載しております。

1 全国の苗字数の推定  (2025/1/1・時点)
  (1)一般的によく言われている苗字30万種、読みでの数です。
      ( 苗字大辞典(芳文館:丹羽基二) 291,531(読み)、漢字推定: 172,878 )

    全国の苗字数を推定すると、12千種(漢字)程度と考えます。
      ( 当HPの苗字数実績漢字で124,594種 読みで182,000種掲載。    <実績値:2025/1/1現在> )
                    ( 正字112,568種 外字12,026種 )

  (2)外字苗字について
    @ 外字苗字がいくつかで、全体の苗字数が推定できそうです     <=これを、検討してみました(24/10/1)
      =>外字苗字は20,000(漢字)と推定(今後+8千種)します   ・・・・・<詳細は2-6)項参照>
        ( 外字苗字が、+8,000種あれば、苗字全体での推定値は132,000種になります)
        ( この外字推定は、多すぎるように思われます)

    A MJ文字情報一覧表 Ver.006.02の分析から推定       <項参照> (24/10/19追記)
      => 外字苗字は17,500(漢字)と推定(今後+5500種)します 
       (外字苗字が、+5,500種あれば、苗字全体での推定値は129,500種になります)

    B MJ文字情報の外字「MJ明朝フォント」58,712文字について           (24/10/19追記)
      「MJ明朝フォント」を分析した結果、外字形は2,756文字でした
       ( UTFコード、X0213(JIS2004字形)も含んでおり、現在は正字扱いで表示できる字形がほとんどでした)
      現状の苗字・調査方法で、(外字が多数でないため)外字苗字を含めた苗字検出ができることがわかりました
 
2 外字苗字の調査経過
  1)当HPの外字苗字は、字形を作成して、記載してきました。                  <2003年10月以降>
  2)法務省の戸籍統一文字{55,266文字(漢字数)}を参考に、HPの記載をするようにしてきました。<2014年6月以降>
    戸籍手続オンラインシステム:法務省(法務局>)から市区町村へ発出された通達" 通達あり 
  3)総務省:「MJ文字情報一覧表 Ver.006.01」(MJ字形58,712)として、 2019.5.31一般公開された<2022.1.31入手>
    当ホームページは、IPAが認めている字形をベースに、収集・登録をしております。      <2022年9月以降>
    ( IPAmj明朝フォントが一般公開され、使用が可能になりました(2019.5.31一般公開) )
     IPA::独立行政法人情報処理推進機構

  4)当HPの外字登録状況 
    外字HPは、11,941種の外字苗字を登録しております(2024年9月30日現在)
掲載苗字 苗字数 苗字種類 苗字/種類  説明  今後発見 推定値 
MJ字形 4,055 530 7.7倍  MJフォント全体の1%程度 (2022年9月以降使用)  4,100  8,155
UTF・他 4,323 712 6.1倍   4,323 
異体字・外字 3,563 1,222 2.9倍  約50%の外字は字形作成が必要   3,600  7,163
合計 11,941 2,464     19,641

  @MJ字形の苗字は、530種で、1%程度(530種/58,712種)です    <「MJ明朝フォント」は、58,712文字がある>
  A異体字・外字は、字形作成数:1,222種で外字の約50% (MJ文字がない字形)
       これらの字形は、MJフォントにないが、公文書(官報、省庁発行文書)で使用されています
  B外字推定(今後外字が発見できる推定数・最大値)     :現在の発見数と同じ数があると仮定
    4100(MJ字形)+3600(異体字・外字)7,700種     <UTF他は、ほとんど検出できていると思われます>
  C外字の推定値は、11,941+7,700≒19,700種(最大)と推定します
    
  5)当HPの正字苗字からの分析(外字苗字推定) 

正字 種類 MJ ひらがな
カタカナ
JIS1 JIS2 JIS3 JIS4 JIS1〜4計 MJ系 MJ系(2)  苗字数(正字)
合計 3,819 174 73 2,405 1,047 78 42 3,572 5,693 3,741  112,502 
各JIS水準値 10,050 2,965 3,390 1,259 2,436  

  正字苗字は、3,819種の文字構成で、112,502の苗字数が作られている。
    ( 2文字苗字の単純計算:√(112,502)=335  335文字の組み合で、112,502の苗字ができる)
    ( 2文字苗字:3,819種×30種≒112,502種 )

  外字苗字も、これらの字形の類似字形(デザイン差、類似文字)で、苗字は作られていると推定されます
   ( MJフォントを個々に見ると、見たことがない字形が多数続きます =>一般的でないようです )

  MJ系は、正字3,819種を、「MJ文字情報一覧表 Ver.006.02」で検索するとHitする文字数(5,693種)です
  MJ系(2)は、「MJ文字情報一覧表 Ver.006.02」でHitしたものをグループ化した数(3,741種)です

  MJフォントが、氏名(苗字と名前)で使用されているとすると、苗字10%(=5693/58712)、名前90%となりますね

 @外字苗字推定
    MJフォントの苗字数推定: 5,693×(1〜3.1)倍=5,700〜17,650数  <(1〜3.1)倍は、異体字・外字の倍率>
                   : 3,741×(1〜3.1)倍=3,700〜11,600 数
    外字追加予想(10年)・苗字数  : 508×10年=5,080     (508=過去10年の平均値)
   =>(今後外字発見を加算推定・最大値)  11,941+5,080〜11,941+11,600=17,800〜23,500数と推定

 6)外字苗字推定
   19,700数「4)C参照」、17,800〜23,500数「5)@参照」   これらから外字苗字20,000と推定します

 総務省の外字情報収集結果の分析:
  外字の情報を得た1386市町村(回答率79.6%)で使用している1,166,536文字の字形を収集した。<2011年3月(H23年)>
                         <日本の市町村数:1741。重複字形の数の記述なし>

 1)外字情報収集結果の内容をベースに、文字情報基盤漢字58,712種類)を整備した      


   種類:文字をグループ分けした数、   包摂(ほうせつ):同じ文字とする
       包摂(ほうせつ)基準は、「字形」レベルで同定し包摂することを目的とした
            「文字包摂」とは、「異なる字形を区別せず、それらを同じ文字として捉えること」
            「文字同定」とは、「異なる字形同士が同じ文字かどうかを判断すること」

 2)外字の実態調査結果の引用・検討(須ア記載)
   1,166,536文字の外字があるならば、多数の外字苗字があると予想されます。
  @苗字・名前、市町村でのダブリ(50%仮定)、苗字(50%)+名前(50%)として、外字苗字を推定すると、
    291,634
種もあると考えていました。       <1%と仮定しても、11,665種もあることになります>
  A外字苗字は、20年間の調査結果で、MJ字形は、「530」種しか検出されておりません。  (58,712種の0.9%)
   この疑問を考え続けておりました。正字苗字の使用されている「3819」種と比較しても(58,712種と)大差があります。
    名前を考慮すると、1億2千万人の116万と考えると1%程度になります。
     <これならば1%程度のデザイン差、類似文字等の外字があっても納得>
     <5人家族で考えれば、1苗字に5名前がありますね。この数値は苗字よりも名前の集計と考えると納得できます>

  Bデザイン差、類似文字・・・・・包摂することは、あまり意味がないと思われます
    これらを包摂することをしておりますが、公文書で「1,222」種の外字苗字を当HPでは、検出し掲載しております。
    ( 個人の苗字は、字形や画数にこだわりがあるので、外字が出来上がります =>包摂は難しい )
    ( デジタル庁が、2023年度から、外字の文字情報整備を始めました )
    包摂するだけでは、外字・字形は減少しません。(管理を徹底すべきと思います)

  CMJ文字情報一覧表 Ver.006.02の分析で、外字は6,255字形と分かりました。     <2024年10月12日追記>
    ここでは、外字の実態調査と記述しておりますが、<2011年3月>時点で、Windows7(2009年9月リリーズ)使用で、
    UTFコードにて、ほとんどの文字・字形(52,607字形・約90%)が、PCで表示できておりました。
        (外字でなく、正字表示ができていた)

 3)MJ文字情報

 年月日  IPA・Ver  備考
 2011年10月26日  Ver.001.01  
 2019年5月  MJ文字情報一覧表 Ver.006.01  2019.5.31一般公開された  2022.1.31入手
 2022.9.1 当HP使用開始
 2024年1月  MJ文字情報一覧表 Ver.006.02  2024.9.12入手 (Ver.006.01誤り修正等の追記)
 字形は、Ver006.01と同じでした
 文字種類  種類  種類  省庁 URL 
戸籍統一文字 55,266 法務省  https://houmukyoku.moj.go.jp/KOSEKIMOJIDB/M01.html
〃 (住基ネット統一文字以外)   39,280    
住基ネット統一文字 19,432 19,432  総務省  
 文字情報基盤漢字
 MJ文字
  58,712 経済産業省委託事業
 (IPA)
 https://www.moji.or.jp/mojikibansearch/detail

 注)住基文字は,地方自治情報センターが2001年2月26日に「検討版」を配布,2002年5月8日に「確定版」21,039字となり,
      2002年8月5日に住基ネットとともに運用開始された文字コードである。

4 MJ文字情報一覧表 Ver.006.02の分析        <2024/10/18追記>
   当HPの外字の検出数(530)とMJ文字情報(58,712)で、100倍の相違があるので分析してみました
   MJ文字情報は、UTF字形が52,607字形(現在のPCでは正字・表示が可能)で、外字字形は6,255字形でした
   ・これならば、MJ文字外字の検出数(530)と 、MJ文字・外字字形6,255字形ならば、納得できる倍率になります  

   数  実装したUCS  戸籍統一 住基ネット   常用漢字
人名漢字
 X0213  X0212  備考
公表値  58712    55266  19432  2999  11233  5801  
 字形データ  58,862  55270  19563  2999  13707  5801  <=公表値より多いデータ数です
 UCSあり    52,607            UTF字形
 UCSナシ    6,255            外字字形

   58,862-52,607=6,255 (UCSナシの数です)           UCS=UTFコード

 この外字6,255字形を、更に分析しました.。 (この字形には、X0213(JIS2004字形)が含まれていました)
   <外字対象は、2,756字形となり、更に外字数が減少しました>

   字形数 確認
対象
追加字形
確認
 当HP掲載
種類
 今後追加
種類推定(30%)
当HP 掲載
外字苗字数
 今後追加
外字苗字推定数
全体
外字苗字数 
 戸籍あり 2116 2,116 1788  530  536  4055 1608 6029
 住基あり 610 610 405 122 366
X0213 3,483    
 戸籍・住基ナシ 30  30   1222  (1200) 3563  3600  7163
 Font実装ナシ 16      -        
 (UTF)        712  -  4323  -  4323
 合計  6,255 2,756  2193  2464  658  11941  5,574
17515
 (1)このUCSナシ・外字は、X0213字形(3483数)が含まれているので、これ除いた字形を外字としました
   <X0213:JIS2004字形です 現在は正字で表示可能です>
 (2)追加字形確認:字形を目視チェックして苗字字形を確認しました。(登録済みは減算しました)

 (3)今後追加種類推定(30%と推定)
    苗字種類 1788×0.3=536  405×0.3=122
 (4)今後追加苗字推定値 (ここの字形は、特殊字形が多いので、6〜7倍でなく3倍としました)
    外字苗字数  536×3=1608、122×3=366

 (5)戸籍・住基ナシ
   ・ 「1,222」種は、公文書での外字苗字を当HPでは、検出し掲載しております
   ・ 外字種類=1200推定  今後追加苗字推定値=1200×3=3600(今後の追加最大値)
   ・この部分が、デジタル庁の戸籍システム・整備作業として(MJ+)として、追加されると思われます
 (6) (UTF):外字でなく正字系でカウント可能なので、ここでの推定の対象外としました

 (7) これらの分析から、追加外字数推定は5,500(5,574)程度で、外字苗字数=17,500(17,515)と推定します
  したがって、外字苗字は、通常の苗字調査方法で、問題なく検出が可能と考えます。

5 デジタル庁(内閣の一部)
  文字要件に係る今後の検討の方針(令和4年12月共通機能等技術要件検討会資料) <2022年12月>
    文字数は、約163万=>重複を除くと約70              <総務省の外字情報収集は、116万でした
      約55万は、MJ・約6万(58,712種)に同定
      約15万は、絞込みして約1万(9198文字)を、MJ+でセットする    
             <同定できなかった文字を、今後MJ+として数年後に運用する予定>
       地方公共団体情報システムにおける文字要件の運用に関する検討会報告書 (digital.go.jp) <=ここをクリックで詳細が見えます
  
 1)文字情報整備作業  
      最近の資料では、約1万は(9198文字)です。


 2)文字要件ロードマップ 

 2023年 MJ+整備期間   ○MJ1.0 版の公開
・同定支援ツール
・代替マップ
 MJ への同定準備完了

2024-2025

MJ+同定期間

自治体による MJ への同定1フォントファイルの作成

MJ への同定完了

2026

経過措置期間

氏名等の標準準拠シ は、MJ+(データ要件)

→戸籍・附票以外の DB MJ+に

・・20xx

経過措置満了

 戸籍等以外の経過 措置期間完了
〇暫定措置 PUP の使 用完了

全ての標準準拠シ ステムにおける DB 連携が MJ+に

この情報は、適宜・監視してゆきたいと思います。
  MJ+が運用されても、戸籍の外字は、あまり解決しないと思われます。
 ( 戸籍の外字は、本来は戸籍文字登録しないと使用がダメですが、未登録で使用しているようですね)


6 当HPの苗字数(実績)・・・・・参考用
 1)最近は、年間約1,200種の苗字を追加しております。外字の追加が増えております(約 66%)
 2)戸籍外字が、多数あることが分かりました (戸籍上に登録されている字形は無数(最大116万)あるようです)
   当HPで使用している外字は、2,500種(≒2,464)程度です      <MJフォントは(58,712種)もあります>
   <調査した結果・MJフォントの外字は、2,756種以下でした (ほとんどがUTFフォントが使用でき正字表示が可能でした)>


 3)当HPの苗字数(実績)詳細

年数 実績 月日 経過日数 苗字数  年間追加数 正字追加 外字追加 外字苗字
- 2000/1/1 0 0
1 6k実績 2000/1/23 22 6,000
3 90k実績 2002/8/8 950 89,954
4 98k実績 2003/6/22 1,268 98,201
5 100k実績 2004/12/30 1,825 100,100
6 101k実績 2005/12/31 2,191 100,913 813
7 102k実績 2006/12/31 2,556 102,255 1,342
8 104k実績 2007/12/31 2,921 103,945 1,690
9 105k実績 2008/12/31 3,287 104,806 861
10 107k実績 2009/12/31 3,652 107,442 2,636
11 109k実績 2010/12/31 4,017 109,440 1,998
12 111k実績 2011/12/31 4,382 111,046 1,606 4,972
13 113k実績 2012/12/31 4,748 113,238 2,192 1,215 977 5,949
14 115k実績 2013/12/31 5,113 115,148 1,910 1,248 662 6,611
15 116k実績 2014/12/31 5,478 116,115 967 605 362 6,973
16 116k実績(2) 2015/12/31 5,843 116,834 719 375 344 7,317
17 117k実績 2016/12/31 6,209 117,614 780 378 402 7,719
18 118k実績 2017/12/31 6,574 118,209 595 258 337 8,056
19 118k実績(2) 2018/12/31 6,939 118,816 607 235 372 8,428
20 119k実績 2019/12/31 7,304 119,470 654 335 319 8,747
21 120k実績 2020/12/31 7,670 120,206 736 364 372 9,119
22 121k実績 2021/12/31 8,035 121,421 1,215 247 968 10,087
23 122k実績 2022/12/31 8,400 122,628 1,207 382 825 10,912
24 123k実績 2023/12/31 8,765 123,807 1,179 397 782 11,694
- 推定値 2025/12/31 9,496 126,207 2,400
年数 実績 月日 経過日数 苗字数  年間追加数 正字追加 外字追加 外字苗字

 4) IPAの情報 詳細

 年月日  IPA・Ver  備考
 2011/10/26  Ver.001.01  
   MJ文字情報一覧表 Ver.002.01  
    MJ文字情報一覧表 Ver.002.02  
 2013年11月   MJ文字情報一覧表 Ver.003.01  
 2014年9月   MJ文字情報一覧表 Ver.004.01  
 2015年3月   MJ文字情報一覧表 Ver.004.02  
 2015年9月   MJ文字情報一覧表 Ver.004.03  
 2016年7月   MJ文字情報一覧表 Ver.005.01  
 2018年1月  MJ文字情報一覧表 Ver.005.02  
 2019年5月  MJ文字情報一覧表 Ver.006.01  一般公開された
 2024年1月  MJ文字情報一覧表 Ver.006.02