苗字数推定(その2)                     2026/3/9初版
 1995年頃の苗字データで、日本の苗字数は30万種の説がありますが、これほど多いとは思われません
  漢字苗字は、推定で17万〜20万です。 (存在が確認できない苗字も掲載しているそうです)
 2000年代以降に発売されたNTT電話帳・電子データを使用して、苗字を分析することができます
  電子データWeb情報を利用することにより、存在する苗字の分析ができます
  存在する苗字数は、13万種(漢字)程度と思われます
 苗字数:日本の苗字・アナログ的調査・30万種か、デジタル的調査・13万種かを考慮すれば理解できると思います

1 苗字数分析
 1) 苗字大辞典では、全国の苗字は30万種あると、言われております
  ・30万種の調査は、100万墓の調査で見つけたとの説があります(疑わしいですが)
             (苗字数の数倍の調査で、見つけたと考えているのでしょうかね)
   この30万は、読みでの数です(漢字では20万種以下と考えられます)   漢字苗字の1.5倍が読みです
 2)苗字大辞典分析(漢字ベース)
   当HPのデータを利用して、100万データで30万苗字収集の可能性を分析してみました
   当HPは、の3000万世帯数(30,964,126)利用で、11万4千種(114,848)の苗字収集をしております。
   墓石100万で、30万種の苗字が収集できるか、分析してみました

     表1-1 発見苗字数・推定 
軒数 世帯数 種類数 100万で発見
・種類数推定
100万件の
比率
200万で発見
・種類数推定
200万件の
比率
31軒以上苗字 30,364,121 28,650 28,650 980,623 28,650 1,961,245
(30〜15軒)苗字 270,547 12,356 8,737 8,737 12,356 17,475
(15〜1軒)苗字 329,458 73,842 10,640 10,640 21,280 21,280
正字・計 30,964,126 114,848 48,027 1,000,000 62,286 2,000,000

・100万・調査での、発見苗字・推定は、4万8千種(48,027)です
 <2万8千種(28,650)の苗字が、98%の世帯数を占めますので、世帯数の苗字を見つけるは大変です>
・200万・調査でも、発見苗字推定は、6万2千種(68,286)です(約100人(89名)の調査協力者の最大値)
 <約100人の協力者が、各人1万種は持参しないと思いますが試算してみました>
・苗字大辞典は、17〜20万種の漢字苗字が収集されておりますので、100万で30万種を見つけたのは不可能ですね
          <もっと別の方法で、収集したと思われます>

 3)<以下は、2009年12月に「苗字大辞典」を分析した情報です>

  項目 出版
 発表月日
苗字数
(読み)
苗字数
(漢字)
推定苗字数
(漢字)
備考
苗字大辞典
(芳文館:丹羽基二)
平成7年9月1日
(1995/9/1)
291,531 - 172,878
     注1
平成4年3月出版着手
(定価346,500円)
〃    推定値  - (175,872) - 104,469
     注2
存在する苗字数を推定

  注1) 「苗字大辞典」は、苗字数291,531種を掲載していると記述されておりますが、読みでの数です(漢字数の記載なし)
      記載データをサンプル調査をして、推定してみました。<推定苗字数(漢字)=172,878種>
       (なお、「存在しない苗字」が、40ほど含まれていると思われます)
  注2)<推定苗字:172,878種から存在する苗字数は、104,469種(存在確率:60.4%)と推定しました (2009年推定実施)>
     <存在が確認できない苗字でも、調査協力者(89名)の情報を尊重して、記載しているそうです>
    ・パソコンを利用することなく、これだけの情報収集と分析を実施したのは、素晴らしいですね

  <「存在しない苗字」について、17年後・再度調査しましたが、やはり確認できませんでした(2026年1月)> 
    =>「存在しない苗字」が含まれているかの分析が必要と思われます
    ・「苗字大辞典」での外字苗字は、サンプルページにて分析すると、1%以下(0.5%)で、ほとんどありませんでした

2 2文字苗字の分析
  「ありそうな苗字」を分析してみました
 1)2文字苗字の概要  「ありそうな苗字」≒「存在が確認できない苗字」について分析

   表2-1 苗字種類   
苗字種類 ありそうな
苗字数
合計 備考
1文字苗字 2,192 1.9% 2,192
2文字苗字 89,266 76.6% 55,747  145,013 ありそうな苗字を入れると苗字が多くなる
3文字苗字 24,570 21.1% 24,570
4文字苗字 540 0.5% 540
5文字苗字 6 0.01% 6
116,574 100% 172,321

  2文字・苗字で76%、3文字苗字で21%で、全体の98%の苗字が構成されています
                          (苗字数116,574について、帰化苗字も含んで分析しました)
  ・表2-2の2文字・苗字の分析情報を加算してみました
  ・存在苗字8万9千種(89,266)に、ありそうな苗字5万5千種(55,747)を加算すると14万5千になり、
   全体では、17万2千種になります。
  ・存在が確認できない苗字でも掲載したと言っている、「苗字大辞典」と偶然ですが、ほぼ一致しました
  
 2)2文字苗字の分析
  ・1文字目と2文字目の上位漢字(100〜1000種)を合成して、その苗字があるか解析しました
        (なお、116,574種の苗字は、 3819種・漢字で構成されております)
   100種〜1000種の苗字・上位漢字で複数の合成漢字苗字が作成できます

     表2-2 存在苗字とありそうな苗字    
上位漢字 合成漢字
苗字
存在苗字 存在確率 存在ナシ
苗字
ありそうな
苗字
ありそうな
苗字%
目視確認
ありそう苗字
100種 10,000 7,871 79% 2,129 1,676 17% 1,695
200種 40,000 23,009 58% 16,991 9,774 24% -
300種 90,000 35,896 40% 54,104 21,579 24% -
400種 160,000 46,219 29% 113,781 32,868 21% -
500種 250,000 53,947 22% 196,053 42,306 17% -
1000種 1,000,000 59,259 5.9% 940,741 55,747 6% -
3819種      89,266           


           図2-1 漢字合成苗字(存在苗字)
  ・日本の苗字は、主に漢字・2文字で構成されているので、多数の苗字が考えられますが
   存在苗字は、案外少ないです (図2-1参照)

2)存在苗字とありそうな苗字(図2-2参照: (図2-1の拡大図))
  ・苗字の上位・2漢字の合成漢字苗字を分析すると、ありそうな苗字が多数あります

       図2-2 存在苗字とありそうな苗字

  ・1000種の漢字(1000×1000)で、ありそうな苗字5万5千種(55,747)もあります
   (ありそうな苗字は、100種漢字で、目視確認(1,695)しました。他は大変なので目視は止めました)
  ・存在苗字の%は、100種では高いですが、1000種になると6%程度の低さになります。
    「ありそうな苗字」の%も1000種合成で、%は低いのですが、絶対値・苗字数は案外多いです
  ・ 「ありそうな苗字」(確認ができない苗字)を、苗字数に入れると、苗字数は大きな数値になります

3 苗字数(統計的手法)
  当HPの掲載は、12万7千種(漢字、読み18万種)を掲載しております。  統計的手法を利用すると全国の苗字数は13万4千種程度です
 

統計学でいう「飽和曲線」は、ある量が増えるにつれて効果や反応が頭打ちになり、限界値へと近づいていく曲線です
 飽和曲線は、次のような特徴を持つ関数で表されます。
  ・ 初めは入力(経過日数)が増えるほど、出力(苗字数)が大きく増える
  ・ しかし、ある点を超えると増加が鈍くなる
  ・ 最終的には 上限値(飽和点)に近づくが、それ以上はほとんど増えない
  ・(システム開発やソフトウエア開発でも、この手法が利用でき、完成度の分析に利用できます)

3 まとめ
  日本の苗字種類数(漢字)について、3ヶ月ほどかけて、ありそうな苗字分析をしてみました。
 ・当HP:正字苗字11万5千、外字苗字1万2千 計12万7千種を掲載 (存在確認ができた苗字を掲載)
      (正字苗字の漢字3819種で正字苗字は作られている)  
 ・推定・存在する苗字は、13万程度です(パソコン利用で存在確認が可能です)
   戸籍統一文字 :  55,266文字(住所、苗字、名前で使用)<=ほとんどが住所、名前で使用する漢字です
   MJ文字情報(IPA):58,712文字(住所、苗字、名前で使用)<=〃
 ・存在が確認できない苗字(約5万種)を加算すると、漢字苗字17万〜18万種になります
  「存在する苗字」をベースに、苗字種類数を考えるべきと思います
 ・苗字本にて、2万8千種(98%)、4万種(98.8%)の苗字記載があれば、ほぼ満足できます。(表1-1参照)
  (「苗字8万」等の苗字本ならば十分満足できると思われます。 (実際この本が参考になりました))

 ・雑記
  「苗字大辞典」の著者は、パソコンでの苗字・検索が難しいと言っていました
  Webの苗字サイトで、苗字を入力すれば簡単に存在確認ができますね。
  なぜかなと思っていましたが、そうかキーボード操作が出来ない人々は確かに難しいですね(1995年代の会社の偉い人々もそうだった)

  最後までご覧いただきありがとうございます