ID非表示

2015/4/27 0:08

55回答

大辞林のデータについて。 大学のレポートの一部で、大辞林一冊は何バイト分にあたるかという問いが出ました。

宿題54,620閲覧xmlns="http://www.w3.org/2000/svg">50

4人が共感しています

ベストアンサー

この回答はいかがでしたか? リアクションしてみよう

ThanksImg質問者からのお礼コメント

自分の求め方が不安だったので、補強のために質問してみたのですが、これも不正行為になることがあるのですね。失礼しました。 始めに自分で考えた方法で求めます。わざわざありがとうございました。 他のかたも、ご助言ありがとうございました。

お礼日時:2015/4/28 11:45

その他の回答(4件)

「大辞林一冊」の場合、紙の媒体を想定したものだと考えられるため、例えば複数の大辞林をデジタル化して比較する場合などには、紙をスキャンしてそれを元データとする可能性もあります。また、実際に大量の書籍をデジタル化する際には、スキャンは一般的です。その点で、単に文字と画像だけで計量するのも方法の一つにすぎないと言えると思います。 また、この質問は大学のレポートとのことなので、単に概算するだけでなく方法を吟味して、全体の筋を立てて構成する必要があると思われます。その際に、書籍やレポートにあたってみたけど知恵袋で質問して、その結果こういうやりとりをしてこういう方法を選定した、などの経緯をちゃんと書くと、良い物になるのでは。

あなたは大辞林を読んだことはありませんね? 大辞林は文字だけではなく、図表が掲載されています。そのため、単純に文字数をカウントしただけではダメです。図表を画像データ化した分を計算に含める必要があります。 画像データのサイズは以下の計算で求められます ・画像のサイズ×色のビット数(ビット数はこの場合8ビットで十分) また、日本語は一文字2バイトではダメです。最近の主流である、UTF-8で符号化すると一文字3バイトになります。 つまり、数十ページ分くらい文字数と図表のサイズをカウント・計算して、1ページ辺りの平均データサイズを求めます。1ページのデータサイズが算出できたら、大辞林の総ページ数でかければ大辞林全体のデータサイズが求まります。 レポート頑張ってくださいね!!こーゆーレポートは答えだけではなく、算出式(つまり上の説明)もしっかり書いてくださいね。

それで良いと思う。 他の手として・・・、 ・ネットで検索してみる(過去のQ&Aとかがあるかも・・?) ・大辞林を出版しているところに問い合わせる ・似たような情報量の電子辞書ソフトの容量を調べる ・「新聞紙1枚が何バイト」とか言ったすでにある情報から類推する がありそうだが、質問にあるやり方がまっとうなやり方だと思う。 後は、一冊の総文字数の概算のやり方になる。 ・サンプルページを無作為に決める ・実際に字数を数える。またはスキャナで画像にして、OCRソフトでテキストに変えて、バイト数を求める。 ・その結果を統計処理する(平均値、分散値) ・統計的に推定する。