日経テレコン21 コンテンツ紹介・インタビュー

Q. データの集め方は?

  大きく3つの方法があります。①官報②官公庁に貼り出される掲示公告③官公庁のホームページです。

  独立法人国立印刷局が発行する官報は、法律、省令すべて載ります。官公庁は法律を自分のところで刷って配布はしていません。官報に載せるまでが仕事です。出版物として流通している法律は、民間の会社が印刷して売っています。法令等に限らず、官報に載った情報を元に、民間でたくさんの事業が行われています。信用照会に使う破産データなんかもそうです。官報に載せたもの、イコール公示されたものは、著作権はないものと見なされています。官公庁が掲示板に貼り出す掲示公告についても官報同様、著作権上の問題はないとの見解を官公庁より得ています。ただ、国立印刷局がデータベースをもとにインターネットでサービスしているものは印刷局に著作権があるものと解しています。私どもは国立印刷局のサイトは使わず紙の官報から直接データを集めています。

  官報以外では、公示された官公庁のホームページから入力しています。官公庁の外郭団体がネット版で独自にサービスしている場合もありますが、私どもは使っていません。外郭団体のネット版には一部しか載っていないためです。私どもとしては、徹底的に100%収集したいので、元となる官公庁のホームページを見ています。ライバル企業は自動巡回ロボットでやっていますが、私どもは一部を自動巡回ロボットで、 大半を人手でやっています。

  ロボットは取りこぼしが多いという欠点があるためです。ロボットで収集してエラーを後で、人手で修正するという方法ではなく、大半を人手で集めています。現在、1700発注機関を対象に見ていますが、将来は3000強に増やす予定です。

  なぜ、自動巡回ロボットだけでなく人手での収集にこだわるか、というと、高品質のデータにするためです。ロボットでは、1つのシステムを見に行くのは簡単ですが、1700ものサイトをロボットで見に行くのは至難の業です。ホームページは模様替えされたり刷新されたり、しょっちゅう変わります。自動巡回ロボットを調整していくのはなかなか容易ではありません。ですが、人間ならできます。役所も最近は、春近くになると変えてくるケースが多い。若い役人が積極的にどんどん変えていくようになってきています。刷新するとURLも変えるし、行政サービスとして内容も拡充される場合が多い。こうした動きに対応するのは結構大変です。サイトがどう変わったか調査するのも大変です。特に2、3月はものすごい量になります。データウェアは自動巡回ロボットだけに頼ることなく、人手中心でやっているということで、データの取りこぼしが少ないと、逆に顧客に安心してもらえています。弊社では入力のミスはほとんどありません。顧客から指摘を受けることもあり、調べてみると、官公庁自身がミスしている場合も多い。

Q. 対象1700機関というのは?

  データ収集対象は現在、国と独立行政法人、地方自治体合わせて1700機関です。関東圏は100%カバーしています。加えて、独立行政法人は全国100%カバーしています。自治体については現在、関東圏だけですが、システムのベースはできていますので、今春には全国に拡充する予定です。データとしては1700機関であってもカバー率は落札情報全体の80%をおさえていると思います。発注機関は関東圏に集中していますし、入札情報はどうしても中央官庁に多い事と予算規模に比例しますし、地方の小さな自治体は入札情報自体あまりないといった事情があるためです。

Q. 他にも特徴がありますか?

  入札データを、業務分類している点です。大変な手間がかかる人間系の世界です。官公庁は入札案件名で書くが、非常にわかりづらい表現をする場合があります。例えば、人材派遣に関するもので、官公庁が「派遣」とかくことはまずない。案件名では顧客が欲しい情報が漏れてしまうのです。中味を見て業務分類して丁寧にデータを作成しています。案件名だけでは業務が顧客にわかりにくいので、顧客が欲するものを配信するために、さらに業務分類を加えているのが特徴です。これまで官公庁関係に携わってきた社員がいます。ノウハウがあります。ライバル企業はキーワードで検索・絞り込み方式を取っていますが、どうしても漏れが出て危険です。

Q. データ収集上の課題は?

  問題は、官公庁がホームページに載せるタイミングがばらばらという点です。1日遅れや3日遅れというところもあるし、同じ官公庁でも部局によって掲載時期が異なっていたりします。官公庁によっては、あまり見られたくないのか、気づかれにくいところに掲示していたり、掲示してもすぐ引っ込めたりするところもあります。データ収集には官公庁の透明性も課題です。