API

テキストペア類似度API

2018/04/24

テキストペア類似度APIの概要

テキストペア類似度はリクエストで送られた2つのテキストを比較し、テキスト間の意味的な類似度を算出して返却します。

例えば、
1:高橋さんはアメリカに出張に行きました。
2:山田さんはイギリスに留学している。
というように、どちらも「外国へ行っている」という意味のテキストを入力した場合、類似度は高く出力されます。

逆に、
1:今日の日経平均は大幅な続伸となりました。
2:東京では珍しく雪が降りました。
というように、意味が異なるテキストを入力した場合、類似度は低く出力されます。

これにより、2つのテキストにおける「意味的な近さ」を測る指標として利用する事が可能です。なお、類似度は0~1の範囲内で返却されますが、単純な比例による計算ではありません。意味が近しい場合は概ね0.6以上の類似度が出力されます。

テキストペア類似度APIを用いることにより、表現が異なる文章の類似度を測る事ができるため、チャットボット・音声対話システム等において、ユーザー発話がどのような質問をしているのかを測り、条件分岐を行わせる事や、ユーザーからの質問が、既存のFAQ集と似た物が存在しないかを調べる検索システムの実現などへの応用が期待できます。

リクエスト先URL

https://labs.goo.ne.jp/api/textpair

リクエストパラメータ

application/json形式のみでのPOSTを受け付けます。
※GETは受け付けませんのでご注意ください。

パラメータ名 説明
app_id
(必須項目)
アプリケーションID
request_id リクエストID
省略時は"labs.goo.ne.jp[タブ文字]リクエスト受付時刻[タブ文字]連番"となります。
text1
(必須項目)
1つ目の比較対象テキスト
text2
(必須項目)
2つめの比較対象テキスト

レスポンスパラメータ

JSONフォーマットのテキスト形式となります。
Content-typeは"application/json"となります。

パラメータ名 説明
request_id リクエストと同じ値となります。
score テキストペア類似度
0~1の範囲の数値情報。0に近いほど類似度が低く、1に近いほど類似度が高い。ただし、単純比例では無いため、注意が必要。概ね0.6以上の数値である場合、類似度が高いと言える。

入出力サンプル

入力例: Input sample

{"app_id":"[発行されたapp_id]", "request_id":"record007", "text1":"高橋さんはアメリカに出張に行きました。", "text2":"山田さんはイギリスに留学している。"}

出力例: Output sample

{"request_id": "record007", "score": 0.633348}

APIを利用するための手順についてはこちらで説明していますので、ぜひご活用ください。
利用登録はこちらからお願いします。

当APIを活用したWEBサービス、アプリも歓迎致します。ご相談はこちらからお問い合わせお願い申し上げます。

APIコンソール

開く

日本語解析API一覧

■形態素解析API
日本語文字列を、形態素と呼ばれる意味を持つ最小限の単語単位に分割します
■固有表現抽出API
日本語文字列から、人名や地名、日付表現などの固有表現を抽出します
■ひらがな化API
日本語文字列を、ひらがな もしくは カタカナ による記載に変換します
■キーワード抽出API
人名や地名、組織など文書を特徴づけるキーワードを抽出します
■時刻情報正規化API
時刻情報となる部分を抽出しそれらを正規化した値を生成します
■テキストペア類似度API
2つのテキストを比較し、その意味的な類似度を返却します
■スロット値抽出API
スロット値抽出APIを利用すると、氏名、生年月日などの基本的な情報を簡単に抽出できます